Om bedrijfsdata optimaal te benutten, is een moderne data warehousing-omgeving onmisbaar. Hiermee gepaard gaan een agile ontwerp- en development-proces, een snelle time-to-value en een flexibel aanpasbare infrastructuur met als doel te kunnen anticiperen op veranderende zakelijke behoeften. Wat zijn dan de opties? Daarvoor moet eerst duidelijk zijn wat het verschil is tussen data warehouse automation (dwa) en traditionele extract, transform & load (etl)- en extract, load & transform (elt)-tools. Dit helpt om gefundeerde beslissingen te nemen ten aanzien van de mogelijkheden die je organisatie nodig heeft voor een toekomstbestendige data warehousing-strategie.
Etl-tools zijn over het algemeen servergebaseerde oplossingen voor data-integratie. Ze maken het mogelijk om data uit verschillende gegevensbronnen te manipuleren en over te zetten naar een data warehouse. Veertig jaar geleden zagen de eerste etl-tools het licht. In die tijd beschikten de servers waarop databases draaiden niet over de rekenkracht van tegenwoordig. Daarom werden etl-oplossingen ontwikkeld om de workload rond dataverwerking te verlichten. De meeste van deze tools voorzagen in aanvullende applicatie- en databaseconnectiviteit en functies voor datamanipulatie die voorheen alleen in beperkte vorm in database engines beschikbaar waren.
In plaats van de oudere etl-methode te gebruiken, hanteren sommige leveranciers tegenwoordig een elt-aanpak. Hierbij vindt de transformatie van data plaats in het data warehouse. Op die manier is er geen tussenliggende laag in de vorm van een etl-server meer nodig. Deze aanpak maakt handig gebruik van de ondersteuning voor massively parallel processing (mpp) die te vinden is in moderne database-engines en cloud-platforms zoals Snowflake, Amazon Redshift en Microsoft Azure SQL Data Warehouse.
Elt betekende absoluut een stap vooruit in het denken over het manipuleren en verplaatsen van data. De mogelijkheden van etl en elt beslaan echter slechts een klein onderdeel van de levenscyclus van data warehousing. Dat betekent dat organisaties gebruik moeten maken van allerhande ongelijksoortige tools voor taken rond de ontwikkeling, implementatie, documentatie en het beheer van hun data warehouses en andere gegevensinfrastructuren.
Toekomstbestendige aanpak
Waar de reikwijdte van etl- en elt-tools is beperkt, omspant automatisering van de data-infrastructuur de volledige levenscyclus van data warehousing. Dwa verenigt alles, van de planning, tot de data discovery, operationele processen, het wijzigingsbeheer en zelfs de documentatie.
Etl- en elt-tools genereren code voor het verplaatsen en transformeren van data. Maar data warehouse automation gaat nog een stapje verder. Een beetje dwa-oplossing volgt het elt-principe en genereert databaseobjecten zoals tabellen, indexen, weergaven, dimensies en inzichten die altijd synchroon lopen met het gebruikte data warehouse. Dit wordt aangevuld met uitgebreide zakelijke en technische documentatie, inclusief een complete data lineage. Daarnaast zijn patronen in code, modellering en zelfs de ontwikkeling en uitrol van workflows te automatiseren. Deze gestandaardiseerde manier van werken is eigenlijk de eerste stap op weg naar automatisering.
Hoe kan data warehouse-automatisering etl/elt complementeren?
Dwa biedt meerwaarde ten opzichte van etl/elt als er a) sprake is van onduidelijke eisen ten aanzien van data, b) de eisen ten aanzien van data snel wijzigen of c) de bronsystemen van tijd tot tijd veranderen. Dwa is echter ook voor een belangrijk deel ontwikkeld om het werk van it-professionals te verlichten. Zij gaan nog altijd gebukt onder de last van arbeidsintensief, handmatig en routinematig programmeren van sql-code, een gebrek aan consistente ontwikkelingsstandaarden en documentatie en strakke deadlines in verband met de time-to-value. Dwa reduceert de noodzaak van uitgebreide, niet-geïntegreerde toolsets en maakt het eenvoudiger om met wijzigingen binnen de infrastructuur om te gaan. Dwa vereenvoudigt daarnaast de implementatie en operationele processen. Dit waarborgt de levensvatbaarheid van het datawarehouse met betrekking tot zijn uiteindelijke doel: inzicht in de business verschaffen.
Een toekomstgericht datawarehouse vraagt om automatisering. Tot op zekere hoogte, tenminste. Mogelijk stelt je infrastructuur je niet in staat om volledig over te stappen op dwa. Maar als er al werkende etl- of elt-code beschikbaar is, is het mogelijk om dwa te introduceren zonder de noodzaak om de bestaande code aan te passen of herschrijven. Omdat je beide oplossingen naast elkaar kunt gebruiken, zou je kunnen profiteren van de voordelen van de automatisering van (delen van) de data warehouse-levenscyclus.
Mark van der Heijden, senior solutions architect EMEA bij Wherescape