Hoe we data-management technisch inrichten is voer voor discussie in de sector. Het gebruik van grotere hoeveelheden gegevens voor inzicht en actie moet sneller en flexibeler, maar hoe? Welke kant gaat het bij het ontbreken van een wondermiddel op? Daarom een tijdlijn van data-management.
- Het data-warehouse
Het data-warehouse-concept werd eind jaren tachtig, begin jaren negentig in de praktijk gebracht. Bill Inmons boek ‘Building the Data Warehouse’ werd gepubliceerd in 1992. Het basisproces van gegevens en analyse zag er toen als volgt uit: de gegevens worden geëxtraheerd uit de transactiesystemen, getransformeerd (inclusief data cleansing, validatie en aggregatie) in een staging area en vervolgens geladen in het datawarehouse voor verdere modellering zoals het maken van Star-schema’s. Daarbovenop komt dan de business intelligence en analytics-software.
Dit klinkt nog steeds bekend, want veel bedrijven gebruiken dit dertig jaar oude proces uit het vorige millennium nog altijd.
Hoewel het in de jaren negentig een vooruitgang was, is de tekortkoming van deze opzet een gebrek aan prestaties, het ontbreken van gedetailleerde gegevens voor analyses, en een rigide proces dat wendbaarheid in de weg staat. Om betere prestaties te verkrijgen, werden ‘cubing’-technologieën ontwikkeld en werd het datawarehouse groter. Data-marts moesten meer respons bieden, operational data store vulde de datawarehouse-mogelijkheden aan met operationele rapportage, controles en besluitvorming.
Het bouwen van een gecentraliseerd data-warehouse was echter tijd- en kostenintensief en het snel verkrijgen van gedetailleerde inzichten was nog steeds een probleem. Bovendien kon een datawarehouse alleen gestructureerde gegevens verwerken, maar met de komst van internet en het begin van de digitalisering waren steeds meer gegevens eigenlijk ongestructureerd.
- Het data-lake
Om de inzichten van alle data-types aan te boren, werd het idee van een data-lake ontwikkeld. De term werd in 2010 voor het eerst bedacht door James Dixon, een van de medeoprichters van Pentaho. In een blogpost zei hij: ‘Als je denkt aan een data-mart als een opslag van gebotteld water – gereinigd en verpakt en gestructureerd voor gemakkelijke consumptie – is het data-lake een groot waterlichaam in een meer natuurlijke staat. De inhoud van het data-lake stroomt binnen vanuit een bron om het meer te vullen, en verschillende gebruikers van het meer kunnen komen om het te onderzoeken, erin te duiken of monsters te nemen.’
De belofte van het data-lake was om ongestructureerde en semigestructureerde data aan te boren, de toegang tot gedetailleerde data te versnellen en de kosten te verlagen. De belangrijkste use-case voor het data-lake was machine learning en data-science, in tegenstelling tot business intelligence en analytics in de datawarehouse-wereld. Waar voor datawarehouses SQL-vaardigheden voldoende waren, vereiste het datalake nieuwe processen en talen zoals Hadoop, Spark Scala, Python of HiveQL. En hoewel het snel zou zijn voor het schrijven, was de query relatief traag vergeleken met het snelle lezen van het datawarehouse waar de gegevens geoptimaliseerd waren voor analytics. En hoewel experts op Strata-Hadoop World in 2021 beweerden dat het data-lake het datawarehouse zou doden, is het overlijden nog niet in zicht.
Clouddata-concepten van het lake-house naar data-mesh
Rond 2016 begonnen clouddata-platforms momentum te krijgen. Destijds schatte Gartner dat ze slechts tien procent van de database/analytics-markt uitmaakten, maar voorspelde dat dit in 2022 twee derde zal zijn. En inderdaad, in de afgelopen paar jaar, gestimuleerd door de pandemie, versnelden bedrijven hun migratieplannen. De voordelen van de cloud – de scheiding van computing en opslag, onbeperkte computing, elastische schaalbaarheid, gedistribueerde systemen – maken snelle prestaties op alle gegevens mogelijk. In deze nieuwe omgeving ontstonden nieuwe concepten.
Data-fabric begon in 2014 als een concept van NetApp. Sindsdien is het conceptueel geëvolueerd en is het een basis geworden dat door Gartner wordt gedefinieerd als ‘een ontwerpconcept dat dient als een geïntegreerde laag (fabric) van data en verbindende processen. Het data-fabric legt sterk de nadruk op metadata en ai om gerelateerde gegevens te ontdekken in cloud- en on-premises-datasets.
Het data-lakehouse combineert het beste van zowel een datawarehouse als een datalake en biedt geconvergeerde workloads voor data-science en analytics use-cases.
Data-mesh is zowel een architecturale aanpak als een organisatorisch concept, ontwikkeld door ThoughtWorks en gedefinieerd in Zhamak Dehghani’s nieuwe boek ‘Data Mesh: Delivering Data-Driven Value at Scale’. In de data-mesh is het einddoel een data-product. Data worden georganiseerd en gecontroleerd door domeinen, en mogen niet worden verplaatst.
De winnaar?
Er speelt dus van alles. De ‘oude’ wereld van data-warehouse en analytics is opgeschud. Cindi Howson, chief data strategy officer bij ThoughtSpot, heeft op LinkedIn een enquête gehouden onder meer dan driehonderd data-professionals, waarin werd gevraagd naar de data-architectuur die zij de komende twee jaar zullen nastreven. Alle genoemde concepten krijgen min of meer dezelfde tractie: data-mesh 29 procent, lakehouse en data-warehouse 24 procent en data-lake 23 procent.
Deze nieuwe concepten vormen de basis voor het toekomstige digitale succes, en het is nu tijd om ze te omarmen. Deze nieuwe architecturen kunnen echter niet worden bereikt door slechts één nieuwe technologie aan te schaffen. Dat ligt aan het nieuwe basisproces voor data en analyse. De gegevens worden nog steeds uit de bronsystemen gehaald met behulp van nieuwe tools zoals Fivetran of Stitch, die het data-invoerproces hebben geautomatiseerd en naar het clouddata-warehouse (of hoe je het ook wilt noemen) worden geladen. Nieuwe transformatietools die drie jaar geleden nog niet bestonden, zoals dbt of Supergrain, worden gebruikt om de gegevens binnen het datawarehouse te transformeren. In deze cloud-omgeving, waar snelheid en de schaal van gegevens een belangrijke rol spelen, is het etl -proces veranderd in een elt-proces (extract, load, transform). Nieuwe cloudgebaseerde analysetools maken dan direct verbinding met het cloud-gebaseerde dataplatform en voeren de analyse direct daarbinnen uit. Daarnaast is er vaak een omgekeerd etl/elt-proces nodig om de inzichten terug te koppelen naar de applicaties waar de gegevens vandaan komen, zodat er snel actie kan worden ondernomen.
Met zoveel hype over nieuwe tools en nieuwe concepten, moeten bedrijven het hoofd koel houden en de hype van de realiteit scheiden om de oplossing te vinden die het beste bij hun databehoeften past. Maar naast de technologie is de belangrijkste vraag die moet worden gesteld: zijn onze praktijken, processen en denkwijzen ook veranderd? Denken we nog steeds aan etl, of staat elt al boven aan onze agenda? Want één ding is duidelijk: bedrijven kunnen het zich niet veroorloven om dertig jaar oude denkwijzen en vaardigheden te gebruiken en niet mee te evolueren met de nieuwe ontwikkelingen die de cloud ons brengt.