De data-aanpak wil danig verschillen in organisaties. We overlopen in functie daarvan de belangrijkste concepten en termen. Via een data-lakehouse gaan we over tot data-mesh en data-fabric. ‘Het op orde hebben van de eigen data krijgt vernieuwde aandacht.’ Dit is het tweede en laatste deel van de mini-reeks over dataterminologie.
In het eerste artikel in onze ‘alles voor data’-reeks overliepen we al de kenmerken – én de voor- en nadelen – van een datawarehouse, een data-lake en data-mart. Na deze eerste drie volgen in dit artikel drie nieuwe datatermen.
4. Data-lakehouse
Een data-lakehouse is een laag bovenop een data-lake die toelaat om bijvoorbeeld bepaalde vooraf bepaalde formaten af te dwingen, aan dataversie beheer te doen of om kwaliteitscontroles uit te voeren. ‘Waardoor het data-lake bruikbaar wordt voor meer traditionele rapportage, die anders nog via een aparte datawarehouse zou moeten gebeuren’ , stelt Edle Everaert, tot voor kort hoofd ai business consulting bij ML6.
Tegelijkertijd is zo’n lakehouse volgens haar beter, meer gecontroleerd, bruikbaar voor artificiële intelligentie (ai) en machine learning. ‘Belangrijk om aan te geven is dat het data-lakehouse bestaat uit een set van ‘workloads’ – bewerkingen en activiteiten – die uitgevoerd worden op de data in het data-lakehouse, zonder die opnieuw op te slaan, waardoor iedereen wel op dezelfde data blijft werken’, benadrukt Everaert.
Het voordeel is, volgens haar, het combineren van de voordelen van de twee dataopslagarchitecturen, en dan met name de mogelijkheid om gestructureerde en ongestructureerde data op een gecontroleerde manier op te slaan en te gebruiken.
Al zijn er ook nadelen, of op z’n minst aandachtspunten, bij zo’n lakehouse. ‘Het is een heel nieuwe soort architectuur met een verhoogde complexiteit, die nog volop uitgewerkt en uitgetest wordt.’
Wie was eerst: Databricks, AWS of Snowflake?
Over het ontstaan van de term data-lakehouse is overigens nogal wat discussie. De term werd in elk geval wijdverspreid begin 2020 toen Databricks hem overnam om zijn aanpak te beschrijven die de kenmerken van gegevensstructuur en gegevensbeheer van het datawarehouse combineert met de opslag die gebruikt wordt voor data-lakes.
Al hanteerde Amazon Web Services (AWS) de term ‘lake house’ al eerder, eind 2019, in verband met Amazon Redshift Spectrum, hun dienst die gebruikers van Amazon Redshift datawarehouse-service in staat stelt om queries toe te passen op data die zijn opgeslagen in hun Amazon S3 cloud. En nog eerder, eind 2017, promootte Snowflake dat hun klant Jellyvision Snowflake gebruikte om schemaloze en gestructureerde dataverwerking te combineren in wat Jellyvision beschreef als … een data-lakehouse.
5. Data-mesh
Naast de data-architectuur rond een data-lake en data-mart (zie dus onze vorige aflevering), wat een meer centrale opzet is, is er intussen ook weer de trend terug naar een ‘data-mesh’ architectuur. ‘Dat opzet is weer meer gedistribueerd is’, stelt Everaert.
Zo’n data-mesh-architectuur is ontworpen om de toegang tot gegevens minder complex te maken en samenwerking te bevorderen. Het biedt een meer gebruikersgerichte benadering van gegevensbeheer. Bij Toyota Europe, dat recent zo’n data-mesh begon uit te rollen, definiëren ze zo’n data-mesh als een benadering van databeheer die er ook voor zorgt dat de verantwoordelijkheid voor dataproducten bij de zogenaamde business owners in hun organisatie blijft.
‘Data-mesh is nog altijd een leidend architectuurprincipe, maar het is het voorbije jaar wel wat ondergesneeuwd door alle aandacht rond generatieve ai’, stelde Ron Tolido, cto global van Capgemini Insights & Data onlangs op een avondconferentie van it-organisatie SAI. Al blijft het data-mesh zeker van tel.
6. Data-fabric
Een term die recent vaak valt is data-fabric, ook omdat Microsoft de term Fabric volop hanteert in zijn (recente) aanbod van end-to-end analyse- en dataplatform. Volgens Gartner is data-fabric een opkomend concept voor datamanagement en data-integratie. ‘Het doel is om datatoegang in het hele bedrijf te ondersteunen door middel van flexibele, herbruikbare, uitgebreide en soms geautomatiseerde data-integratie.’
Zo’n data-fabric moet een uniforme, geïntegreerde laag van data creëren over verschillende bronnen en locaties, waardoor het voor gebruikers eenvoudiger moet worden om data te beheren en te analyseren. Al is een data-fabric niet de laatste episode in het dataverhaal dat organisaties kunnen schrijven.
Want tenslotte ook dit: data termen en -concepten krijgen soms wel eens een (licht) andere invulling, vaak op basis de markt en de aanbieders. ‘Welke keuze bedrijven ook maken tussen al die concepten, kernboodschap is dat het op orde hebben van de eigen data vernieuwde aandacht krijgt’, zo besluit Edle Everaert.
Ter aanvulling:
7. Dataspaces – hoewel enigszins lijkend op data-meshes, vanwege de gedistribueerde architectuur, gaan dataspaces vooral ook over het ontsluiten van de data binnen zo’n federatief en niet-gecentraliseerd ecosysteem. Zie deze Vlaamse bron: https://www.imec.be/nl/dossier/data-spaces en Wikipedia: https://en.wikipedia.org/wiki/Dataspaces en zoals de eerste bron al vermeldt speelt de EU en et Gaia-X initiatief hier een belangrijke rol.