Data verzamelen is makkelijk. Er waarde uithalen, daarin ligt de uitdaging, zeker gezien de gigantische hoeveelheden data die er dagelijks bijkomen – zo’n 2,5 miljoen terabytes. Nu organisaties de cloud in hun armen sluiten, zal de hoeveelheid data alleen maar toenemen. Hoe maak je deze data bruikbaar? Bestaande oplossingen werkten goed in het verleden, maar zijn niet toekomstbestendig. Voor de toekomst van dataverwerking is een nieuwe architectuur nodig.
Als organisatie heb je voor je opslag de keuze tussen een datawarehouse en een data lake. Beide opties zijn geschikt voor verschillende doeleinden en hebben hun voor- en nadelen. Een datawarehouse is ideaal voor operationele gebruikers omdat het gestructureerd, eenvoudig te gebruiken en begrijpen is – en daarmee geschikt voor disciplines als business intelligence en analytics. Het opslaan van gegevens in een datawarehouse is daarentegen duur en tijdrovend.
Maar wanneer je – zoals veel moderne ondernemingen – beschikt over grote hoeveelheden ongestructureerde data is een data lake de betere oplossing. Opslag in data lakes is kostentechnisch zeer efficiënt. De architectuur leent zich daarnaast beter voor toepassingen zoals machine learning en datawetenschap, waar grote hoeveelheden gegevens voor nodig zijn.
Hierdoor komen organisaties in een ongemakkelijke spagaat: ze moeten én een datawarehouse én een data lake beheren. Dit leidt tot een complexe architectuur die eigenlijk te duur en te traag is. Bovendien belemmert het samenwerking. Verschillende disciplines werken afgezonderd van elkaar in hun eigen systemen. Hierdoor blijven silo’s bestaan die productiviteit belemmeren, terwijl het voor het concurrentievermogen van een organisatie juist belangrijk is dat de verschillende datadisciplines dichter naar elkaar toe bewegen.
Best of both worlds
Het is dan ook tijd voor een nieuwe architectuur, een best-of-both-worlds-scenario. Niet een los datawarehouse én data lake, maar een lakehouse. Door een transactionele laag op een data lake te plaatsen, kun je taken direct in het data lake uitvoeren waar je voorheen een apart datawarehouse nodig had. Hiermee verdwijnt ook de noodzaak voor complex extraction, transformation & load (etl)-werk om data van het data lake over te hevelen naar het datawarehouse. Die combinatie, de prestaties van een datawarehouse en de kostenefficiëntie van een data lake, maakt een data lakehouse de ideale data-architectuur voor datagedreven organisaties. Business intelligence (bi), datawetenschap, artificial intelligence (ai), machine learning (ml), het kan allemaal binnen een geïntegreerd platform. De lakehouse-architectuur heeft dan ook de toekomst.
Organisaties willen al geruime tijd meer waarde halen uit hun data lakes. De technologie om dat te doen, was veelbelovend, maar telde tal van haken en ogen. Zo moest de betrouwbaarheid, snelheid en veiligheid van data lakes omhoog zonder in te boeten op flexibiliteit en kostenefficiëntie. Ook moet je direct queries uit kunnen voeren op een data lake om bijvoorbeeld bi-rapportages te maken.
Versimpelen
Inmiddels zijn deze obstakels uit de weg, waardoor een lakehouse-architectuur realistisch is om te implementeren. Hierdoor kunnen datateams hun werkprocessen stroomlijnen. Zij hebben niet meer te maken met meerdere databronnen, kopieën van gegevens, of fouten die ontstaan door uitgebreide pipelines, maar ze putten allemaal uit een snel toegankelijke ‘single source of truth’.
Datawarehouses zullen ongetwijfeld een rol blijven spelen bij veel organisaties. Maar een gescheiden datawarehouse zal steeds duurder worden naarmate de hoeveelheid opgeslagen data in data lakes groeit. Door met een lakehouse meer werkzaamheden binnen een data lake uit te voeren, kunnen organisaties hun data-architectuur sterk versimpelen, kosten verlagen, en bedrijfsprocessen versnellen. Hiermee worden data lakes het zwaartepunt van alle datawerkzaamheden, en het vertrekpunt voor nieuwe technologische ontwikkelingen.
Auteur: Pieter Senster, engineering director Databricks