Data delivery-processen nemen in belang toe door veranderende bedrijfsbehoeften, de noodzaak om aan wet- en regelgeving te voldoen en de toenemende mate waarin eindgebruikers en applicaties data nodig hebben. Binnen een beperkte scope kan je prima uit de voeten met een data-integratie of visualisatie-tool met etl (extraction, transformation and load)-functionaliteit. Maar als er ambitie is om datagestuurd te ondernemen, kun je niet om een modern datawarehouse heen.
Data-integratietools die etl mogelijk maken, hebben doorgaans een generieke opzet, zodat ze inzetbaar zijn voor elke vorm van data-integratie. Deze manusjes van alles laten het echter afweten als het gaat om de ontwikkeling en het beheer van data warehouses. Bij data-integratietools is het aan data engineers om processen binnen de datalevenscyclus te definiëren en precies aan te geven hoe elk proces moet worden uitgevoerd, welke best practices er moeten worden toegepast en hoe dat moet gebeuren.
Developers die met dergelijke generieke etl-tools werken worden gedwongen om compromissen te sluiten door projectkaders in relatie tot budget, tijd, personeel, strategie of doelstellingen. In de praktijk is het namelijk onmogelijk om deze begrenzingen even zwaar mee te laten wegen.
Als robuustheid en datakwaliteit de belangrijkste doelstellingen vormen, begint men normaliter met het definiëren van standaarden, patronen en benaderingen voor elk proces binnen de ontwikkelingslevenscyclus voor het project of de oplossing, voordat er enige zakelijke waarde gerealiseerd kan worden. Die levenscyclus wordt vaak bijgehouden in afzonderlijke documenten of met behulp van een op maat ontwikkeld framework. Omdat dit framework niet wordt beheerd als onderdeel van de data-integratiesoftware, wordt het de verantwoordelijkheid van de organisatie (lees: developers) om dit na verloop te onderhouden en verder te ontwikkelen. En daarmee zal de flexibiliteit afnemen, terwijl de risico’s toenemen. Het omgekeerde is eveneens van toepassing: als flexibiliteit een prioriteit is, zal de robuustheid daaronder te lijden hebben. De oplossing zal steeds complexer worden en standaardisatie ontberen. En daarmee groeien de risico’s en daalt de productiviteit.
Hoe moderne datawarehouses etl-tools overtreffen
Het datawarehouse is uitgegroeid tot zoveel meer dan een grote vergaarbak voor data ten behoeve van managementrapportage en kpi’s. Dit komt doordat de datapraktijken van bedrijven volwassen worden. Tegelijkertijd groeit het aantal beschikbare databronnen. Het datawarehouse vormt de basis voor datagestuurde bedrijfsprocessen omdat het werknemers de mogelijkheid biedt gebruik te maken van hetzelfde dataplatform, ongeacht de tools die zij gebruiken. Een modern datawarehouse helpt organisaties de flexibiliteit te vergroten en de aanleveringstijden te verkorten. Daarmee komt het tegemoet aan de zakelijke behoeften met betrekking tot de aanlevering van data, maar ook in relatie tot de compliance en het budgetbeheer.
Een modern datawarehouse biedt de mogelijkheid een project op basis van kleine iteratieve cycli uit te voeren, waardoor organisaties op efficiënte wijze veranderingen kunnen anticiperen ondanks beperkingen qua tijd, mankracht en budget. Dit is van onschatbaar belang in turbulente tijden zoals deze. Bovendien stelt de hoge doorvoer van relevante data organisaties in staat hun medewerkers efficiënt in te zetten voor activiteiten met toegevoegde waarde en de productiviteit op te voeren. Dat vergroot hun kansen om de concurrentie voor te blijven.
Om de risico’s te minimaliseren, is een modern datawarehouse er bovendien op worden ingericht om wijzigingen van personeel en databronnen te ondervangen en overeenstemming met de wet- en regelgeving te waarborgen. Dat doet een modern datawarehouse door data traceerbaar te maken en automatisch documentatie te genereren en voortdurend up-to-date te houden.
Hoe automatisering bijdraagt aan flexibiliteit
Een data warehouse automation (dwa)-tool automatiseert niet alleen bepaalde taken binnen een development-project, maar houdt ook rekening met de volledige levenscyclus van een datawarehouse of dataplatform. Van de ontwikkeling en het devops-proces tot het beheer, onderhoud, wijzigingsbeheer en eventuele uitbreidingen. In de praktijk zien we dat minimaal tachtig procent van de zakelijke waarde van een datawarehouse in de loop der tijd ontstaat als gevolg van verandering, en niet op basis van het oorspronkelijke plan van eisen. Daarom is het essentieel om agile principes toe te passen voor een efficiënte omgang met wijzigingen, zonder af te doen aan de productiviteit, robuustheid of risicobeperking.
Met deze principes blijft het datawarehouse flexibel en is het mogelijk om flexibel en snel op veranderingen in te spelen, zonder in te boeten op kwaliteit. De klanten (zij die de data gebruiken) kunnen daardoor met vertrouwen gebruik blijven maken van het platform. Een bonus is daarvan dat dit wildgroei van losstaande oplossingen voorkomt.
Hoe data delivery-proces helpt de lat hoger te leggen
Volgens Gartner is een modern datawarehouse cruciaal voor bedrijfsanalyses, kunstmatige intelligentie (ai) en machine learning (ml). Het vereenvoudigt data-integratie en -beheer door één single source of truth te bieden. Of liever, één enkele bron van feiten – aangezien waarheid subjectief is en de definitie ervan in de loop van de tijd kan veranderen. Zelfs met de evolutie van verschillende big-data-analyseplatforms, wordt het datawarehouse nog steeds beschouwd als de beste manier om een breed scala aan datamogelijkheden en complexe zakelijke use-cases te ondersteunen.
Wanneer het datawarehouse continu aan de zakelijke vereisten blijft voldoen, ondanks eventuele veranderingen, dan blijft deze structureel toegevoegde waarde bieden. Dit verhoogt het rendement. We zien bovendien dat succesvolle data delivery-processen vaak inspireren tot nieuwe use-cases, innovatie en het gebruik van data in het algemeen, waardoor de waarde van de oplossing nog verder toeneemt. Door die positieve spiraal wordt de essentiële basis gelegd voor een data-gedreven cultuur.