Deze overdenking begon met de vraag: “Hoe moeten we omgaan met steeds meer operationele data in het datawarehouse?”. Het groeide uit tot een wat bredere bespiegeling. Dat tegen de achtergrond van de strijd van Bill Inmon voor een correct gebruik van de term 'datawarehouse'.
Neem bijvoorbeeld een dimensionele statusdatabase met historie, is dat een ODS? Een database? Of mag het toch, omdat het een samenstel van facts en dimensies is, een datawarehouse heten?
Bill Inmon komt in zijn stukje op het B-Eye network (http://www.b-eye-network.com/view/9020) enigszins machteloos over als hij zijn geesteskind 'datawarehouse' vergelijkt met Action Datawarehouse, een naam van een product van een realtime data-integratiesysteem dat vooral operationele informatie produceert.
Al werden er alleen regels aan het systeem toegevoegd en geladen in informatiesterren van feiten en dimensies, toch vindt Bill dat het geen datawarehouse mag heten. Dit omdat er 24/7 beschikbaarheid is, de data vrijwel realtime beschikbaar wordt gesteld en het soort vragen dat met dit systeem worden beantwoord niet strategisch van aard zijn maar zeer 'clerical' van karakter. Bill heeft natuurlijk als geen ander het recht om dit geen datawarehouse te vinden.
Ik trek me dat wel aan. Vanuit het standpunt gezien van de vader van het datawarehouse, die een patentaanvraag op de naam datawarehouse niet gehonoreerd zag worden, is het volledig tegen de definitie van het datawarehouse: 'een onderwerpgeörienteerde, geïntegreerde, tijdsafhankelijke gegevensverzameling met als doel het maken van management informatie.' En dat is een definitie waar we natuurlijk allemaal mee opgegroeid zijn.
Aan de andere kant, Bill Inmon zou het inzicht kunnen hebben dat de wereld niet stil staat en er in een levendige wereld als die van de informatieproductie vooral ook leveranciers gebruik willen maken van de term. Wat is er ook op tegen? Als het woord letterlijk genomen wordt, 'gegevenspakhuis', klopt de benaming. Daar mag volgens mij geen bezwaar tegen gemaakt worden.
De wereld verandert snel, de informatiebehoefte ook en de bij het datawarehouse-team verzamelde kennis, gegevens, meta-informatie en ervaring is een perfecte plek om ook andere informatievraagstukken neer te leggen. Bij die teams lopen de meningen ook uiteen. Er zijn puristen die zeggen: "Wij doen alleen aan managementinformatie", geen levering van gegevens op detailniveau. Aan de andere kant van het spectrum zijn er mensen zoals Ron Tolido van Capgemini die een 'Infostructure' zien verschijnen uit de ict-domeinen waaruit 'de business' haar informatie op allerlei niveau's hapklaar kan consumeren. De waarheid zal voor een ieder ergens op deze schaal liggen en moet voor wat betreft architectuur, management en groeipad wel voor iedereen duidelijk zijn.
Zet daarbij de ontwikkelingen van het vinden van de single point of truth (of liever single point of definition) niet ín het datawarehouse, maar in de Master Data, waar het dwh dan weer op kan aansluiten, dan heb je een aardige mix van mogelijke (bottom-up) initiatieven die elkaar kunnen gaan overlappen of mogelijk niet aansluiten.
De vraag is dus niet alleen hoe we moeten omgaan met het veranderend karakter van de data in het datawarehouse, maar wat we allemaal moeten doen op datagebied, in een scope die organisatie-overstijgend is, om een eenduidig informatieproduct op alle niveaus te kunnen borgen.
Dat deze vraag breed leeft, blijkt uit de enorm toegenomen vraag om hulp bij het realiseren van meer grip en regie bij grote organisaties. Deze vraag is vaak voor een groot deel te beantwoorden door inrichting van pro-actief informatie- en datamanagement en de bijbehorende governance. Een grote verschuiving van aandacht van 'systeem-' naar het 'datadomein' waar een nieuw informatielandschap uit ontstaat. Ik vind dat we Bill Inmon een plezier moeten doen en moeten zorgen dat het onderdeel van het informatielandschap (Infostructure?) dat zo kan ontstaan, het onderdeel dat zorgt voor de managementinformatie die is gemaakt uit de onderwerpgeörienteerde, geïntegreerde, tijdsafhankelijke gegevens, een label 'Datawarehouse' krijgt!
Ik ben benieuwd naar jullie mening. Hoe dan ook, een goede kerst en alvast een uitdagend en nieuwsgierig 2009 gewenst.
Toen Bill Inmon zijn definitie opstelde, twintig jaar geleden (!), zag de wereld er heel anders uit. Toen waren we blij als we een DWH met een frequentie van 1x per maand konden verversen (heb ik me laten vertellen, was zelf toen nog niet actief in dit veld).
Sinsdien is er veel veranderd. Operationele en management wereld zijn naar elkaar opgeschoven. De wereld en de informatievoorziening is onmiskenbaar sneller geworden. We hebben allemaal het data warehouse zien opschuiven (uitbreiden) naar de operatie, als eerste in CRM. Het moest daardoor sneller en met meer detail, en dat hebben we voor elkaar gekregen.
Als ik Bill Inmon was, dan zou ik trots zijn dat zijn concept de evolutie aankan. Dat het begrip data warehousing blijkbaar nog steeds een plaats verdient in de nieuwe wereld van SOA’s en MDM en dat het de eisen van de tijd aankan. Respect voor onze Godfather, maar ik hoop dat hij zijn (klein)kinderen op tijd loslaat om op eigen benen te gaan staan.
Over de term Datawarehouse heeft Bill Inmon mijns inziens het volledige recht om zich hier druk over te maken.
De term is door hem bedacht en waar hij zich vooral kwaad over maakt is het feit dat iedereen alles maar een datawarehouse mag noemen.
De term dekt immers vrijwel nooit de lading.
Er zijn vele voorbeelden van bedrijven die zeggen dat ze een datawarehouse hebben
terwijl het bij nader inzien gewoon een kopie van een of meerdere databases blijkt te zijn.
Maar ook het voorbeeld dat men een report omgeving heeft maar waarbij de titel datawarehouse toch beter lijkt te klinken.
De vraag wanneer een omgeving een datawarehouse is zal altijd een valide vraag zijn.
Sinds een aantal Jaren is Bill Inmon bezig met ‘zijn’ datawarehouse 2.0.
Dit moet aan een aantal voorwaarden voldoen en 1 hiervan is het opslaan van ongestructureerde data in een datawarehouse.
Een paar jaar geleden sprak Bill Inmon hierover op een BI seminar in Nederland.
In deze toespraak ergerde hij zich voornamelijk aan het feit dat iemand ook zijn hond de naam datawarehouse 2.0 mag geven.
Waarschijnlijk vloeit dit voort uit het toen al niet gepatenteerd krijgen van de term datawarehouse.
Bij die ergernis kan ik mij wel iets voorstellen.
Echter probeert Imon wel degelijk met zijn tijd mee te gaan en zich te conformeren aan de hedendaagse wensen en eisen.
Als we de artikelen mogen geloven heeft hij zich volledig gecommitteerd aan de modelleertechniek Datavault ten behoeve van EDW
(Enterprise DataWarehouse) of zoals hij zelf zegt op de website van Dan Linstedt
?Data Vault is de meest optimale keuze om het EDW te modelleren in het DWH 2.0 framework?.
Hij ziet dus echt wel de noodzaak van verandering in.
Welke kant dit op zal gaan en wat nu wel of geen deel uit moet maken van een datawarehouse zal wel aan constante veranderingen onderhevig zijn
en blijven evenals de strekking van de term ‘Datawarehouse’.