De hype is voorbij, het datapakhuis blijft; voor grote, complexe organisaties is het verplichte kost geworden. Zowel de grote leveranciers als de specialisten storten zich nu op verbreding van hun aanbod, vooral met analysetools. Dit werkt consolidatie in de gegevenspakhuismarkt in de hand.
De hype is over. Hoe anders was dat medio jaren negentig. Toen struikelde je over de congressen en seminars over datapakhuizen. Bill Inmon, ‘de vader van datawarehousing‘ leefde in een permanente jetlag van al die bijeenkomsten. Nu is de vraag wanneer hij voor het laatst in Europa is geweest.
Aan het eind van de hypecurve decimeerde ook het aantal leveranciers. Met IBM, Oracle en Teradata heb je de belangrijke spelers wel genoemd. In aanpalende technologiesegmenten van analysegereedschappen en data-extractie en -zuivering is nog wel een bont gezelschap nicheleveranciers, maar ook daar vindt een consolidatieslag plaats. Dat zal ook wel moeten, want de grote leveranciers verbreden hun bereik elk jaar. NCR-dochter Teradata bijvoorbeeld stort zich in navolging van IBM steeds nadrukkelijker op analysegereedschappen, vooral datamining-tools. Het is dan ook niet vreemd dat de pure specialisten eveneens streven naar productverbreding, al dan niet via overnames.
Pioniers
Dat het gegevenspakhuis de hype voorbij is betekent niet dat het gebakken lucht was. Het is inmiddels verplichte kost voor grote, complexe organisaties. De pioniers hebben het leergeld betaald, en dat was hoog: wat is er niet neergeteld voor hardware, software en vooral consultants voordat de implementaties ongeveer deden wat vooraf beloofd was!
Veel keus was er overigens niet. Met het toenemen van het aantal informatiesystemen kregen ondernemingen wel steeds meer gegevens, maar niet meer zicht op hun klanten. Voor veel grote ondernemingen viel en valt het niet mee om ‘één versie van de waarheid’ te presenteren, om de vele verschillen in datadefinities te overbruggen, om gegevens op een zinvolle wijze uit verschillende bronbestanden te extraheren en op elkaar te betrekken, om een ‘360 graden blik’ op de klant te geven. Waar dit soort problemen leven, is het datapakhuis nabij.
De gemiddelde grootte van gegevenspakhuizen groeit en groeit. Dit jaar bereikt die volgens Meta Group al zo’n terabyte, en over een paar jaar is 3 tot 5 TB heel gewoon. Dergelijke overvolle datapakhuizen zullen vooral betrokken worden bij IBM en Teradata, leiders in het topsegment. Volgens Mitch Kaper, analist bij de Patricia Seybold Group, zijn de Oracle-implementaties gemiddeld wat kleiner. "Boven de 1 terabyte kom ik ze niet veel tegen, wat niet betekent dat het niet mogelijk is."
Scepsis
Momenteel hebben bedrijfsdirecties een ambivalente houding tegenover grote investeringen in architectuur. Nu bezuinigen tot hoogste managementvaardigheid is verheven, valt het niet mee om grote bedragen los te praten voor betere informatiearchitecturen. De simpele vraag ‘wat brengt het op’ is namelijk niet zo eenvoudig te beantwoorden.
Het primaire doel van zo’n gegevenspakhuis is nog altijd het verkrijgen van consistente basisgegevens op ondernemingsniveau, maar je ziet dat bedrijven tegenwoordig meer de nadruk leggen op de applicaties waarvoor het pakhuis als ‘enabler’ fungeert. Daarvan is meestal eenvoudiger uit te leggen en uit te rekenen wat de meerwaarde is voor de organisatie. Die scepsis is trouwens niet altijd terecht, want van tal van datapakhuisprojecten zijn ook flinke directe operationele besparingen bekend.
Anderzijds starten andere ondernemingen juist nu wel met implementaties van gegevenspakhuizen om concurrentievoordeel te behalen. De meeste toepassingen liggen in de commerciële sector, maar ook in biomedische sector tekent zich een behoefte af. Het Windber Research Institute bijvoorbeeld gaat het Teradata Warehouse gebruiken voor een grootschalig onderzoek naar borstkanker, waarvoor duizenden variabelen over omgeving, genetische eigenschappen en gedrag van vrouwen worden opgeslagen. Dit moet leiden tot meer inzicht in de risicofactoren voor borstkanker.
Bedrijven willen informatie steeds sneller beschikbaar hebben. Termen als ‘zero-latency’ en ‘realtime’ doen het goed in het online tijdperk, maar zijn meestal niet reëel als het over gegevenspakhuizen gaat. De trend is wel naar steeds minder vertraging. Een laatste trend is de consolidatie van ‘datamarts’ in het gegevenspakhuis
Spitwerk
Gegevenspakhuis-producten zijn lastig te vergelijken. Analist Kaper deed een poging, maar moest uiterst belangrijke variabelen als beschikbaarheid, schaalbaarheid en prestaties buiten beschouwing laten. Die maakten de vergelijking te ingewikkeld. Hij maakte wel een functionele vergelijking op drie terreinen: architectuur, bouwen en beheren, en de analysegereedschappen.
De architecturale verschillen tussen de drie marktleiders zijn volgens hem niet fundamenteel, met uitzondering van de bestandsstructuur. Bij het bouwen en beheren zijn er wel grote verschillen. Kaper keek naar het logische ontwerp, de fysieke implementatie (indexen, partitionering, samenvattingen en objectclustering), de methoden van data-extractie (etl, extract, transform and load) en ‘realtime’ actualisering.
IBM biedt volgens Kaper verfijnde en veelzijdige technieken om datapakhuizen te bouwen en in te stellen, maar het gevaar is volgens hem levensgroot dat je in de parameters verzuipt. Teradata pakt dat volgens hem met een geautomatiseerde aanpak veiliger aan. Ook bij Oracle is het ontwikkeltraject eenvoudiger. Big Blue scoort wel heel goed op het gebied van analysegereedschappen, onder te verdelen in SQL Extensions, olap (online analytical processing) en ‘datamining’. Vooral op dat laatste terrein biedt IBM superieure tools. Oracle komt er juist goed uit met zijn SQL-uitbreidingen en olap-tools. Teradata doet zelf niet aan olap. Op het gebied van gegevens ‘delven’ timmert het bedrijf flink aan de weg. Een sterk punt is volgens Kaper dat de analyses geheel binnen het gegevenspakhuis plaatsvinden, zonodig op het volledige gegevensbestand. Delfgereedschappen van derde partijen verrichten hun spitwerk op een geëxporteerde subset van de data uit het gegevenspakhuis.< BR>