Wat is de delfstof van de eenentwintigste eeuw? Data. Althans, als we de poging om beslissingsondersteunende systemen nieuw leven in te blazen met luchtballonnen als datamijnbouw (datamining), datapakhuis (datawarehouse) en datamarkt (datamart) serieus nemen.
Het gaat stuk voor stuk om beeldspraak die suggesties van nut, productie en handel wekken. Suggesties die bij het wereldbeeld van IT-klanten aansluiten, maar helaas verwarrend werken als het gaat om gegevens. Dus allereerst: wat is een datapakhuis? Dat is een informatiesysteem voor de analyse van geïntegreerde, historische gegevens over een langere tijdsperiode. Het gaat in bedrijven om datacollecties ter ondersteuning van beslisprocessen van het management. Het mis (management-informatiesysteem) heeft dus een nieuw jasje gekregen!
De academische definitie die ik op meerdere sites tegenkom blijkt afkomstig uit Building the data warehouse van W.H. Inmon (John Wiley/QED, NY). Een datapakhuis is: onderwerp-georiënteerd, geïntegreerd, niet actueel – namelijk historisch van aard – en niet vluchtig. Niet vluchtig omdat de gegevens in een datapakhuis niet zo vaak veranderen als in een operationele omgeving. Verder worden vier niveaus van aggregatie binnen pakhuisdata onderscheiden: oude details, huidige details, licht samengevatte gegevens en sterk samengevatte data. Een samenvattingsniveau binnen een datapakhuis heet datamarkt, omdat van daar uit de gedetailleerdere informatieniveaus te bereiken zijn. Het uitpluizen van databases en datapakhuizen heet datamijnbouw. Het wordt nu wel heel duidelijk: oude wijn in nieuwe zakken.
Het nut, de toegevoegde waarde van datapakhuizen, wordt slechts wollig aangegeven, in termen van kapitaliseren op de enorme datahulpbronnen binnen een organisatie. Terwijl volgens Chuck Ballard en Paul Wilms in IBM information warehouse solution de hoeveelheid data in organisaties iedere vijf jaar verdubbelt, groeit het belang van het maken van goede data-analyses. Zij onderbouwen het belang van datapakhuizen vanuit empowerment en de groeiende klantoriëntatie. Die maken het nodig dat vertegenwoordigers ter plekke gegevens analyseren met betrekking tot klantorders, producten, voorraden, leverschema’s en dergelijke, om hun klanten goed te kunnen helpen. Echter, wat zei mijn promotor, Henk Sol van Technische Bestuurskunde aan de TU Delft, over beslisprocessen en hoeveelheden gegevens? "Meer data leidt niet noodzakelijkerwijs tot betere beslissingen."
Vanzelfsprekend zijn consultants als IDC en Gartner Group optimistischer – depressieve rapporten verkopen nu eenmaal niet zo goed. IDC heeft een grote hoeveelheid relevante onderzoeksrapporten uitgebracht, maar biedt slechts één ‘datamarkt’ op zijn site aan: kleine voorproefjes in de vorm van generieke samenvattingen. Dat terwijl veel verslagen op het Web gratis toegankelijk zijn via andere bronnen. Bull citeert bijvoorbeeld de nieuwsbrief Inside Gartner Group this week van november 1994: "een datapakhuis kan de gebruiker-gedreven toegang tot operationele data-opslagruimte reduceren met 80 procent, en de effectiviteit en tijdigheid van zakelijke beslissingen verhogen." Over de waarde van zulke generieke claims heb ik sterke twijfels.
David Baum gaat in Byte dieper in op de IT-kansen die datapakhuizen bieden, bijvoorbeeld het ontwerp van gegevensmodellen of webinterfaces naar bestaande databases. Grotere aanbieders kunnen investeren in verticale oplossingen voor banken en verzekeringen, de detailhandel, productie-omgevingen, de gezondheidszorg en andere marktsegmenten. Gartner Group verwacht dat het tegen 1999 om een markt gaat van 6,9 miljard dollar. De eerste implementatiestap is de keuze van een database-oplossing. Baum stelt dat een relationeel dbms als Oracle 7 kan voldoen. Sommige organisaties kiezen echter voor multidimensionale dbms’en, zoals Oracle Express en Red Brick VPT. Red Brick is een succesvolle nichespeler. Een traditioneel rdbms staat gebruikers toe gegevens in twee dimensies te bekijken, bijvoorbeeld per product per regio, terwijl een mdbms meerdere dimensies toestaat, zoals per product per regio door de tijd heen. Een andere ontwikkeling is die richting een gedistribueerd model voor een datamarkt, niet onlogisch op het Web met haar tienduizenden databaseservers.
Vanzelfsprekend heeft Big Blue de ontwikkeling op het gebied van datapakhuizen niet aan zich voorbij laten gaan. PC Week meldt dat IBM’s Visual Warehouse op NT een flexibeler, gemakkelijker te gebruiken product is geworden. Behoorlijke beperkingen zijn echter dat het product alleen op Windows NT draait en alleen van IBM’s DB2-databases gebruikt maakt als repository. Een demo is beschikbaar op het Web. Pas wel op: het is een bestand van 1,9 MB.
Bij datapakhuizen gaat het in feite om een kleine variatie op bekende database-thema’s voor een kleine nichemarkt. Daarbij komen we dezelfde kwesties tegen als bij beslissingsondersteunende systemen en mis’en: veel vragen zijn ad hoc van aard, dus eenmalig en onvoorspelbaar, terwijl de opbrengsten moeilijk meetbaar zijn. Dat maakt investeringsinschattingen in dit soort analysesystemen, die vaak de kernprocessen van een bedrijf slechts licht raken, ook zo moeilijk en kosten/baten-claims onnavolgbaar. We moeten dus niet alleen oppassen voor oude data in nieuwe pakhuizen, maar ook voor dataroofbouw: het nutteloos plunderen van databases voor eenmalige oplossingen.
Om de drie weken schrijft dr. Martijn Hoogeveen, manager Partnership & Service Development bij PTT Telecom Internetdiensten, op deze plek over de beste Internet-sites rond een thema dat interessant is voor de lezers van Computable.
Alle http-adressen van de genoemde sites zijn te vinden op Computable Online: https://www.computable.nl/internet.