Internet en de strijd tussen de NC en de PC krijgen momenteel verreweg de meeste aandacht in de IT-industrie. Toch zijn deze concepten uit het oogpunt van zakelijk voordeel niet het belangrijkst.
Er bestaat een veel minder besproken technologie die snel groeit en grote voordelen kan bieden: het datawarehouse of gegevenspakhuis. Een cruciale eigenschap van deze nieuwe systemen is de nadruk op informatie en daarop gebaseerde kennis. Het behelst veel meer dan alleen systemen opdoffen; het is een sprong vooruit in de informatietechnologie, een sprong die veel verder gaat dan alleen maar gegevens verwerken. Met datawarehousing staat de technologie echt in dienst van de organisatie. Meer dan elke andere activiteit is het multidisciplinair; IT, bedrijfsonderdelen en het topmanagement zijn erbij betrokken. Daarbij vindt een noodzakelijke en zeer welkome samenwerking tussen techneuten en gebruikers plaats.
De eerste gegevenspakhuizen waren beperkt en werden niet beschouwd als bedrijfskritische systemen. Dat verandert nu en is in veel organisaties reeds veranderd. Veel bedrijfsactiviteiten zijn al zeer afhankelijk van het verzamelen van de kennis van besluitvormers, zozeer zelfs dat het gegevenspakhuis bedrijfskritisch geworden is. Dat brengt nieuwe problemen met zich mee, zoals redundantie, enorme databases archiveren en herstel bij calamiteiten. Geen van deze problemen is nog op een bevredigende manier opgelost.
De belangrijkste drijfveer om een gegevenspakhuis te implementeren – een kostbare exercitie – is een negatieve. Als de concurrent het heeft en u niet, verliest u marktaandeel. Zodra andere organisaties enigszins inlopen, kijken de vroege gebruikers naar manieren om verdere voordelen te behalen, door nieuwere technieken te gebruiken, zoals datamining, software-agents en expertsystemen.
In bijna alle gevallen vindt de initiële investering in een gegevenspakhuis plaats in een afzonderlijk project. Dat moet een specifiek probleem oplossen en daarvoor komt een budget beschikbaar. Het gevolg is dat het pakhuis helemaal op het desbetreffende project zal worden afgestemd. Dit betekent dat het systeem geen strategisch bedrijfsomspannend gegevenspakhuis zal worden, maar een veel beperktere datamart. Het is zeer onwaarschijnlijk dat iemand in dat stadium al een uitgebreid analytisch model van de gegevens in de gehele organisatie zal opstellen. Dit is ook niet wenselijk bij de start, omdat dat lang duurt en het project op korte termijn resultaat moet opleveren. De eerste, project-georiënteerde datamart-benadering is een goede eerste stap, maar er kleeft een risico aan. De kans is groot dat meer afzonderlijke datamarts zullen volgen, waardoor een PC-achtige chaos ontstaat. Het is essentieel dat die valkuil, meerdere project-georiënteerde datamarts ontwikkelen, omzeild wordt. Wie begint met een praktische datamart-oplossing moet daarna een model ontwikkelen, een meta-database implementeren en goede tools voor kopiebeheer installeren. Gebruik die eerste datamart om ervaring op te doen en tijd te winnen, om daarna een centraal gegevenspakhuis voor de gehele organisatie te rechtvaardigen, te ontwerpen en te bouwen.
Als het centrale pakhuis er eenmaal is, kunnen meerdere datamarts voor specifieke projecten worden ontwikkeld. Men kan die vullen met ‘schone’ gegevens uit het pakhuis en na afloop van het project opruimen.
Een gegevenspakhuis is door de potentiële omvang onvermijdelijk gebaseerd op een relationele database. Die kan direct via op SQL gebaseerde eindgebruikerstools worden aangesproken. Dat is prima voor directe queries, maar minder geschikt voor de mensen die beslissingen moeten ondersteunen. Die hebben immers behoefte aan meerdimensionale analyses. De kleinere datamarts kunnen daarom worden gebaseerd op meerdimensionale- of Olap-servers, zoals SAS of Essbase. Directe toegang tot de relationele gegevens bieden relationele Olap-tools (Rolap), zoals Information Advantage en DSS Agent. Ook zijn er eenvoudigere PC-tools, bijvoorbeeld Business Objects, met die mogelijkheid. Er zijn al veel verschillende tools beschikbaar.
De meeste grotere gegevenspakhuizen draaien op parallelle hardware van IBM (SP2) en NCR onder Unix met DB2 (de parallelle versie), Oracle of Sybase. Veel van de eerste experimenten zijn uitgevoerd op mainframe-sites met een partitie voor DB2. Daarbij worden de gegevens van de productiesystemen op dezelfde machine gekopieerd met Cobol-programma’s. Deze experimentele systemen zijn in de loop van de tijd overgezet naar Unix-platforms, omdat DB2 niet was geoptimaliseerd voor presteren in een query-omgeving. Met DB2 versie 4 voor MVS is het mainframe weer een serieuze kandidaat voor grote, organisatie-omspannende gegevenspakhuizen. Vergeleken met Unix biedt MVS veel voordelen op het gebied van schaalbaarheid en operationele ondersteuning. Meerdimensionale producten als SAS zijn ook als datamart op dezelfde machine bruikbaar. Op den duur zullen Rolap-producten aan DB2/MVS worden gekoppeld. Daarbij zal waarschijnlijk iets als een Essbase front-end op het MVS-platform worden gebruikt.