Het is onvermijdelijk dat een relatief nieuwe technologie bij het groeien van de markt een overschot aan producten oplevert. Software voor ‘datawarehousing’ (het werken met gegevenspakhuizen) is geen uitzondering. Het concept is nog lang niet uitgekristalliseerd en er zijn nog steeds veel te veel kostbare mislukkingen; het wordt hoog tijd dat het gezonde verstand zegeviert.
Veel van de onderling concurrerende leveranciers zullen verdwijnen. Anderen zullen worden overgenomen en worden geïntegreerd met andere producten, waardoor de situatie vereenvoudigt en de kosten zullen dalen.
Een volledig kennisgestuurd systeem vereist een geïntegreerde verzameling componenten. Zo’n systeem is gebaseerd op een database met een kopieer-tool om gegevens te extraheren, op te schonen en vanuit verschillende productiebronnen in het pakhuis te laden.
Er is ook een ‘repository’ nodig om gegevens over gegevens bij te houden, de metagegevens. Verschillende architecturen vereisen een mix van centrale, grootschalige ‘warehouse’-databases, die vrijwel altijd relationeel zullen zijn, en kleinere datamarts. Deze laatste kunnen bestaan uit gespecialiseerde meerdimensionale databases of Rolap ‘front-ends’ voor een rdbms.
Hiervoor zijn weer operationele beheer-tools nodig voor optimalisatie en database-ontwerp. Dit alles is nutteloos zonder de tools voor de eindgebruiker, waarmee ‘queries’ en analyses zijn uit te voeren.
Hiervoor moeten complexe bedrijfsmodellen worden ontwikkeld, die met de metagegevens moeten worden geïntegreerd. Tools voor bedrijfsanalyse, ontwerp en projectmanagement voldoen ook beter als ze geïntegreerd zijn. Tegenwoordig zijn er veel tools die aan bovenstaande eisen voldoen; helaas zijn deze afkomstig van verschillende leveranciers en werken ze onderling niet samen.
Het ontbreken van een algemene ‘repository’ betekent dat modellen voor metagegevens apart worden beheerd met case-tools, kopieer-tools en Olap-tools. Deze tools moeten onderling worden gesynchroniseerd, wat betekent dat updates tussen de verschillende repositories uitgewisseld moeten worden.
Het ontbreken van standaarden is een enorm probleem. De nieuwe Uniform Modelling Language (UML) die is ontstaan uit objectgeoriënteerde ontwerptools, is een grote stimulans voor de industrie en wordt ondersteund door de binnenkort te verwachten Microsoft/Platinum repository. Tegenwoordig gebruiken alle tools hun eigen standaarden.
Kopieertool A werkt dus samen met dbms X en Olap-tool P, maar niet met dbms Y en Olap-tool Q. Leveranciers die beweren een geïntegreerd product te leveren, maken dit in de praktijk zelden waar!
Kopieertools zijn om gek van te worden. Ze bieden geavanceerde regels om gegevens te extraheren, te transformeren, af te beelden en dergelijke, met uitgebreide opties om deze regels op te zetten en te beheren.
Ze zijn echter zo duur dat alleen organisaties met een groot gegevenspakhuis ze kunnen betalen; er zijn geen goedkope versies die de markt echt kunnen laten groeien. Als gevolg hiervan gebruikt 70 procent van de organisaties met een gegevenspakhuis Cobol om gegevens te extraheren en in het pakhuis te laden! Een aantal overnames ligt daarom voor de hand: database-leveranciers, zoals Oracle, IBM en NCR, moeten een kopieer-tool kopen en het tegen lage prijs met hun database integreren. Het is schandalig dat kopieer-tools hiermee aan een specifiek dbms worden gekoppeld, maar dat is de prijs die we moeten betalen voor een gebrek aan standaarden.
Tools voor de eindgebruiker zijn een ander verhaal. Er bestaat een sterke behoefte aan verschillende tools, maar een paar dozijn is wat veel van het goede. Rapportage-tools en ‘query’-tools zijn belangrijk voor zowel gegevenspakhuizen als productiesystemen, als ze maar simpel worden gehouden!
Ad-hoc ‘queries’ worden gedomineerd door PC-tools op basis van SQL, zoals Business Objects. Deze zijn nuttig, maar niet zo geschikt voor complex analytisch werk; het bouwen van de modellen, die moeten worden geïntegreerd met het gegevenspakhuis, vergt een behoorlijke IT-inspanning.
Bovenaan de schaal staan analytische Olap-tools die gebruik maken van een dunne client/server-architectuur, tegenwoordig op basis van webtechnologie; deze tools beginnen deel uit te maken van kritische bedrijfssystemen. Hieruit volgt dat ook de ‘query’-tools zich zullen ontwikkelen van topzware dikke clients tot een dun client/server-model, waardoor ze zullen gaan concurreren met de huidige Rolap-servers.
De karakteristieke overdrijving die meestal met zulke ontwikkelingen gepaard gaat, kan nog meer verwarring veroorzaken. En dan zijn er nog de lokale tools van ondermeer Cognos voor extractie en verwerking, en niet te vergeten de groeiende belangstelling voor ‘datamining’-tools in combinatie met concepten als ‘alerts’ en ‘agents’. Met drie of vier tools voor de eindgebruiker kan ik leven, maar dertig of veertig is te veel.
We kunnen verwachten dat de leveranciers van kopieertools worden overgenomen door de database-leveranciers, waardoor ze beter geïntegreerd én goedkoper zullen worden. Het zou aardig zijn om een gemeenschappelijke repository te hebben in plaats van de huidige diversiteit, maar met zoveel verschillende belangen in de software-markt is de vooruitgang moeilijk te voorspellen. Tenzij Microsoft erin slaagt de markt een ‘de facto’ standaard op te dringen. Dit zou ik van harte toejuichen.