VELDHOVEN – De bouw van een ‘data warehouse’ voor gegevensanalyse vergt een radicaal andere aanpak dan in de traditionele applicatie-ontwikkeling gebruikelijk is. Automatiseerders ‘van het oude stempel’ moeten dan ook uit de buurt blijven van deze projecten.
"De problemen die optreden bij data warehouses zijn zo verschillend van die in gangbare projecten, dat traditionele automatiseerders er zich maar beter niet mee kunnen bemoeien." Deze "bedreigende, maar ware woorden" zijn afkomstig van Bill Inmon, één van de pioniers op dit gebied en technisch directeur van het Amerikaanse Prism Solutions.
Data warehouses dienen voor het opslaan van enorme hoeveelheden, vooral historische, gegevens. Met de data uit deze ‘gegevenspakhuizen’ zijn bijvoorbeeld marktontwikkelingen te analyseren. Een typisch pakhuis bevat tientallen tot zelfs duizenden gigabytes informatie.
Problemen zijn er voldoende bij de bouw van datapakhuizen, aldus Inmon. Zo vergt de overschakeling van traditionele watervalmethoden naar iteratieve bouw in veel gevallen teveel van de bestaande automatiseerders. "Ik zeg hen vaak: volledig herscholen of wegwezen."
Goedkoop is duurkoop
Een tweede probleem is de keuze tussen het bouwen van één groot data warehouse voor een gehele onderneming of het implementeren van kleinere pakhuizen voor specifieke toepassingen per afdeling. "Hoewel het tweede een aantrekkelijk alternatief vormt vanwege de lage kosten, het korte implementatietraject, de geringe complexiteit en de hoge snelheid, ontspruit uit deze aanpak dikwijls chaos."
Op de lange termijn ontstaan verlies van data-integriteit, onoverzichtelijke informatiestromen en onduidelijke gegevensstructuren als niet vanaf het begin gekozen wordt voor een centraal pakhuis, zo meent Inmon.
Een derde struikelblok vormt de enorme massa gegevens waarmee automatiseerders te maken krijgen. "Beheerders zien zich geconfronteerd met grotere hoeveelheden data dan ooit tevoren. Dit stelt speciale eisen aan de apparatuur, de software en het beheer."
Context
Het laatste belangrijke probleem is het onderschatten van het belang van metadata. "Het louter opslaan van historische gegevens – zonder context – geeft geen betrouwbare informatiebron. De omstandigheden rond de verzamelde gegevens kunnen in de loop der jaren sterk veranderen, zodat de basisgegevens zonder omringende metadata geen nut meer hebben."
Als voorbeeld noemt Inmon een in Europa sterk expanderende Amerikaanse onderneming: "In jaar één omvat de Europese verkoop slechts Groot-Brittannië en de Benelux, omdat elders nog geen zaken gedaan worden. In jaar vijf omvat diezelfde Europese verkoop echter ook Duitsland, Frankrijk, Italië en Spanje. Als deze metadata onbekend is, hoe wil je de cijfers dan betrouwbaar vergelijken?"
Welk platform?
Data warehouses worden in de meeste gevallen geïmplementeerd op ‘open’ platforms. "Drie jaar geleden adviseerde ik al mijn klanten nog te kiezen voor een massaal parallelle machine. Inmiddels is die architectuur qua capaciteit grotendeels achterhaald door symmetrisch parallelle systemen. Slechts bij zeer grote projecten adviseer ik nog mpp’s in te zetten." Ook het mainframe vormt een goed alternatief voor mpp’s, aldus Inmon. "Er zijn geen technische redenen aan te wijzen om niet te kiezen voor een mainframe. De meeste mensen denken echter dat een open systeem goedkoper is. Het is dus meer een kwestie van gevoel dan van realisme." MU
Een voorbeeld
Bill Inmon, ‘goeroe’ op het gebied van data warehouses, geeft ter illustratie een voorbeeld van wat bedrijven kunnen bereiken met deze technologie. Een Amerikaanse aanbieder van mobiele telefonie zag zich geconfronteerd met een klantenverloop van 17 procent per jaar. Met de bouw van een datapakhuis werd het mogelijk op basis van historische gegevens een profiel op te bouwen van de gemiddelde vertrekkende klant. Dit profiel werd losgelaten op het huidige klantenbestand. Iedereen die eraan voldeed, kreeg vervolgens een kruisje achter zijn naam. Neemt zo’n klant nu contact op met de firma, dan weet de operator dat hij of zij een ‘speciale’ behandeling moet krijgen. Ook werden er marketingcampagnes opgestart om de ‘risico-klanten’ zoveel mogelijk te binden. Zo’n drie jaar later blijkt het verloop gedaald te zijn tot 7 procent. Voor de betreffende maatschappij vertegenwoordigde dit honderden miljoenen dollars omzet per jaar.
Grappig. De ISO standaard voor dit soort informatiemodellering stamt uit 1983. Traditionele IT-ers moeten dan toch echt IT-ers zijn uit het begin van de 90-er jaren, het PC-tijdperk.
Aan het begin van de 80-er jaren waren er informatie analisten die hier echt gespecialiseerd in waren. Traditioneel is dus wel een heel erg tijdelijk begrip. Hoe noem je de mensen uit het begin van de jaren 80 dan? Dinosaurussen? En die kunnen cq. konden wel echt modelleren… Mensen uit Inmons eigen tijd, dus.
Steven