Wat wil de business? Dat is de belangrijkste vraag die de it-afdeling zich moet stellen bij het inrichten van een goed datawarehouse. Niet in alle gevallen gebeurt dit. Welke zaken zijn nog meer van belang?
"Het belangrijkste is om het doel te bepalen", zegt Erik Sneekes, senior consultant bij datawarehouseleverancier Teradata. Stel vast wat het systeem moet bereiken en overleg met de business welke doelen ze nastreven, welke besparingen ze willen behalen. "Deze stap wordt meestal overgeslagen, veelal is de inrichting van het datawarehouse een it-gedreven beslissing. De it-afdeling ziet het vaak vooral als speeltje waar nog een gewillige gebruiker bij gevonden moet worden." Ook Coen Stoop, functioneel beheerder van de marketingdatabase bij ABN Amro is het hiermee eens. "Je kunt pas een goed datawarehouse bouwen als je weet welke informatie de gebruiker wil hebben."
Wanneer het doel duidelijk is, moet de keuze worden gemaakt voor de te gebruiken technologie. Niet alleen moet er een datawarehouseplatform komen, maar ook ETL-tools (extract, tranform, load), een bi-tool en een metadatatool. "Ga naar een onafhankelijke adviseur. Requirements geven vanzelf aan wat de beste leverancier is", adviseert Sneekes. Dat hoeft niet altijd de leverancier te zijn waarvan een onderneming al producten in huis heeft. Een versnipperd systeem is dan het gevolg. "Bij Teradata kennen we ‘data marts consolidatie'. We voegen dat gefragmenteerde systeem samen tot één geheel."
Tijdens het inrichten van het datawarehouse is van het belang om het initiële doel steeds voor ogen te houden. "Bedenk wat je aan het bouwen bent en voor wie. Ik zie vaak dat projecten worden gestart en worden overgeheveld naar de it-afdeling. Die knutselt er dan één a twee jaar aan en komt dan terug met iets dat niet meer aan de initiële eisen voldoet. Zorg dat de mensen voor wie het bedoeld is, er vanaf het begin bij betrokken worden. De communicatie tussen business en it is hierbij triviaal", zegt Sneekes. "De fout die het meest wordt gemaakt is dat een bedrijf een duur systeem aanschaft en vergeet om de gebruikers een goede opleiding te geven", vult Marc Ruyters, database administrator bij Vodafone, aan.
Volwassenheidsmodel
Gebruikers van een datawarehouse willen vaak graag één groot klantbeeld zien, waar alle gegevens instaan. De informatie moet uit veel verschillende bronnen komen. In die zin verschilt een datawarehouse van andere systemen, omdat de informatie uit alle applicaties bijeenkomt in het datawarehouse. "Hier is het testen van de algemene transformatieregels van groot belang." Transformatieregels zijn businessrules om iets op te bouwen. Bij een datawarehouse zitten deze toch net even wat complexer in elkaar. "Je ziet transformatieregels veel bij marketingafdelingen, daar kennen ze vaak ook veel complexe business rules."
Voordat een datawarehouse opgeleverd kan worden, zijn ondernemingen vaak al een halfjaar verder. "Het is mogelijk om na zes maanden het datawarehouse klaar te hebben", zegt Sneekes. "Vervolgens zie je een leerproces dat het datawarehouse laat evolueren totdat het volwassen is. Dat kan rustig een jaar of drie duren." Teradata-cto Stephen Brobst ontwikkelde een volwassenheidsmodel waaraan bedrijven kunnen zien in welk stadium ze zitten. In het eerste stadium worden de gegevens binnen het bedrijf gemeten. In de tweede stap wordt er analyse op toegepast, waarna in de derde stap geprobeerd wordt om aan de hand van historische gegevens te voorspellen wat zich gaat afspelen. De meeste ondernemingen bevinden zich in dit stadium. "De stap tussen niveau drie en vier blijkt een vrij grote te zijn", zegt Brobst. "Daar zit een gapend gat tussen ‘optional' en ‘operational'." In stap vier heeft de onderneming de processen die zich voltrekken stevig onder controle en in het ultieme stadium zorgt het er zelfs voor dat processen zich voltrekken. "Dat noem ik het activeren van je datawarehouse", legt Brobst uit. "Rapporten zijn passief, je haalt pas waarde uit de data als je het actief maakt."
Zeven stappen
Stephen Brobst definieerde zeven stappen om het datawarehouse te activeren. Allereerst is daar ‘active load'. "Hoe vaak moeten de data per dag geladen worden? Wat is een acceptabele responstijd? Hoe ‘vers' moeten de gegevens zijn? Dat is per onderneming verschillend. Een callcenter zal minder ‘verse' gegevens nodig hebben dan een vliegtuigmaatschappij." Bij het ontwerp van het datawarehouse moet hiermee al rekening worden gehouden. Het is mogelijk om iedere nacht de database ontoegankelijk te maken, zodat het datawarehouse zijn gegevens kan verversen. Niet bij ieder bedrijf is deze downtime acceptabel. In dat geval moet het datawarehouse zo ontworpen worden dat het mogelijk is om tegelijk gegevens te laden en zoekvragen uit te voeren. "Vaak geldt dat hoe ‘verser' de gegevens, hoe duurder het datawarehouse." Gebruikers zijn ook vaak geneigd om te roepen dat ze ‘real time'-informatie nodig hebben, maar ze kunnen, wanneer er doorgevraagd wordt, niet definieren wat nou precies real-time is. Brobst: "Real-time kan voor de ene onderneming nanoseconden betekenen en voor de andere acht of negen uur. Ik spreek dan ook liever van ‘right time'."
"Active access gaat erover hoe snel een zoekvraag resultaat oplevert. Dat hangt nauw samen met de volgende stap, het ‘active workload management'. Je wilt niet dat jouw snelle zoekvraag vast komt te zitten achter een monster-query. Bij Teradata is het mogelijk om de queries te controleren en ze verschillende prioriteiten mee te geven." Dit soort zaken moeten vooraf in duidelijke afspraken (service level agreements) worden vastgelegd.
De vierde stap behelst de openingstijd van het datawarehouse. Is het mogelijk om het datawarehouse stil te leggen of berokkent dat het bedrijf schade? "Een disaster recovery plan is onontbeerlijk. Neem bijvoorbeeld Wallmart, hun datawarehouse mag nooit en te nimmer down gaan. Zij hebben daarom besloten om twee systemen te implementeren. Wanneer het eerste onverhoopt toch down gaat, kan de andere, die op een andere locatie staat, de werkzaamheden overnemen. Op deze manier is geplande downtime ook op te vangen", legt Brobst uit. "Ook hier hangt natuurlijk een prijskaartje aan", voegt hij er aan toe.
De ‘active events' is de meest gecompliceerde stap in het activeringsproces. Hiervoor is het nodig dat de bedrijfsprocessen in kaart zijn gebracht. "Dat is lastiger dan de technologie. Het systeem moet ongewone voorvallen opmerken. Stel, een vliegtuig arriveert te laat. Wat moet er dan gebeuren? Dat is een belangrijk business proces. Dit hangt nauw samen met het vijfde volwassenheidsstadium."
De manier waarop de informatie wordt gepresenteerd aan de eindgebruikers wordt ‘active enterprise integration' genoemd. "Vaak gebruikt een onderneming pakketten van Business Objects of Cognos voor de rapportage. Dit is niet het geval wanneer een bedrijf zich in het vierde of vijfde volwassenheidsstadium bevindt. Dan gaat het om snelle, specifieke beslissingen die moeten worden genomen en waarbij in veel gevallen soa en besluitvorming worden geïntegreerd met de transactionele dienstverlening."
Wat is dan de laatste stap? Brobst grijnst en zegt: "Business vision. Je begint met de visie, je start nooit met de technologie."
Datamodellen
Met alleen een datawarehouseplatform en bijbehorende visie ben je er nog niet. Zo moet er nog een keuze worden gemaakt voor het datamodel. "Er zijn verschillende datamodellen voor bijvoorbeeld het verzekeringswezen, de telecom- of de retailwereld. Dat zijn kant-en-klare modellen en een startpunt voor die bedrijven om een eigen datamodel op te zetten", legt Erik Sneekes uit. Verschillende leveranciers kunnen zo'n model leveren, maar het is ook mogelijk om het zelf te bouwen. Het is belangrijk om te definiëren hoe zo'n model eruit moet komen te zien. Er zijn verschillende vormen: de derde normaalvorm, starschema's en snowflakes. Modellen worden gebruikt om een visuele voorstelling van de te bouwen database te maken, zodat inzichtelijk wordt gemaakt of alle informatie op de juiste manier wordt opgeslagen en op te vragen is. Er zijn twee vormen: het logische datamodel en het fysieke datamodel. De eerste is een visuele voorstelling van de business requirements en draait om de eisen van het bedrijf. Bij het fysieke datamodel gaat het juist om het daadwerkelijke ontwerp van de database zelf volgens de richtlijnen zoals die werden vastgesteld bij het logische model. "De vormen zijn manieren om de datamodellen te maken", legt Sneekes uit.
Nu moet het datawarehouse nog gevuld worden. Dit gebeurt met ETL-tools (extract, transform, load). Deze tools halen de juiste gegevens uit de aanwezige bronnen (productiesystemen, contractadministratie, productdatabase, et cetera) binnen het bedrijf en laden die in het datawarehouse. "Als het goed is, heeft de business een logisch datamodel gedefinieerd. Nu is het aan de it-afdeling om de bronnen te transformeren naar de regels van dat datamodel. Daarna kunnen de eindgebruikers worden ontsloten. Zij kunnen met behulp van rapportagetools informatie uit het systeem halen."
Do
• Betrek de business bij de inrichting van het datawarehouse
• Definieer service level agreements gebaseerd op bedrijfseisen
• Meet het resultaat
Don’t
• Focus niet op technologie
• Implementeer geen point-solutions
• Pak het niet te groots aan