Een belangrijk deel van de problematiek van data warehouses is het volume van gegevens waarover vlotjes gerapporteerd en geanalyseerd moet worden. Zelf werk ik bijvoorbeeld met een team van specialisten aan een data warehouse met ongeveer 15Tb aan data. Behoorlijk indrukwekkend volume, stel je voor, meer dan 3000 verschillende dvd's bij elkaar.
Maar in de wereldwijde data warehousing arena zijn er nog veel grotere spelers. Wie eens gaat zoeken op 'large data warehouse' komt bijvoorbeeld Wall-mart tegen, een vaak gehanteerd voorbeeld in data warehousing land, bekend van de conclusie 'om het bier en de luiers naast elkaar in de winkel te zetten'. Wall-mart heeft een data warehouse van 500Tb, wow!
De essentie van een 'groot' data warehouse is het volume in de opslag van basisgegevens en redundante of aanvullende datastructuren voor rapportage en analyse. Deels wordt dit volume bepaald door de gekozen architectuur, maar het laagst opgeslagen transactieniveau en de hoeveelheid gewenste historie zijn uiteindelijk bepalend om echt tot de volumekampioenen te behoren. Om bij Wall-mart te blijven: 270 miljoen Amerikanen zullen in een jaar tijd heel wat kassabonregels produceren. Als je die allemaal jarenlang blijft vasthouden, dan kom je wel aan 500Tb.
Nieuwe analyses maken het soms noodzakelijk om terug te gaan naar het laagst opgeslagen detailniveau. Dus nee, we willen geen historische feiten opschonen, maar blijven ze bewaren.
De kosten van opslag en processing nemen echter af, waardoor de curve van schaalvergroting behoorlijk kan doorzetten. De methoden en technieken om grote gegevensvolumes te hanteren hebben in de afgelopen regelmatige vooruitgang geboekt. Na indexen, slimme aggregaten en materialized views leven we nu in de tijd van de data warehouse Appliances; uitgekiende combinaties van hardware en software die verbijsterende performance verbeteringen kunnen leveren. De technologie houdt gelijke tred met onze behoefte, hoera!
Uiteindelijk moet alles alleen wel betaald worden. De BI techniek wordt als geheel steeds sterker, maar tegelijk worden data warehouses daardoor technisch minder onderscheidend. Zowel de kosten als de baten per opgeslagen Terabyte nemen af, maar wat gebeurt er eigenlijk met het rendement van het data warehouse? Zakelijk rendement is nog steeds een zaak van daadwerkelijk nadenken over hoe je met betere informatievoorziening je organisatie beter kan laten functioneren. 'Hoe worden we slagvaardiger, meer concurrerend?' De Business Intelligence consultant van de toekomst moet zich hierin onderscheiden, en steeds minder in de techniek.
Beste BI-experts, graag jullie reactie. En wie werkt er aan een echt groot data warehouse?
Vriendelijke groet, Robert Mansour.
Interessante blog Robert. Zoals je weet ben ik op dit moment architect van een Enterprise datawarehouse die de komende jaren – naar verwachting – de 50 TB gaat overschrijden en richting de 200 TB zal gaan.Het echte interessante is echter dat e.e.a. wordt neergezet in een grote overheidsdienst waar data daadwerkelijk als asset/produktie-middel (definitie A.Bottema) ingezet wordt.Waar ik het afgelopen half jaar nog meer van overtuigd ben geworden is dat een Enterprise datawarehouse niet zondermeer te verantwoorden is met Business Intelligence. Ja, Business Intelligence services zoals rapportage, analyse, statistische analyse, datamining, etc.. natuurlijk leveren we die services met het datawarehouse. Dus ja, de slagvaardigheid om informatie sneller met grotere kwaliteit bij de juiste personen te brengen tezamen met voor de gebruiker effectieve functionaliteit..dat kennen we nu wel (waar ik niet mee wil zeggen dat dit makkelijk is!).Maar BI services is eigenlijk maar een klein deel van het gehele spectrum aan toepassingen/voordelen die een EDW kan servicen. Een paar voorbeelden (uitputtend kan ik hier niet zijn en verklaren ga ik ze ook niet allemaal)….- het reduceren van complexiteit (wat mij betreft een nummer 1!!!!)- Een relatief stabiel stuurmodel (heeft deels met het bovenstaande te maken)- Data compliance…- keten informatie integratie (een grote toekomst van het EDW voor dit aspect)- data kwaliteit (hogere data kwaliteit levert ook een hoop op……zeker ook bij de overheid)- produktie besturing (een heleboel nuances gelden hierbij echter – bv. latency aspecten)- Primus Interparis voor interfacing van bv. Intelligence resultaten met andere systemen (kan ook primair zijn).- een zeer technische…..naar mijn overtuiging is een goed EDW met zorgvuldig opgebouwde metadata een noodzakelijke stap in de evolutie van informatieverwerking die ooit op gefedereerde wijze zal plaatsvinden- etc..Om niet een heel epistel te schrijven…wat ik bedoel is dat BI services wat mij betreft nog maar een klein deel van de verantwoording – voor een datawarehouse -uitmaken.Datawarehousing wordt en is steeds meer een vakgebied die door Enterprise architecten beheerst moet worden omdat het een onderdeel wordt/is van diezelfde enterprise architectuur. Tot zover maar ff….reacties altijd welkom!
Het verhaal van Ronald sluit helemaal aan op het uit elkaar groeien van datawarehousing en BI. Ontstaan als een soort van Siameze tweeling zie je ze nu steeds verder uit elkaar groeien. En dat is ook logisch want het datawarehouse is als infrastructurele voorziening een onderdeel van het aanbod. BI maar ook operationele systemen vormen een onderdeel van de vraag.Hoe bepaal je welke data op te nemen in het datawarehouse? Dat zou kunnen door uit te gaan van de (gedefinieerde) vraag. In dat geval zouden de datavolumes nog beperkt kunnen zijn. Echter als OLAP-toepassingen onderdeel van de vraag uitmaken zou de consequentie kunnen zijn dat we alle data opslaan. Hiervoor geldt immers dat de vraag slechts ontstaat (of niet) als we naar de informatie kijken. Ontbreekt informatie wordt de juiste vraag niet getriggerd… Toch jammer. Veel organisaties kiezen voor de optie om inderdaad meer data op te slaan dan alleen op basis van de gedefinieerde vraag. Vandaar de Terabytes aan informatie in het data warehouse.De andere optie is om niet uit te gaan van de gedefinieerde vraag, maar van het feit dat het om een infrastructurele voorziening gaat. Het beste kun je dit vergelijken met water of electriciteit. Je gaat ervan uit dat dat altijd voor handen is. Rendement is dan niet een van de eerste dingen waaraan wordt gedacht. Je hebt het immers ook niet over de business value van een glas water of van de kerstverlichting. Ook deze optie leidt tot grote datavolumes in het datawarehouse.De vraag naar het rendement, ROI of de toegevoegde waarde van het datawarehouse is mijns inziens een verkeerde. De vraag zou moeten gaan over het rendement van de toepassing. Je vraagt toch ook niet wat de ROI is van het stuur in je auto of van de bijrijdersstoel? Maar je zou wel kunnen vragen naar de ROI van een bepaalde autorit (naar je werk, het ziekenhuis etc). In beide scenario´s (bepaling door vraag, infrastructureel standpunt) zijn de kosten van het datawarehouse te bepalen en toe te rekenen. Wat dan rest (en veel interessanter is!) is dan inderdaad het bepalen welke ritten het meeste bijdragen aan het bedrijfsresultaat! En dat sluit weer aan bij de conclusie van Robert.