Tijdens de eerste dag van het Data Warehousing en Business Intelligence Summit in Amsterdam werd weer eens duidelijk gemaakt dat de wereld van traditionele datawarehousing en business intelligence flink aan het veranderen is.
Dit wordt enerzijds veroorzaakt door de technologische mogelijkheden die ontstaan door de steeds volwassener wordende technologieën op het gebied van big data, mobile, cloud computing en data virtualisatie, en anderzijds door het feit dat organisaties geen genoegen meer nemen met enkel standaard rapportages. Er is bij organisaties een toenemende behoefte aan snelle en geavanceerdere analyses op grotere en meer gevarieerde informatie bronnen. Of zoals conferentie voorzitter Rick van der Lans het treffend verwoordde: De tijden waarin werd volstaan met een afdruk van de resultaten op van dat groen-witte matrix papier zijn allang vervlogen.
Big data, big hype
Hoewel gelijktijdig op een andere locatie in Amsterdam het Hadoop Summit plaatsvond, kwam de term big data ook tijdens dit summit opvallend vaak voorbij. Rick van der Lans benadrukte daarbij wel dat het hele fenomeen flink wordt overhyped. Het is niet de oplossing voor alles en het leidt niet automatisch tot betere informatie. Bovendien is big data niet hetzelfde als analytics. Ook voor kleinere hoeveelheden gegevens kunnen geavanceerde analyses zeer waardevol zijn.
Claudia Imhoff ging aansluitend ook in enkele big data misvattingen. Zo gaat big data niet alleen over social media, maar gaat het over alle gestructureerde en ongestructureerde data. Ook is het niet zo dat het toepassen van big data alleen voor hele grote bedrijven zinvol is. Er zijn voldoende kleinere bedrijven die complexe analyses op grote hoeveelheden gestructureerde en ongestructureerde data bronnen toepassen, en dus gebruik kunnen maken van de technologische ontwikkelingen op dit gebied.
Een van de belangrijkste conclusies die door de verschillende sprekers tijdens deze eerste dag werd gedeeld is dat met de komst van big data het datawarehouse concept niet verdwijnt en nog steeds een belangrijke bron van betrouwbare data kan zijn.
Nieuwe technologieën incorporeren
Maar een traditioneel datawarehouse waarin de gegevens fysiek worden opgeslagen is voor veel organisaties zeker niet de oplossing die in al hun analyse behoeften kan voorzien. Steeds meer organisaties hebben de behoefte om grote hoeveelheden gestructureerde en ongestructureerde gegevens direct te kunnen analyseren. Het is dan ook zaak om daar in de business intelligence architectuur rekening mee te houden. In de presentatie van Rick van der Lans, maar ook in de klantpresentatie van Bol.com wordt het principe van scale-out uitgelegd waarbij extra nodes kunnen worden toegevoegd om additionele data op te slaan en te verwerken zonder dat dit een impact heeft op de performance. Hadoop technologie maakt dit mogelijk.
Daarnaast wordt ingegaan op NoSQL oplossingen die een hogere performance leveren en beter kunnen omgaan met semi- en ongestructureerde data dan relationele databases. Deze verplaatsen wel het bewaken van de data integriteit en de security naar de applicatie laag. En dat heeft vervolgens weer een negatieve impact op de time to market, de onderhoudbaarheid en de productiviteit. Belangrijk dus om de juiste afwegingen hiervoor in je architectuur te maken.
Ook Data virtualisatie kan een onderdeel vormen van een nieuwe bi-architectuur. Dit maakt het namelijk mogelijk om de data zoveel mogelijk te verwerken en te laten waar het verzameld is, een behoefte die met cloud computing steeds groter wordt. Daarbij worden dan wel de meta data en integratielogica in een centrale data virtualisatie server onderhouden. Deze biedt de functionaliteit om al deze verschillende bronnen, met verschillende technologieën te ontsluiten en te integreren voor de verschillende analyse toepassingen. Want zoals Mike Ferguson terecht opmerkt is data integratie iets wat je centraal wil beleggen en niet iets waar, ondanks de opkomst van self-service data integratie (‘data wrangling’)-tools, een business analist op zit te wachten.
Data scientists
De toegevoegde waarde van al deze nieuwe technologieën is volledig afhankelijk van de toepassing waarvoor een organisatie deze gaat inzetten. En waar Mike Ferguson zich vooral richt op het inrichten van enterprise information management besteden Claudia Imhoff en Colin White veel aandacht aan business analytics. En dat is zeker niet alleen social media analytics.
Ze onderscheiden daarbij 4 niveaus:
1. Descriptive, waarbij de vragen: “Wat is er gebeurt?” en “Wat gebeurt er nu?” centraal staan;
2. Diagnostic, waarbij de vragen: “Waarom is het gebeurt?” en “Waarom gebeurt het?” centraal staan;
3. Predictive, waarbij de vragen: Wwat zal er gebeuren?” en “Waarom zal het gebeuren?” centraal staan;
4. Prescriptive, waarbij de vragen: “Wat zouden we moeten doen?” en “Waarom zouden we het moeten doen?” centraal staan.
Waar traditionele bi zich vooral op descriptive en diagnostic analytics focust, richt data science zich met name op predictive en prescriptive analytics. En hebben we voor deze geavanceerdere, maar ook waardevollere analyses dan data scientists nodig? Nee en ja. Nee, want de analytische tools zullen analyses steeds toegankelijker maken door hun complexiteit te verbergen. En ja, want de kennis van deze complexe modellen is nog steeds nodig om te voorkomen dat er verkeerde conclusies worden getrokken. Daarnaast zal een data scientist nog meer begrip van de business moeten hebben dan de traditionele bi’er omdat zij deze kennis nodig hebben bij het ontwikkelen, inrichten en onderhouden van de analytische modellen.
Geslaagde dag
Ondanks het geringe aantal deelnemers was deze woensdag een geslaagde eerste dag van het Summit. De verzorging was meer dan goed en boeiende presentaties van internationaal gerenommeerde sprekers als Rick van der Lans, Claudia Imhoff, Mike Fergusson en Colin White werden afgewisseld met technologisch interessante (Bol.com) en aanstekelijk enthousiaste (Herkel) klantvoorbeelden.