Afgelopen november vond er weer een Masters in Microsoft-avond plaats bij Avanade in Almere met als thema 'Big Data en Business Intelligence'. Een combinatie van onderwerpen die illustreren hoe hard de wereld de afgelopen decennia is veranderd. Rick Meijvogel en Edo Drenthen gaven inzicht in de verschillende verwerkingstechnieken en analysemethoden die op dit moment beschikbaar zijn om data op een juiste manier te kunnen interpreteren.
Data wordt aan de lopende band groter, omvangrijker en meer gedetailleerd. Waar we twintig jaar geleden nauwelijks informatie hadden, haken overheden vandaag de dag in op de wereldwijde internetinfrastructuur met als doel alle data die zij zo verkrijgen te verwerken tot nuttige informatie. De vraag is dan ook niet meer óf big data van grote waarde is, maar hoe we deze waarde kunnen destilleren uit de petabytes aan data.
Voor het verwerken van deze data is veel rekenkracht nodig. In de presentaties werden verschillende Microsoft-tools uitgelicht die hierbij kunnen ondersteunen. Eén daarvan is Hadoop, een product voor het verwerken van complexe en grote hoeveelheden data. Met behulp van Hadoop is het mogelijk om de rekenkracht van vele, goedkope machines te bundelen. Op die manier is het eenvoudig voor bedrijven om op te schalen wanneer nodig en kan hardware worden vervangen zonder ingrijpende procedures. Veel organisaties zullen deze rekenkracht echter niet continue tot hun beschikking nodig hebben. Hiervoor biedt de cloud een oplossing. De Azure-cloud van Microsoft biedt de mogelijkheid om Hadoop-clusters op te zetten wanneer die nodig zijn en ze te stoppen zodra er geen gebruik meer van wordt gemaakt.
Hadoop verdeelt een taak over verschillende machines. Vervolgens zijn er verschillende lagen waarop data kan worden geanalyseerd. Sommigen zijn zeer toegankelijk en werken op een hoog niveau zoals bijvoorbeeld Hive. Anderen werken weer op een lager level (Mapreduce) wat minder toegankelijk is, maar resulteert in een snelheidsvoordeel.
Business Intelligence in actie
Met deze groeiende hoeveelheid beschikbare data kan het voor organisaties ineens mogelijk worden om essentiële informatie inzichtelijk te krijgen die tot dusver niet voorhanden was.
Een goed voorbeeld dat werd getoond ging over een grote oliemaatschappij met tienduizenden werknemers verspreid over de hele wereld. Voor dergelijke organisaties is het een enorme opgave om grip te krijgen op de informatie die beschikbaar is uit alle verschillende landen.
Wanneer deze informatie centraal is verzameld en inzichtelijk is gemaakt, kan deze geanalyseerd worden en kunnen waardevolle rapportages worden gemaakt waarmee engineers, planners en management zich alleen bezig hoeven te houden met het analyseren van data en niet met het zoeken, opschonen en valideren ervan. Om tot dit punt te komen moet echter wel een uitgebreid traject worden doorlopen waarbij wordt gekeken hoe de organisatie in elkaar zit en welke data er allemaal beschikbaar is. Vervolgens moet alle data worden geprofileerd om te zorgen dat deze er hetzelfde uitziet en hetzelfde is te interpreteren. Deze stap, die doorgaans de meeste tijd vergt, is essentieel om data om te kunnen zetten naar daadwerkelijke informatie.
Als dit traject is doorlopen kan er gekeken worden naar hoe deze data gevisualiseerd kan worden. Dit kan met behulp van lijsten en tabellen, maar er zijn ook vele tools die de gegevens om kunnen zetten naar grafieken of bijvoorbeeld interactieve kaarten. Een voorbeeld hiervan is de Excel plug-in Powerview die eenvoudig interactieve grafieken en diagrammen kan maken.
Waar we het op deze avond allemaal over eens waren is dat de mogelijkheden eindeloos zijn. En nu thuis verder met het verdiepen in alle beschikbaar tools!
Mats Hofman, student business informatics aan de Universiteit Utrecht en mobile developer bij Creative Crowds.