Big data wordt genoemd als een van de belangrijkste uitdagingen van de cio, en daarmee ook van de hele it-afdeling. It moet de organisatie toegang geven tot informatie. Data is nog geen informatie en big data al helemaal niet. Tegelijkertijd hebben we te maken met steeds minder tijd die beschikbaar is. Om (big) data om te kunnen zetten in bruikbare informatie en inzicht gebruiken organisaties (advanced) analytics. Wat is nu de rol van it hierbij?
In hoeverre verandert big data het werkveld van de iy'er? Wat zijn de uitdagingen? Het veranderende werkveld van de it'er ten aanzien van analytics kan het best beschreven worden aan de hand van de Analytics Lifecycle. De Analytics Lifecycle laat zien welke stappen doorlopen worden in elk analytics-proces, verdeeld in mensen, processen en technologie.
We onderscheiden acht stappen in het proces:
1. Het begint altijd met een probleem, een vraagstelling, die zo concreet en zuiver mogelijk geformuleerd moet worden. Wat wil je weten?
2. Vervolgens moet je kijken welke data je daarvoor nodig hebt, in welke vorm, en waar vandaan.
3. De volgende stap is het onderzoeken van die data: is het bruikbaar, welke data heb je wel nodig, welke niet? Waar liggen verbanden.
4. Dan moet de gewenste data in een voor modellen bruikbare vorm worden omgezet. Welke data in welke tabellen, welke frequenties en nauwkeurigheden?
5. De vijfde stap is het bouwen van het model. Met welk model kan ik best komen tot beantwoording van mijn vraag.
6. Het model moet daarop worden gevalideerd en geverifieerd. Komen de juiste antwoorden eruit en levert het inderdaad antwoord op mijn vraag. Zo niet: gaan we weer terug.
7. Als het model helemaal klopt gaan we het model inzetten en kijken hoe het functioneert. Werkt het goed, snel en levert het de gwenste uitkomsten? Zo niet, gaan we weer een paar stappen terug.
8. De uitkomsten worden uiteindelijk getoetst aan de vraag. Beantwoordt het mijn vraag en kan ik met de uitkomsten verder? Zo niet, waar ligt het aan? De cirkel wordt dan weer geheel of gedeeltelijk herhaald.
Daarbij is het zo dat omstandigheden veranderen: data kunnen veranderen, de vraagstelling kan veranderen, randvoorwaarden veranderen. Hierdoor moet de cirkel weer geheel of gedeeltelijk worden doorlopen. De winst van high performance analytics (hpa) zit zowel in de doorloopsnelheid van de gehele cirkel, als in de tijdwinst van indviduele segmenten en de hogere kwaliteit van de modellen en de uitkomsten, waardoor minder iteraties nodig zijn. Het wiel van de analytics lifecyle draait daarmee steeds sneller. Ook verschuift met de komst van hpa en visual analytics (va) het zwaartepunt van it naar business. de business manager kan steeds meer zelf uit systemen halen, zonder tussenkomst van de it'er. Die is echter wel essentieel voor alles achter de schermen, de infrastructuur en arhitectuur.
Als we kijken naar de bemensing van de lifecycle dan zien we vier rollen:
– De business manager, die de vraag stelt en met het antwoord moet kunnen werken.
– De business analist, die zich vooral bezig houdt met het onderzoeken van de data (bijvoorbeeld met visual analytics) , en het voorbereiden ervan.
– De data miner/statisticus, die de data transformeert naar en door het model bruikbare vorm, en het model bout, ontwikkelt en valideert.
– De it- manager/systeembeheerder, die enerzijds een rol heeft bij de eerste aanlevering van de data, en de datakwaliteit, en anderzijds verantwoordelijk is voor een optimale werking van het model. De dagelijkse performance en aanlevering van de resultaten.
De technologie binnen de lifecycle heeft zowel te maken met aanleverende systemen (erp, vrm, call center, sensoren, social media et cetera) als ook met de opslag van data en de extractie ervan, met databases en netwerken, en met systemen voor datamining en model management. Capaciteit, snelheid en uptime zijn daarbij cruciaal.
De belofte van big data kan alleen verzilverd worden met high performance analytics.
dit vraagt om een it-infrastructuur en -architectuur die gebaseerd is op in-memory computing, in-database computing en/of grid-computing. It-management neemt hierbij een centrale positie in als ontwikkelaar en beheerder van de architectuur en infrastructuur. De business kan steeds meer zelf, en hoeft niet meer altijd naar it voor modelveranderingen of losse analytics runs. De it'er zorgt voor alles achter de schermen. De business heeft behoefte aan steeds sneller en nauwkeuriger informatie om betere beslissingen te nemen op het juiste moment of zelfs real-time. It kan daarbij de aanjager zijn, of een rem…