Hoe wordt big data toegepast in de praktijk? Met die vraag ging business consultant Victor Meerloo van storage-leverancier i3 Groep naar het Big Data Forum 2013 op 22 januari in Almere. Hij raakt geïnspireerd en droomt van allerhande supercomputers om big data mee te lijf te gaan. Hij geeft het congres het rapportcijfer 7.
Ik wilde een antwoord op de vraag hoe big data wordt toegepast in de praktijk. Dat het onderwerp leeft was te zien, maar het toont ook de vertwijfeling die iedereen ervaart hoe big data in zijn eigen organisatie toe te passen. De vrees om de boot te missen is voelbaar.
Tijdens het forum was er vaak een overlap tussen de onderwerpen ketenintegratie en big data. Voorbeeld was de luchtvaartindustrie waar de klant volledig vanaf huis naar z’n hotel in een ander land wordt geholpen. Super leerzaam hoe gegevens uit vele bronsystemen aan elkaar worden gekoppeld om meerwaarde te leveren, maar of het de kern van big data raakt, weet ik niet. Voor mij gaat de essentie van big data over het slim benutten van een grote verscheidenheid aan databronnen waarin voor de organisatie waardevolle informatie ligt opgeslagen, die voorheen niet werd benut. Hoe groot deze zijn is niet wezenlijk belangrijk.
Er is wel een ontwikkeling die zich uitstekend leent voor het analyseren van big data: de klant die steeds meer centraal komt te staan. Je ziet het in de zorg, waar processen zich rond patiënten vormen en in de reisbranche waar alle diensten zich steeds meer rond de reiziger vormen. Een geweldige mogelijkheid om de afstand tussen de organisatie en de klant te verkleinen door meer over de klant te weten te komen. Zeker als de sociale media in de analyse worden betrokken.
Ruis
Tijdens het forum werd de omvang van de data als probleem wel duidelijk. Je hebt wat aan je big data tot het moment dat je het niet langer kan verwerken, doordat de omvang te groot is. Daarna wordt het chaos en gaat het onderscheid tussen signaal en ruis verloren. Ofwel: de hoeveelheid data wordt dan zo groot dat een organisatie er geen toegevoegde waarde uit kan halen.
In mijn fantasie werd het AlmereGrid ingeschakeld om de data te kraken. AlmereGrid is als het Seti-project waarbij wereldwijd processortijd wordt gebruikt van vrijwilligers om radiosignalen te analyseren op het bestaan van buitenaardse beschavingen. Almere heeft de eigen variant die wordt ingezet voor wetenschappelijk onderzoek. Aan de andere kant heeft de RUG in Groningen een Blue Gene staan. Met deze middelen kun je geweldig je big data te lijf gaan.
HPC-hardware
Natuurlijk kun je ook meer toegankelijke gespecialiseerde high performance computing hardware kopen om deze data te analyseren. De vraag speelt alleen: als je 100TB aan data hebt, hoeveel geld heb je dan over om deze data te gaan analyseren. Op een conventioneel platvorm wordt het een uitdaging. Hoe ziet je business case er uit voor het actief voeren van een big data-beleid en hoe betrouwbaar zijn de gegevens waaruit je je conclusies trekt. Voor veel organisaties vormt dit een weg die nog moet worden geslecht. Daarna is deze vrij om de waarde van big data als bedrijfsmiddel verder uit te bouwen.
Viktor,
Je titel zegt eigenlijk al genoeg, de markt speelt in op één van de beste verkoopargumenten. Ook leuk dat je refereert aan computergrids om flink te nuanceren. Verder wil ik er aan toevoegen dat het analyseren van 100TB aan data helemaal geen probleem hoeft te zijn zolang je de tijd ervoor hebt en weet wat je zoekt. En juist aan het (vermeende) ontbreken van één of alle twee factoren is naar mijn opinie toch een groot deel van deze hype opgehangen.
Want zoals je al zegt is het verwerken van grote hoeveelheden data iets wat al heel lang gedaan wordt in de wetenschap. Soms met HPC hardware, soms met COW’s maar volgens mij altijd met een redelijk duidelijk onderzoeksdoel.
@Victor, Inzake ruis, ketenintegratie e.d. behandelt het boekje ‘Supercrunchers’ een aantal leuke elementen. Zo volgde relevante informatie een betreffende passagier. De negatieve ervaring van een verloren koffer – op de vlucht van een dag eerder – kon volledig worden omgedraaid doordat de crew ervan wist. De verbijsterde passagier kreeg bij binnenkomst in het vliegtuig een drankje met de vraag hoe zijn dag zonder bagage verder verlopen was. Een belangrijk onderdeel van big data is, dat het systeem begrijpt welke informatie waar en wanneer voorhanden moet komen.
De database warehouse mining basis van Big Data blijft m.i. het vaststellen van een lijst van relevante vragen voor vaststellen van de kans op een bepaalde uitkomst met een navenant onzekerheidspercentage. Gevangenisdirecteuren kregen een checklist die beter dan welke ervaringsdeskundige dan ook kon voorspellen of een potentiële verlofganger weer in de fout zou gaan. De vragen waren duidelijk niet door een deskundige opgesteld maar met statistische regressie uit Big Data afgeleid (waren er meer dan drie aangiftes? Was meer dan één veroordeling? Waren er zowel jongens als meisjes onder de slachtoffers?) Zes vragen in totaal. De lijst maakte furore toen het een of meerdere keren afschuwelijk misging doordat de uitkomst op basis van deskundig advies werd genegeerd.
Big Data zal dus aanvankelijk een stroom van aan een vraag gelieerde vragenlijsten opleveren. De vragen ervan zijn voortgekomen uit gebleken statistische relevantie in geanalyseerde informatie. De antwoorden resulteren waarschijnlijkheid van respectievelijke mogelijke uitkomsten met hun respectievelijke foutkans. Gebleken is, dat dergelijke systemen succesvoller jouw eigen toekomstig gedrag kunnen voorspellen dan dat jij dat zelf kunt. Je denkt inzake jezelf het voordeel te hebben van informatie-bias. En incidentieel is dat ook zo, maar statistisch lijd je eraan en verlies je het ook inzake jezelf van dergelijke expert-systemen.
De vrees om de boot te missen is een juiste constatering: Alleen op welke boot moet je springen? Moet ik een boot kopen, of tijdelijk huren of kan ik gewoon een dienst afnemen op de boot van een ander?
Het technisch probleem van grote hoeveelheden, een grote verwerkingssnelheid, variëteit in data en de betrouwbaarheid is wel op te lossen mits je weet wat je aan het doen bent. Maar hoe moet je dit doen? We hebben een mooi gezegde in Nederland: Oefening baart kunst, dus aan de slag ermee. Dat is exact wat alle pioniers ook doen.
Dat het Big Data Forum 2013 in Almere plaatsvindt is geen toeval. Zoals burgemeester Annemarie Jorritsma al in haar openingswoord zei: Almere is Almere DataCapital en wil de big datahoofdstad van Nederland zijn. Vandaar dat we vanuit het in 2011 gestarte programma in Almere doorpakken met een Big Data Value Center waar vraag en aanbod bij elkaar kunnen komen om uit te proberen hoe je nu waarde uit al die data haalt. Met ruimte voor innovatieve ideeën en kansen voor bigdata startups en met – zoals Ewout terecht stelt – kennis die we in de (e)Science al hebben en verder ontwikkelen. Dus tegen iedereen die wat wil doen in Nederland zou ik willen zeggen: help elkaar en de BV Nederland.
@Oscar,
Je vraag op welke boot je moet springen is een goede en hoewel niet geschreven vanuit Big Data perspectief is het plaatje bij mijn stukje ‘Database Debacle in de Cloud’ misschien wel interessant.
http://dekkinga.blogspot.nl/2013/01/database-debacle-in-de-cloud.html
Big data wordt vaak gereduceerd tot een ‘IT probleem’ en gesprekken gaan vaak over in discussies over wat big data is. Helemaal niet interessant.
Er zijn genoeg platforms voor het verwerken van grote hoeveelheden data. Aan keuze geen gebrek. Big data is natuurlijk een containerbegrip, maar in mijn optiek ligt de grootste toegevoegde waarde bij de analyse van de data en het inzetten van de output in het verbeteren van processen. Ik zou graag zien dat daar eens wat meer aandacht aan wordt besteed. Eigenlijk ben ik het dus met Victor eens.
Koen,
Als eerste lijkt het me vrij moeilijk om grote hoeveelheden gegevens op papier te verwerken waarmee ik wil zeggen dat techniek nog steeds niet onbelangrijk is. Ik ben het met je eens dat het om de analyse gaat maar ook deze wordt uiteindelijk weer bepaald door…….
Inderdaad de keuze van je platform en daarmee dus de techniek die je wel of niet de mogelijkheden geeft om (big) data te verwerken. Het aardige van Viktor is dat hij SETI noemt waar we in ruis zoeken naar het bewijs van buitenaards leven. Maar wat nou als blijkt dat juist die ruis de wijze is van intelligente communicatie?
Bij een analyse gaat het dus vooral om het denken buiten de normale kaders, het revolutionaire idee wat je wilt bewijzen. En daarbij helpt meestal uiteindelijk weer nieuwe techniek waardoor we nu bijvoorbeeld in staat zijn om eerder niet traceerbare doping te ontdekken om zomaar een voorbeeld te geven.
Als je echter niet weet waar je naar zoeken moet dan is de kans groot dat je het ook niet zult vinden hoewel je natuurlijk toevallig wel altijd een randverschijnsel kunt vinden. Maar vaak zien anderen weer de waarde van die ‘afwijking’ zoals bijvoorbeeld met de ontdekking van penicilline, waarbij we nu dus ook residentie kennen.
Persoonlijk ben ik dus een beetje resident geworden voor alle marketing rond Big data omdat we nog steeds niet in staat zijn om de exacte datum van de volgende Elfstedentocht te voorspellen.
Ewout, ik denk dat we een verschillende definitie van techniek en analyse hanteren. Overigens zijn een aantal dingen die je hierboven schetst prima mogelijk. De Elfstedentocht is inderdaad niet te voorspellen.
Koen,
Inderdaad heb ik me niet helemaal volledig en correct uitgedrukt en had ik moeten stellen dat dingen zoals servers, database, netwerk, enzovoort vooral de technologische middelen zijn.
Zoiets als pannen, potten, lepels, kachel en dergelijke in een keuken en waar in dit vergelijk de data dus de ingrediënten zijn. En om hierin door te gaan, we kunnen onze honger stillen met een kwalitatieve en voedzame maaltijd van kennis of de ongezonde fastfood van informatie die ons geserveerd wordt door de firma F/Rite Air, de inname van ongezonde supplementen voor de winst.
Hoewel bovenstaande misschien een raar vergelijk is heeft het wel een behoorlijk aantal overeenkomsten met Big Data want het meeste geld zit natuurlijk in de geheime of gepatenteerde receptuur als er gekookt wordt met de techniek van cuisine d’assemblage. Dat in tegenstelling tot de meer traditionele keukens waarbij recepten via kookboeken geleerd worden en dus zowel de ingrediënten als de verwerkingen transparant zijn, zeg maar de (g)astronomie.
Nu maakt honger natuurlijk rauwe bonen zoet en dus blijven de blikvoer fabrikanten ons met mooie etiketten verleiden.
Ik denk dat het vertrekpunt moet zijn ‘Hoe kan ik mijn klant beter bedienen door het gebruik van Big Data?’ Hieruit ontstaan vragen die beantwoord dienen te worden, vervolgens wordt de data hiervoor verzameld, verwerkt en kan het worden geanalyseerd.
Dat je zegt : “de hoeveelheid data wordt dan zo groot dat een organisatie er geen toegevoegde waarde uit kan halen.”, dan gaat er in mijn ogen iets mis. Je hoeft niet zoveel data te hebben, je moet niet zoveel willen, maar ga efficiënter om met big data. Dan wordt het een doelgerichte effectieve exercitie.
Verwerk en analyseer Big Data niet vanuit het dataaanbod, maar vanuit de datavraag.