Big data is hot. Als een van de sprekers op het eerste Big Data Forum van 17 april 2012 te Almere heb ik gesproken over het thema 'social data versus big data'.
Big data kent eigenlijk de min of meer de bekende V's, te weten:
– Variety: in a nutshell, de diversiteit van de data;
– Volume: in a nutshell, de hoeveelheid, grootte van de data;
– Velocity: in a nutshell, de stroming (streaming), verplaatsing van data (movement).
– Viscosity: in a nutshell, meet de "weerstand" van de flow in de volume van de data (measures the resistance to flow in the volume of data).
– Virality: in a nutshell, meet hoe snel data wordt verspreidt en gedeeld tussen unieke nodes.
– Value: in a nutshell, wat is de toegevoegde waarde die het moet gaan opleveren?
De laatste V-Value is mijns inziens de belangrijkste wat je met name als organisatie er uit zou willen halen.
Yammer, Twitter en LinkedIn
Social media in allerlei vormen produceren veel data die in de meeste gevallen onder alle V's van big data vallen. Als je dit combineert met het feit dat social data veelal (de 80/20 regel gaat hier zo'n beetje op) ongestructureerd is, komt hier de V van Value om de hoek kijken. Met andere woorden, social data valt onder de noemers van big data.
Met name als professional heb je tegenwoordig veel kanalen waarin je zaken/informatie ontvangt en kan versturen, denk hierbij aan telefoon (Viber, Whatsup, VoIP's, etc.), e-mail, Yammer, sms, Twitter, blog's, LinkedIn, chat, etc. Het is belangrijk om als verzender en ontvanger, in een zakelijk omgeving, na te gaan wat het te behalen doel is. Gaat het om het individu of een hele grote groep benaderen, of weer iets anders? Belangrijk wordt toch het feit dat binnen social media en dus de daarbij behoorde social data ook naast de bekende, zoals Google, online winkels, etc. ook te beseffen 'who is watching the watchers?'.
Aanpak criminaliteit
Naast de bekend geachtte Amerikaanse patriot act en het feit dat bijvoorbeeld de 'congress of library' alle niet-persoonlijke Tweets voor vele maanden bewaard, gebruiken ook buitenlandse agencies, maar ook in Nederland, politie en justitie social data in hun aanpak van onder andere criminaliteit. Zij zijn zich zeer bewust hoe met social data om te gaan.
Door alle informatie die we delen en door de techniek weet 'men' waar we zijn en wat we ook nog eventueel aan het doen zijn. Mede daar we dit zelf delen en updaten is dat natuurlijk ideaal voor diegene die daar gebruik van willen maken. Ik verwacht ook dat reclamemakers naast de bekende zoekresultaten op zoekmachines en dergelijke we op onze tv's en gameconsoles (die meer en meer gekoppeld zijn aan het internet) specifieke reclames krijgen. Door de providers en kabelexploitanten weet men heel goed wat voor gezinssamenstelling we hebben, welke apparaten we aangesloten hebben en waar we ons fysiek (veelal) bevinden.
Daarnaast geeft het ook kansen. Atos bijvoorbeeld heeft de intentie van zero e-mail. Het idee hierachter is eigenlijk een hele positieve gedachte waarvan ik vind dat andere bedrijven hier ook expliciet over dienen na te denken. Het is namelijk zo dat in menig e-mail veel toegevoegde waarde van informatie kan zitten die je als organisatie in de toekomst meer als gestructureerde data zou willen gebruiken.
Crawl
Analytics op e-mail en social data wordt met de verschillende softwareleveranciers die dit leveren op de markt eigenlijk een eenvoudige zaak. Een simpele, zogenoemde 'crawl' op social data werkt tegenwoordig vrij eenvoudig. Stel dat je als organisatie wil weten wat men van je nieuwe product, vindt dat net op de markt is gebracht. Dan werkt een crawl zo:
– Url ingeven (bijvoorbeeld van Twitter).
– Periode bepalen (bijvoorbeeld drie weken gegevens binnenhalen).
– Profile gemaakt, op product. (getagd ten behoeve van ongestructureerde data).
– Stream komt binnen en geanalyseerd.
– Filters geplaatst.
– Op basis van een collectie, nagegaan Like, Unlike, Hot, Buy, etc.
– Met deze subset, analyses te maken, via bi, data mining en visualisaties.
Data uit social media is te relateren aan big data daar alle V's daar aangekoppeld kunnen worden. Het is zeker niet het enige, maar wel in mijn ogen een van de aspecten die veel 'value' kan leveren, door bijvoorbeeld juiste analytics op te zetten en te integreren met de informatie of data vanuit de eigen organisatie.
De 6 V’s zijn op zich best leuk en leerzaam.
Echter is het wel de vraag hoeveel organisaties in Nederland klaar zijn voor Big Data. En hoeveel organisaties en ook daadwerkelijk naar kijken.
Big Data komt absoluut ooit ( lees binnen een x aantal jaar ) op de agenda te staan van een CIO. Alleen moeten we wel nog even geduld hebben.
Roland,
Big data binnen social media zijn vaak de gedachte van een ander, ze staan vaak sneller op internet dan op papier. Al deze data is natuurlijk een goudmijn voor sociologen, politicologen, psychologen en alle andere -logen die zich bezig houden met het bestuderen van samenleving, menselijke geest en bijkomend gedrag. Data mining in sociale media levert soms inzichten in relaties op die anders misschien verborgen bleven. Informatie hierin is dan misschien niet altijd gestructureerd maar deze sociale netwerken zijn net relationele databases. En terwijl iedereen bezig is met Wordfeud, het ouderwetse Scrabble op Internet, zitten anderen dus met onze gedachten Cluedo te spelen.
De vraag die al meermaals gesteld is op Computable maar ook in de Tweede Kamer en vast nog vaak terug zal komen is of dit wenselijk is.
Grote delen van twitter en linkedin zijn openbaar en daar kun je van alles mee doen. Een zeer groot deel van Facebook en met name Yammer zijn totaal niet publiek en dus alleen interessant als je toegang hebt tot die data, of als je apps hebt waarin gebruikers toestemming hebben gegeven voor toegang tot die data., maar in alle gevallen gaat het over subsets.
Als je over big data en bijvoorbeeld social media schrijft en later als voorbeeld “zero mail” dan is authenticatie ook een belangrijk facet. Wie hebben toegang tot de data?
Zero mail is in mijn ogen tweeledig: publiciteit (heeft Atos knap gedaan!), maar eigenlijk brengt het een ander -organisatorisch of cultuur- probleem aan het licht.
Ik vind nog steeds de grootste uitdaging van Big Data om er de laatste “V” uit te krijgen. Zonder dat als uitgangspunt zullen veel bedrijven geld verbranden zonder ROI.