Onderwijsinstellingen zijn begonnen mensen op te leiden om met big data te kunnen omgaan, maar het is toch beter die vaardigheden in eigen huis te ontwikkelen en te houden. Dat is de conclusie van de Computable-expertsessie over dit onderwerp op Infosecurity 2012 in De Jaarbeurs. Want het is ondenkbaar dat één persoon al die kennis in zich draagt. Big data is teamwork.
Hans Timmerman van EMC leidde de discussie in met de stelling dat 'onzinnige data leidt tot onzinnige conclusies'. En dat kwaliteit dus het begin is van big data. Eric Melse (Universiteit van Amsterdam) zei hierop dat veel organisaties dermate schrikken van de slechte kwaliteit van data dat ze het hele project maar laten zitten, en helemaal niet aan analyses toe komen. 'Maar belangrijker misschien nog is de vraag of de mensen die de analyses moeten doen wel over de juiste kennis beschikken.'
Edwin Peters van SAS zei dat sommige data gewoonweg ontbreken en andere onjuist zijn. 'Maar dat neemt niet weg dat je dan niks meer kunt doen. Maar je moet data wel schoon maken en houden. Elke organisatie moet beschikken over datamanagement en data-governance.'
Ewout van Opstal van HP Autonomy was het wel enigszins eens met de stelling, maar legde de nadruk op de noodzaak om die enorme berg data te kunnen ontsluiten. 'Anders weet je niet eens wat je ermee kunt doen.'
Herbert Smals van Dell ten slotte betoogde dat er helemaal geen onzinnige data bestaan. 'Alle data hebben zin. Je weet immers niet wat je niet weet. Als je gaat analyseren kun je worden verrast.'
Zij waren het wel met elkaar eens dat er een systeem moet komen om de kwaliteit van data vast te leggen. Dat ontbreekt nog.
Big data en big brother
Big data en big brother liggen dicht bij elkaar, aldus Timmerman. Zo heeft Walmart ontdekt dat zwangere vrouwen vaak een bepaalde soort yoghurt kopen. Als een vrouw dus dat product koopt, dan is de kans groot dat zij zwanger is. Vervolgens kun je het reclamemateriaal daarop afstemmen. Die vrouwen krijgen folders waarin bijvoorbeeld luiers een babyvoeding staan.
Van Opstal deed de suggestie de berg gegevens te laten scannen door een machine. 'Mocht zich dan een bepaald verband voordoen, dan kun je een mens daar dieper in laten duiken. Die methode is wettelijk toegestaan.' Of het ook ethisch is, bleef in de lucht hangen. Duidelijk is wel dat de samenleving een antwoord hierop moet formuleren.
Vier v’s
Als het om big data gaat, zijn drie v's van belang: volume, variety en velocity (snelheid). 'Ik zou daar graag een vierde aan willen toevoegen: value', zei Van Opstal. 'Want je moet je toch afvragen of die berg gegevens wel waarde heeft voor de organisatie.
Daar zit evenwel een probleem, omdat niet tevoren is vast te stellen of die gegevens waardevol zijn. Als je gaat zoeken, dan definieer je van tevoren al wat je wilt weten. De grap is juist dat je je laat verrassen door mogelijke verbanden, waarnaar je niet bewust op zoek bent. 'Het zoeken wordt vinden', aldus Van Opstal.
Big data vereist bepaalde vaardigheden: techniek, statistiek, ethiek, juridische kennis, inzicht in processen en weten waar het bedrijf voor staat. 'Dat vind je niet terug in één persoon. Daarom is big data teamwork. En juist omdat het om jouw organisatie gaat, met jouw specifieke wensen en mogelijkheden, moet je dit binnen de eigen grenzen organiseren', luidde een conclusie.
Je kunt dit dan ook niet overlaten aan consultants die van buitenaf worden ingehuurd. Big data is een continue proces. 'En we staan nog maar aan het begin van deze ontwikkeling. Die nog complexer wordt als je real time data beschikbaar wilt hebben, zodat je in de directiekamer weloverwogen besluiten kunt nemen. Dat gaat gebeuren, maar nu nog niet.'
Maak van Data – Kennis; Kennis geeft macht, oude wijsheid, veel eenvoudiger is het niet te omschrijven. Oude wijn in nieuwe zak of echte revolutie?
Als ik dit verslag lees dan is de uitkomst toch wel mager. Deze discussie heb ik het afgelopen jaar al de nodige keren gevoerd tijdens verschillende rondetafel discussies en in panels en daar kwam meer uit. Ik ben het vaak met Hans Timmerman eens als het over Big Data gaat maar Herbert Smals heeft wel een punt dat je pas weet wat onzinnige data is als je er niets uit kunt krijgen. Hans heeft uiteraard gelijk met garbage in is garbage out. Dat is immers nu ook al zo met BI. Alleen weet je dat dus vaak nog niet, zeker niet als je er voor de eerste keer mee begint.
Bij de 4 V’s (in het verlengde van Doug Laney’s 3V’s) spreken we inmiddels van de 4e V in de zin van Veracity: het vertrouwen dat je in de data hebt. Over deze 4 V’s ligt dan heen de V van Value, daar gaat het je uiteindelijk om.
Ewout van Opstal raakt een cruciaal punt met zijn opmerking over het ontsluiten. Data in gesloten silo’s kun je niets mee. Dat is vooral in de Healthcare met de enorme vendor lock-in op data een serieus issue om wat met alle inmiddels big data te kunnen doen.
Het punt van het ontbreken van de multidisciplinaire kennis die nodig is om met Big Data om te kunnen gaan begint inmiddels steeds prominenter te worden. Niets nieuws, McKinsey voorspelde dat al in het Big Data – the New Frontier rapport vorig jaar. Organisaties kunnen wel stellen dat ze intern kennis moeten ontwikkelen maar wie gaat dat dan doen en hoe? Meestal wordt er een soort speeltuin gemaakt maar dat loopt nog niet echt storm in Nederland. De vendors die in deze discussie aan tafel zitten hebben allemaal de nodige tools en er is nog veel meer te koop of als open source te krijgen maar je moet wel weten hoe er mee om te gaan en dat moet je leren. Om met Big Data om te kunnen gaan heb je echt niet alleen mensen met een PhD nodig, het is ook gewoon water dragen. We zullen dus zowel in het WO, HBO als MBO onderwijs moeten inzetten op kennisontwikkeling en er vooral ook mee aan de slag gaan, samen met bedrijven. Het is de combi die het zal moeten doen.
Veel bedrijven verzamelen grote hoeveelheden data (al dan niet vanuit juridische verplichtingen). Dat was vroeger al zo met het verplicht invullen van (crm/scm/scm) lijstjes en is nu alleen maar meer geworden met de komst van real time user data (social media).
Weinig bedrijven hebben zich zo ingericht dat ze near real time daarop kunnen reageren (Cisco is wat mij betreft een uitzondering). Dat heeft niet alleen met statistiek te maken, maar meer met hoe je business en IT laat samensmelten om adequaat te reageren – of zelfs te voorspellen.
Ook in deze discussie (storage gedreven) mis ik die invalshoek. Want daar zijn de echte euro’s te verdienen. Tijd voor veel grote bedrijven eens goed te kijken naar start ups die zich vanuit de fmcg wereld aan het ontwikkelen zijn!
Er schijnt gesproken te zijn :
Ene Edwin Peters vindt dat sommige dat ontbreken en andere data onjuist zijn. Dat moet je maar eens oplossen.
Ene Ewout van Opstal vindt dat je er wel bij moet kunnen komen.
Herbert Smals vindt dat er helmeaal geen onzinnige data bestaat.
Briljant. Zooooooo blij dat ik niet geweest ben 😉