Hype van 2015 is toch wel big data. Als we de voorstanders, en dan vooral leveranciers van producten en diensten met big data-pretenties, moeten geloven schept het vooral nieuwe mogelijkheden.
Het belangrijkste kenmerk van wat ‘big data’ genoemd wordt is niet zozeer dat het om grote hoeveelheden data gaat, maar de gedachte dat met het verwerken van meer gegevens nagenoeg ieder probleem oplosbaar wordt. Sterker nog, de oplossing zit in de data zelf besloten, en mits er genoeg rekenkracht ingezet wordt, kunnen oplossingen van problemen, en zelfs nog niet ontdekte problemen (en bijbehorende oplossingen) op basis van de data zelf geformuleerd worden. De belofte is dus dat de ‘ouderwetse’ manier, waarbij het ‘eigenhandig’ identificeren van een probleem, het formuleren van een hypothese en een toetsingsmethode, waarna toetsing en analyse plaatsvond, overbodig wordt.
Big data-analyse heeft zich inmiddels bewezen in toepassingen uiteenlopend van natuurlijke taalverwerking zoals spraakherkenning, tot fraude-detectie in financiële dienstverlening, faunabeheer en het inzamelen van vuilnis. Big data wordt reeds veelvuldig ingezet door online adverteerders en wordt gepropageerd voor toepassingen in de zorg, het sociale domein en zelfs criminaliteitspreventie.
Knelpunt
Allemaal nuttige en misschien zelfs noodzakelijke toepassingen. Waar het begint te knellen is dat de vanuit big data analyse gegenereerde modellen niet meer zelf begrepen of achteraf (empirisch) getoetst worden door diegenen die ze inzetten. Dat betekent dat er beslissingen genomen worden om redenen die de beslissers zelf niet kennen, laat staan begrijpen of kunnen verifiëren.
Dat levert niet alleen praktische problemen op, zoals de vraag of oorzaak en gevolg in geconstateerde verbanden niet omgedraaid worden, of dat het verwerken en verzamelen van ‘extra’ variabelen een in de beslissingsregel verborgen (voor)oordeel alleen maar kan versterken, maar ook een fundamenteel juridisch probleem. Wat nu als het hebben van een bepaalde beroepsopleiding sterk gecorreleerd is met het hebben van een strafrechtelijk verleden? Of dat big data-analyse van een kredietverstrekker heeft geresulteerd in een beslisregel dat mensen met een bepaalde beroepsopleiding minder snel of zelfs helemaal niet in aanmerking komt voor een autofinanciering?
Binnen Europa hebben we na de nachtmerries van de totalitaire regimes van de twintigste eeuw via twee sporen een constitutioneel bouwwerk opgetuigd waarin verankerd ligt dat we niet meer gegevens over personen verzamelen en verwerken dan noodzakelijk is, dat die gegevens juist moeten zijn en dat we niet mogen discrimineren. Het ene spoor is dat van het Europees Verdrag voor de Rechten van de Mens, wat een politieke erfenis van Winston Churchill is, het andere dat van het Handvest van de Europese Unie, wat pas deze eeuw met het verdrag van Lissabon tot stand is gekomen. Abstracte grondrechten, die door lagere wetgeving zoals onze Wet bescherming persoonsgegevens en verdere sectorale besluiten tot meer praktisch toepasbare regels zijn vertaald.
Middeleeuwen
De opkomst van big data en het groeiende belang daarvan voor bedrijfsmodellen die raken aan het wezen van de maatschappij, betekent ook bijna letterlijk een terugkeer naar de Middeleeuwen. Tegelijkertijd wordt afstand genomen van de empirische cyclus van het identificeren en oplossen van problemen, volgens een methode waar ‘de wetenschap’ pas na eeuwen van vallen en opstaan toe is gekomen. Geavanceerde systemen werken niet langer meer, omdat de makers begrijpen welk probleem ze oplosten, maar omdat ze beslisregels bevatten die op basis van big data-analyses zijn gegenereerd. ‘The computer says no’ op een aanvraag van een hypotheek, zonder dat duidelijk is waarom. Of je wordt preventief gefouilleerd zonder dat er een echte aanleiding is. Informatiesystemen, die door hun complexiteit toch al iets magisch krijgen, worden zo helemaal ondoorgrondelijk. Het omhelzen van big data, zoals dat nu aangeboden wordt, is dan ook niet anders dan magisch wensdenken.
Zeker als het om persoonsgegevens gaat, is het niet kunnen uitleggen waarom gegevens verwerkt worden en hoe beslissingen genomen worden op basis van die gegevens, onverenigbaar met huidige wet- en regelgeving en zeer waarschijnlijk ook met de in Europa verankerde fundamentele rechten. De beloftes van big data kunnen alleen al daarom niet zo ingelost worden als veel profeten ons willen doen geloven. Het is niet ondenkbaar dat gaandeweg de uitrol van big data-analyse er kostbare en pijnlijke, praktische vergissingen gemaakt zullen worden die het leven van de betrokkenen drastisch veranderen.
Prima Walter,
Je hebt goed verwoord wat gelukkig velen denken.
Beslissingen die genomen gaan worden op basis van algoritmen op een dataset, zonder dat set en algoritme op integriteit kunnen worden gecontroleerd, zijn levensgevaarlijk.
De auteur merkt terecht op dat hij ‘big data’ benadert als ‘hype’.
Alle ‘hypes’ zijn ooit begonnen als een nuttig en duidelijk gedefineerd begrip of concept.
Wanneer een dergelijk begrip of concept succesvol is, wordt het opgepikt door mensen die willen meeliften op het succes, maar weinig begrip hebben van de werkelijke inhoud. Dit heeft tot gevolg dat een begrip, zoals ‘big data’ vervaagt en wordt uitgehold. Het bovenstaande artikel is daarvan een voorbeeld.
De meest gangbare definitie van ‘big data’ is de “drie V’s”: Volume, Velocity, Variety. Toen ‘big data’ nog geen hype was, ging het dus wel degelijk om grote hoeveelheden, namelijk “te groot om gemakkelijk in één computer te worden verwerkt”.
Een ander begrip, dat vaak verward wordt met ‘big data’, is ‘data science’. Dat is waar de auteur het over heeft in het grootste deel van het artikel.
Data science gaat over het analyseren van gegevens met de bedoeling daar kennis uit af te leiden, vaak in de vorm van bepaalde patronen, classificaties of tendensen. Hiervoor gebruiken ‘data scientists’ technieken als statistiek, kunstmatige intelligentie en algoritmiek.
Veel van deze analysemethoden werken alleen (statistisch) betrouwbaar als ze gaan over redelijk grote hoeveelheden gegevens, vandaar het verband met ‘big data’.
In de afgelopen 10 jaar is het steeds beter mogelijk geworden om grote hoeveelheden gegevens (‘big data’) te verwerken. Hierdoor zijn technieken uit ‘data science’, die soms al decennia oud zijn, toepasbaar geworden op ‘real world’ data. Dit heeft geleid tot opmerkelijke en succesvolle toepassingen.
Het werk van een ‘data scientist’ is slechts voor een klein deel het toepassen van deze technieken. Iedere handige programmeur kan dat doen. Het echte werk is het prepareren van gegevens (selectie, opschoning) en het interpreteren van de modellen en resultaten. Ook dit is niet nieuw; Het hele proces wordt beschreven in methodes zoals CRISP-DM.
Omdat het interpreteren van modellen en resultaten veel werk is, is er altijd een druk op ‘data scientists’ om dat in te korten: “We hebben de resultaten al” is het soort argument dat managers dan gebruiken.
Als ‘data scientist’ zie ik het als mijn rol om alsmaar weer uit te leggen dat het begrijpen van de uitkomsten van algoritmes cruciaal is om tot een werkelijk bruikbaar resultaat te komen.
Een van de meest voorkomende fouten, die de auteur aanhaalt, is samen te vatten als “correlation does not imply causation”. Als ergens een correlatie is betekent dat nog niet een oorzakelijk verband. Een correlatie kan wel aanleiding zijn om bepaalde gevallen nauwkeuriger te bekijken, bijvoorbeeld bij fraudedetectie.
Het is jammer dat de auteur het nodig vindt een doorzichtige retorische truc te gebruiken en totalitaire regimes erbij haalt, en op basis daarvan een omgekeerde redenering volgt.
Data science is juist gebaseerd op het volgen van een wetenschappelijke methode, gebruik makend van technieken die al decennia (en soms langer) bekend zijn uit de wiskunde en in het bijzonder statistiek.
In de middeleeuwen was het gebruikelijk om mensen die een onwelgevallige mening aanhingen te veroordelen na een schijnproces Daarbij toonden dan ‘juristen’ aan dat de veroordeelde schuldig was, door het verwarren van begrippen en omdraaien van redeneringen. Het artikel lijkt aan te tonen dat juristen, in tegenstelling tot wetenschappers, sinds de middeleeuwen weinig vooruitgang hebben geboekt.
Nog een reactie op het “weekthema big data”:
Het is jammer dat de redactie van Computable niet de moeite heeft genomen om een inleidend artikel te publiceren waarin wordt uitgelegd wat ‘big data’ werkelijk is.
Dat had bijvoorbeeld gekund door het vertalen van een van de uitstekende artikelen van O’Reilly radar [http://radar.oreilly.com/data], of door iemand die er echt iets vanaf weet aan het woord te laten. Waarschijnlijk is dat laatste het probleem; In Nederland gebeurt dit nauwelijks, en hebben we vooral ‘opiniemakers’ zoals managers en juristen.
@Nico:
“… waarin wordt uitgelegd wat ‘big data’ werkelijk is …”
Maar zijn die experts het dan allemaal met elkaar eens? Hanteren ze allemaal hetzelfde perspectief als het gaat om “wat big data werkelijk is”?
Voor de rest zeker een waardevolle aanvulling!
Hoewel ik de schrijver toch minstens het voordeel van de twijfel zou willen geven. Want de wereld die wetenschap heet is voor hun financiering in hoge mate afhankelijk van het bedrijfsleven en de overheid… wiens brood men eet diens woord men spreekt…
@Will:
De volgende verwijzingen komen uit verschillende hoeken, en zijn het grotendeels met elkaar eens:
[http://www.sas.com/en_us/insights/big-data/what-is-big-data.html]
[http://www-01.ibm.com/software/data/bigdata/what-is-big-data.html]
[http://searchcloudcomputing.techtarget.com/definition/big-data-Big-Data]
[http://www.forbes.com/sites/lisaarthur/2013/08/15/what-is-big-data/]
[http://radar.oreilly.com/2012/01/what-is-big-data.html]
[http://datascience.berkeley.edu/what-is-big-data/]
[http://www.mongodb.com/big-data-explained]
Deze staan allemaal op de eerste pagina als je in Google zoekt naar “what is big data”.
Nu ‘big data’ in Nederland een ‘hype’ is (dat was in de USA al in 2012) betekent dat, dat de term zal vervagen totdat het een inhoudsloze verkoopkreet is, zoals dat al zo vaak is gebeurd. Denk aan ‘agile’, ‘internet’, ‘(software) architectuur’, …
@Nico:
Goed om te zien dat die specialisten het allemaal met elkaar eens zijn!
Dat dergelijke termen vervagen tot een inhoudsloze verkoopkreet kan ik alleen maar toejuichen. Zo wordt je min of meer gedwongen na te denken over de kaders en positionering waarbinnen je jezelf kunt onderscheiden.
Immers, zoals je zelf al terecht vaststelde heeft het bezigen van de term geen onderscheidend vermogen meer aangezien “iedereen” er hetzelfde onder verstaat.
@ Walter van Holst, 03-05-2015 11:21: “De belofte is dus dat de ‘ouderwetse’ manier, waarbij het ‘eigenhandig’ identificeren van een probleem, het formuleren van een hypothese en een toetsingsmethode, waarna toetsing en analyse plaatsvond, overbodig wordt.”
Hoewel de wetenschapplijke testbaarheid voor wetenschappers een open deur zou moeten zijn, is dit zelfs voor wetenschappers niet altijd duidelijk, zie bijvoorbeeld vimeo.com/95107708