Patronen ontdekken in heel veel data. Veel mensen vinden het opwindend, maar slechts weinigen zien de keerzijde van deze medaille.
Terwijl ik dit stukje schrijf is er ophef. Een Zwolse politieagent houdt een donkere jongeman in een dure witte auto staande, de succesvolle rapper Typhoon. Voor de agent geldt dat de combi donker-man-limo wijst op drugsgeld en hij geeft dat ook eerlijk toe. Iedereen boos. Excuses van de politie voor ‘racial profiling’, niet voor het staande houden van wie dan ook op zo’n wankele basis. Immers, zelfs als jonge zwarte mannen in dure auto’s honderd keer vaker in drugs doen dan blanke besjes in een Aygo, zullen de meeste van die mannen toch niet drugscrimineel zijn.
Gedachtenexperiment
Wat de rapper overkwam gaat veel meer burgers overkomen. Bedrijven en overheden zijn helemaal in de big data. Het recept? Verzamel data, veelsoortige data, liefst gedragsdata, ‘crunch’ die data en vind marketingtargets, fraudeurs, jihadisten en liefdespartners!
We doen een gedachtenexperiment: we stoppen alle data waarover de overheid beschikt in een databucket en gaan op zoek naar patronen. Grote kans dat onze rapper dan ook als een potentiële crimineel naar voren komt. Die agent is namelijk niet gek. Hoewel. Misschien zijn agenten toch racisten en vinden ze vooral jonge, donkere drugscriminelen omdat witte oude taarten nooit worden gecontroleerd en daardoor buiten de relevante crimi-bestanden blijven. Ook big data zijn vaak de neerslag van selectieve waarneming en gegevensvastlegging. Alleen storen we ons minder aan een transparante agent dan aan een software-orakel. Mensen zijn immers racistisch. Racisme is emotie en software is emotieloos. Niet dus.
Mooie patronen
Er speelt nog iets anders. De software van vandaag is onredelijk en niet accountable. Wie in big data struint, vindt redelijke en onredelijke, permanente en tijdelijke patronen. Een patroonzoekend programma kan er net zo goed naast zitten als een agent, maar zal anders dan die agent meestal geen begrijpelijke regel formuleren. Tegenover veel meer data en rekenkracht dan waarover een mens beschikt staat vooralsnog het ontbreken van redelijkheid en ‘judgment’ van software. Elvis Albers van 18 met zijn vlasbaardje uit Oldeholtwolde kan zomaar worden aangewezen als kandidaat-jihadist, want heel veel van die lui hebben een naam die begint met ‘El’ of ‘Al’. Wie zal zeggen wat de software aan mooie patronen vindt?
Wat ik schrijf wordt al praktijk. Ik sprak een controleur van een overheidsbedrijf die mij vertelde hoe hij fraudeurs opspoort. Hij stopt data uit verschillende systemen in een Excelletje en sorteert die op allerlei ratio’s. De buitenbeentjes bekijkt hij vervolgens meer in detail. Dat controlewerk was altijd gebaseerd op gekwantificeerde afwijkingen in bestanden met ouderwetse, gestructureerde gegevens van administratieve aard – oldschool small data van het ‘Text & Number’-type. Dat verdwijnt binnenkort. Zijn werkgever is bezig met een ict-project om fraudesignalen uit de data te halen met moderne, briljante patroonzoeksoftware. Een hele club van briljante academici was daarvoor ingehuurd. Mensen met domeinkennis, zoals mijn gesprekspartner, moesten vooral ver weg blijven.
Effectiviteitsmeting onmogelijk
Ik voorzie voor de komende jaren big data ict-projecten bij de vleet. Dergelijke projecten kunnen namelijk haast niet mislukken. Immers, als je niet weet wat je software doet dan wordt effectiviteitsmeting ook onmogelijk. We zien dat al bij de NSA-casus, waar grote twijfel bestaat aan de effectiviteit van terreurbestrijding op basis van big data.
Ondertussen is het niet mijn bedoeling om big data en patroonzoekende software permanent te debunken. Het is vooral een kwestie van rijpheid. Er is geen principiële reden om te veronderstellen dat software die patronen herkent deze niet kan formuleren in begrijpelijke, uitlegbare en toetsbare regels. Alleen is tot dat moment aanbreekt de interpreterende mens een onmisbaar onderdeel van geautomatiseerde systemen die speuren naar patronen in onvolledig gestructureerde data.
Controlefactor
Terug naar de agent en de rapper. Als econoom denk ik dat de vraag moet zijn hoeveel groter de kans is dat een donkere jongeman in een dure auto in drugs doet, vergeleken met pakweg de gemiddelde Computable-lezer. Laten we aannemen dat die kans twee keer groter is. Als jonge, donkere mannen in dure auto’s meer dan twee keer vaker dan Computable-lezers staande worden gehouden, dan is de politie racistisch en inefficiënt. Is de controlefactor lager dan twee dan is de politie politiek-hypercorrect en inefficiënt.
Het is laat geworden. Ik ga naar huis. Bovengemiddelde kans dat ik straks gecontroleerd word op drankgebruik. Autochtone man van middelbare leeftijd. Benidorm-sticker op de achterruit van de auto. The usual suspect.
Is onze politie racistisch, politiek-hypercorrect of juist evenwichtig? Ik zou het graag willen weten. Laat dit nou een prachtige vraag zijn voor een grondige analyse op basis van heel veel data, big data desnoods.
Dit artikel is ook verschenen in Computable Magazine, jaargang 49, nummer 6, zomer 2016.
Wat de nationale regeringen doen werkt maar ten dele. Dat komt omdat er geen “Terrorisme Big Data” bestaat, terrorisme is geen meetbare eenheid.
Dus wat er gebeurt, is dat men correlaties gaat zoeken. Bekende correlaties zijn overgewicht en hartklachten, of roken en longkanker. Dat deze correlaties zijn voor de meeste mensen wel duidelijk en niet omstreden.
Anders wordt het als je (toevallige) relaties vindt tussen verkrachters en rood haar, of jihadisten en baardlengte. Behalve dat dit voor 99,99% false positives oplevert (die er middels andere eveneens bedenkelijke correlaties uitgefilterd moeten worden), begeef je je nu ook op een hellend vlak.
Terrorismebestrijding met Big Data werkt niet goed, wat je zoekt ligt te ver buiten je meetwaarden. Nog meer privédata verzamelen heeft dus geen zin; je maakt alleen de hooiberg groter, wat het zoeken naar de speld alleen maar moeilijker maakt!
Big Data werkt als je relevante gegevens en realistische doelen hebt. Het resultaat moet dus uit de gegevens af te leiden zijn, het gat moet overbrugbaar zijn.