Voorspellende modellen worden steeds vaker gebruikt. Bijvoorbeeld om te bepalen of iemand dreigt in betalingsachterstand te komen of dat zijn vergunningsaanvraag wat meer aandacht verdient dan gemiddeld. Vaak zijn de onderliggende modellen keurig statistisch gevalideerd. Dat lijkt een hele vooruitgang ten opzichte van het onderbuik gevoel van de gebruiker. Maar kan de computer zijn onderbuikgevoel beter onderbouwen dan een mens?
Als student aan een bèta faculteit werd ons het vak statistiek bespaard. We zouden immers toch niet gaan experimenteren op ratjes en statistiek is ook maar wiskunde. En zo komt het dat ik vandaag de dag nog regelmatig Wikipedia erop na sla hoe het ook al weer zat met kansverdelingen of Anova (analysis of variance).
Voorspellende modellen
Overtuigd van het feit dat de hele wereld de stof over data voorspellende modellen beter beheerst dan ik, stond ik dus even met mijn mond vol tanden toen ik de vraag kreeg: ‘Ja, mooi dat voorspellende model, maar hoe weet je waarom hij een persoon in die categorie stopt?’. Nota bene was het een toezichthouder die de vraag stelde. Je zou denken dat die het juist toejuicht dat nattevingerwerk vervangen wordt met modellen die onderbouwd zijn met keiharde data. Probeer maar eens een medicijn op de markt te brengen zonder statistisch gevalideerd onderzoek!
Toch slaat de vraag van de toezichthouder de spijker op de kop. Voorspellende modellen – of het nu gaat om lineaire regressie, support vector machines of neurale netwerken – vinden verbanden. En die verbanden zijn niet altijd oorzakelijk. Hoe ga je dan uitleggen dat je iemand onder een vergrootglas legt, op basis van een score uit dat model?
Risico’s bepalen aan de hand van data
In 2010 heeft de overheid in de VS onderzocht of creditcard maatschappijen het koopgedrag van hun klanten gebruiken om bijvoorbeeld kredietruimte te beperken of om rentes te verhogen. Veel maatschappijen deden dat. Bijvoorbeeld wanneer een creditcardgebruiker een enthousiaste gokker blijkt te zijn. Maar soms ook omdat een model een hoge risicoscore aangaf op basis van aankopen uit het verleden. Een probleem daarbij is dat hier sprake kan zijn van discriminatie. Het model bepaalt niet op basis van huidskleur dat je een hoog risico loopt, maar kan (onterecht) tot de conclusie komen dat er een hoger risico kleeft aan álle mensen die inkopen doen bij een bepaalde winkel of in een bepaalde wijk.
Mensen die viltjes kopen om onder tafelpoten te plakken vormen een lager risico, maar is dat omdat ze zuiniger zijn op hun spullen? Het model verklaart het niet. En wat te denken van het sterke verband (94,7 cprocent correlatie) tussen de consumptie van kaas (per hoofd van de bevolking) in de VS en het aantal Amerikanen dat overlijdt doordat ze verstrikt raken in beddengoed?
Voorzichtig omgaan met scores
Kenniswerkers die metertjes en stoplichten op hun dashboard zien, moeten dus verdraaid goed het verschil begrijpen tussen correlatie en oorzakelijk verband. Dashboards moeten dat verschil ook duidelijk aangeven. Sommige stoplichten zijn gebaseerd op harde feiten en logische verbanden. Als er slechts sprake is van correlatie moet je extra voorzichtig zijn om te acteren op een ‘slechte’ score. Mensen verdienen het niet om in een hokje gestopt te worden op basis van statistische verbanden, in een kleine steekproef met indirecte verbanden, die gevonden wordt in data van bedenkelijke actualiteit en kwaliteit. Lees voor gebruik de bijsluiter.
Het is en blijft statistiek. Dat betekent dat er een kans is dat iets gebeurd. Om even een voorbeeld te geven, een binominale verdeling. De kans op kop of munt, die is fifty-fifty.
Als jij met 70% zekerheid kan voorspellen dat het kop is, dan maak je dus winst, want in plaats van dat je het 50 op de 100 keer goed hebt heb je het nu 70 op de 100 keer goed.
Dat is een verbetering.
Die toezichthouder zou een cursus statistiek moeten volgen i.p.v. een mening geven over iets waar hij kennelijk geen verstand van heeft.
Bedankt voor dit artikel, hopelijk blijven meer mensen alert.
Ik propageer vaak om dit boekje dat overigens vrij (en legaal) van internet te halen is.
“How to lie with statistics” van Darell Huff uiit 1952.
“Big data” in de handen van amateur-statistici is een tikkende tijdbom, net als AI, alleen is big data al realiteit en AI duurt nog even.
Een goed artikel. Maar de waarschuwing aan het eind is overbodig, omdat bedrijven die een doelgroep uitsluiten op basis van een foute analyse, dat terug zullen zien als winstdaling en een verslechterde concurrentiepositie, omdat een ander bedrijf die groep gaat bedienen. Het is in het eigen belang om bij dit soort analyses juist geen vergissingen te maken.
@Jan
Erg leuk en leesbaar boekje inderdaad. Bedankt voor de tip!
Dit is van alle tijden en statistiek (en voorspellingen) blijven altijd “zacht”, anders was rijk worden wel heel gemakkelijk geworden.
Wel aardig in dit kader is de data analytics van IBM (Watson). Daarin kun je data stoppen (Veel kolommen is belangrijker dan veel rijen) die maakt dan een analyse voor je met uiteindelijk 3 belangrijkste aanbevelingen op basis van een (natuurlijk) gestelde vraag. Doordat je die aanbevelingen stap voor stap terug kan lopen zie je in feite ook de redenering. En dat is uiteindelijk het punt.
Uit de statistiek komt een heel duidelijke significantie naar voren, dit is in feite een clue, maar op basis van alleen de clue zou je geen beslissingen moeten nemen, hooguit sterke suggesties.
Om het terug te slaan op het voorbeeld: Bij het goedkeuren van een credit zou het voorspellende vermogen niet finaal mogen zijn. 99% procent is namelijk geen 100% en een false positive is heel kwalijk in deze.
Zo zou een voorspellend systeem wel een bepaalde advertentie mogen tonen, maar niet mogen bepalen die iemand geen toegang krijgt op basis van voorspellingen.
1954, Jan
Henri, velen praten over de paretoverdeling, weinigen weten waar dat voor stond, nog minder snappen waarom deze beter vooral in overdrachtelijke zin gebruikt kan worden.
Zolang de meesten niet weten wanneer een gaussverdeling bij de populatie of het model past, of zelfs niet eens weten wat een bepaald type verdeling is, kunnen ze beter van statistiek afblijven.
Statistieken liegen niet, would be statistici doen niet anders.
Jaap, ik ben geen statisticus, al is het vreselijk interessant, ik ben ook geen wiskundige, ook interessant. Misschien is statistiek in zichzelf zo zuiver als wiskunde, alles er omheen zeer zeker niet. Leuk als je prachtige modellen hebt, maar ik heb één opmerking over modellen en die komt van George Box “All models are wrong, but some are useful”. Met andere woorden ieder model is een versimpeling van de werkelijkheid.
Hoe komen de feiten tot stand? Wie verzamelt de feiten? Zijn de feiten een goede presentatie van alle feiten die gelden voor de statistiek.
Statistieken liegen niet is helaas een versimpeling van de werkelijkheid… dan zou het CBS namelijk geen fouten maken, daar zitten immers experts, de praktijk wijst echter anders uit…
1954, Jan
Henri, velen praten over de paretoverdeling, weinigen weten waar dat voor stond, nog minder snappen waarom deze beter vooral in overdrachtelijke zin gebruikt kan worden.
Zolang de meesten niet weten wanneer een gaussverdeling bij de populatie of het model past, of zelfs niet eens weten wat een bepaald type verdeling is, kunnen ze beter van statistiek afblijven.
Statistieken liegen niet, would be statistici doen niet anders.
Henry, zonder basiskennis van statistiek, of inzicht in de te onderzoeken populatie of het bedachte model, is het werken met statistische tools niet meer dan tijdverdrijf. Dan heb je geen idee of een model de werkelijkheid voldoende benaderd, dan wel dat je met garbage in, garbage out (GIGO) bezig bent.
Redactie, ik post mijn reactie één keer, maar zie deze meerdere keren terug, ook nadat een andere lezer op mijn post heeft gereageerd en ik intussen heel wat anders doe. En dit is bepaald niet de eerste keer dat het bij jullie misgaat. Haal s.v.p. de door jullie gegeneerde herhalingen weg, niet die van mij. Dan is de discussie beter te volgen door de lezer.
@Jaap:
Jij zegt dit: “Statistieken liegen niet, would be statistici doen niet anders.”
Wat boeit een normaalverdeling als jou situatie anders is? En een gemiddelde is een gemiddelde, toch? Of niet, zoals met ongewogen en gewogen gemiddelden…
Daarnaast is statistiek om achteraf te concluderen dat het rouletteballetje de helft van de keren op rood komt en de andere helft op zwart anders dan om de statistiek te gebruiken om te voorspellen dat het nu echt wel rood moet worden als het al 10 keer zwart is geweest.