Voorspellende modellen worden steeds vaker gebruikt. Bijvoorbeeld om te bepalen of iemand dreigt in betalingsachterstand te komen of dat zijn vergunningsaanvraag wat meer aandacht verdient dan gemiddeld. Vaak zijn de onderliggende modellen keurig statistisch gevalideerd. Dat lijkt een hele vooruitgang ten opzichte van het onderbuik gevoel van de gebruiker. Maar kan de computer zijn onderbuikgevoel beter onderbouwen dan een mens?
Als student aan een bèta faculteit werd ons het vak statistiek bespaard. We zouden immers toch niet gaan experimenteren op ratjes en statistiek is ook maar wiskunde. En zo komt het dat ik vandaag de dag nog regelmatig Wikipedia erop na sla hoe het ook al weer zat met kansverdelingen of Anova (analysis of variance).
Voorspellende modellen
Overtuigd van het feit dat de hele wereld de stof over data voorspellende modellen beter beheerst dan ik, stond ik dus even met mijn mond vol tanden toen ik de vraag kreeg: ‘Ja, mooi dat voorspellende model, maar hoe weet je waarom hij een persoon in die categorie stopt?’. Nota bene was het een toezichthouder die de vraag stelde. Je zou denken dat die het juist toejuicht dat nattevingerwerk vervangen wordt met modellen die onderbouwd zijn met keiharde data. Probeer maar eens een medicijn op de markt te brengen zonder statistisch gevalideerd onderzoek!
Toch slaat de vraag van de toezichthouder de spijker op de kop. Voorspellende modellen – of het nu gaat om lineaire regressie, support vector machines of neurale netwerken – vinden verbanden. En die verbanden zijn niet altijd oorzakelijk. Hoe ga je dan uitleggen dat je iemand onder een vergrootglas legt, op basis van een score uit dat model?
Risico’s bepalen aan de hand van data
In 2010 heeft de overheid in de VS onderzocht of creditcard maatschappijen het koopgedrag van hun klanten gebruiken om bijvoorbeeld kredietruimte te beperken of om rentes te verhogen. Veel maatschappijen deden dat. Bijvoorbeeld wanneer een creditcardgebruiker een enthousiaste gokker blijkt te zijn. Maar soms ook omdat een model een hoge risicoscore aangaf op basis van aankopen uit het verleden. Een probleem daarbij is dat hier sprake kan zijn van discriminatie. Het model bepaalt niet op basis van huidskleur dat je een hoog risico loopt, maar kan (onterecht) tot de conclusie komen dat er een hoger risico kleeft aan álle mensen die inkopen doen bij een bepaalde winkel of in een bepaalde wijk.
Mensen die viltjes kopen om onder tafelpoten te plakken vormen een lager risico, maar is dat omdat ze zuiniger zijn op hun spullen? Het model verklaart het niet. En wat te denken van het sterke verband (94,7 cprocent correlatie) tussen de consumptie van kaas (per hoofd van de bevolking) in de VS en het aantal Amerikanen dat overlijdt doordat ze verstrikt raken in beddengoed?
Voorzichtig omgaan met scores
Kenniswerkers die metertjes en stoplichten op hun dashboard zien, moeten dus verdraaid goed het verschil begrijpen tussen correlatie en oorzakelijk verband. Dashboards moeten dat verschil ook duidelijk aangeven. Sommige stoplichten zijn gebaseerd op harde feiten en logische verbanden. Als er slechts sprake is van correlatie moet je extra voorzichtig zijn om te acteren op een ‘slechte’ score. Mensen verdienen het niet om in een hokje gestopt te worden op basis van statistische verbanden, in een kleine steekproef met indirecte verbanden, die gevonden wordt in data van bedenkelijke actualiteit en kwaliteit. Lees voor gebruik de bijsluiter.
Geen statistiek op een bèta opleiding? Dat is vrij apart. Hoe kan je dan meetresultaten met 99,73% zekerheid presenteren?
Anyway, Als je nog meer interessante stof over dezelfde stof in dit artikel op Wikipedia wil lezen, dan is dit ook nog een leuk: https://nl.wikipedia.org/wiki/Cum_hoc_ergo_propter_hoc
Inderdaad 1954.
Statistiek gaat over groepen, niet over individuen. Individueel is het anders. Je wint in de lotto of niet, dus 50% kans.
Die statistikus waadde in een rivier van gemiddeld 20cm diep en verdronk jammerlijk.
Momenteel kun je een statistiek bestellen met het door jouw gewenste resultaat, het is een marketing tool geworden, ook op Computable tref je dit soort onderzoeken.
Frank, veel bedrijven kennen de individuele klant niet en willen met behulp van statistiek een voorspelling doen over een selectie van de populatie; wie levert waarschijnlijk geld op en wie niet. Dan gebruiken ze tools om (big) data te analyseren. Ze gebruiken postcodegebieden als eenheid, terwijl de sociaal economische grenzen anders kunnen liggen. Maar als ze uitgaan van bijvoorbeeld een normale verdeling situatie, terwijl die situatie anders is, dan zorgt dat voor extra missers. Ze kunnen nog meer goede (potentiële) klanten ten onrechte gaan uitsluiten (zoals in het voorbeeld van Henri Koppen) en andersom meer verkeerde klanten aantrekken. Het gaat bij het gebruik van statistiek dus niet om wat boeiend is, maar om wat relevant is voor het bedrijf.
Dat is niet iedereen duidelijk en daar maken oplichters gebruik van, zoals Jan van Leeuwen aangeeft. Je kan marktcijfers kopen waar je als klant weinig tot niks mee kan en vaak niet eens een te verifiëren waarde hebben. Met deze windhandel is veel geld te verdienen (en dus te verliezen door de afnemer).
Jaap, ik werk zelf ook met big data. Op basis van verschillende zaken maak je klantprofielen. Dat kan postcode zijn, maar vaak is het iets anders; klanten tikken hun postcode doorgaans niet in als ze een rolletje drop kopen!
Als je alle data verzameld hebt, en vanuit verschillende hoeken bekeken wat klantprofielen hebt aangemaakt, dan ga je iets slims doen met de data. Verander iets in assortiment, prijs, …, en kijk hoe de klant erop reageert. Als dat is zoals je had voorspeld, dan was je model goed, klopt het niet, dan was je model fout.
Mooi Frank, maar dan weet je nog steeds niet of je model goed is. Neem het bekende voorbeeld: baby’s worden door de ooievaar gebracht. Er komen meer ooievaars en het aantal baby’s neemt toe. Klopt het model dan? Voor Noord-Afrika geldt een omgekeerde model; meer baby’s, meer voedsel nodig, meer voedselafval, meer afvaletende ooievaars.
Modellen kloppen wel vaker niet. Als ik even geen adblockers gebruik, dan krijg ik allerlei reclames te zien. Die passen meestal totaal niet bij mijn wensen of eerdere keuzes. De modellen van die providers kloppen niet.
Maaruh, wat is er nu homeopatisch aan het hele verhaal?
Gewoon blijven verdunnen, pavake, dan wordt het vanzelf homeopathisch!
Kan hier iemand wat statistiek op los laten?
—
Een speciale commissie van de WHO heeft zich de afgelopen twee jaar verdiept in obesitas bij jonge kinderen. In het eindrapport staat dat er veel kinderen opgroeien in een milieu waar aankomen en overgewicht aangemoedigd wordt.
Reclame voor ongezond eten en drinken is een belangrijke oorzaak van overgewicht, met name in de ontwikkelingslanden, zegt de WHO.
http://nos.nl/artikel/2082800-who-steeds-meer-kinderen-te-dik-in-armere-landen.html
@Henri … een mooi voorbeeld van een conclusies en woordkeuzes.
Immers, van reclame wordt je niet dik, hiervoor moet je die producten toch echt consumeren, zo is mijn ervaring.
PaVaKe, precies mijn gedachte, maar misschien was dit wel een poging tot een root-cause-analysis.
Kinderen zijn te dik.
Waarom zijn kinderen te dik?
Kinderen zijn te dik omdat ze teveel energierijke producten eten zoals snoep en frisdrank.
Waarom eten kinderen teveel energierijke producten eten zoals snoep en frisdrank?
Omdat deze kinderen opgroeien in een milieu waar aankomen en overgewicht aangemoedigd wordt.
Hoe ontstaat een milieu waar aankomen en overgewicht aangemoedigd wordt?
Omdat er zoveel reclame over wordt gemaakt en daarmee de norm wordt.
hahaha, toch kan ik nergens vinden hoe ze dit onderzocht hebben en nu wordt het wel als waar de wereld in geslingerd.
Wellicht omdat ze dachten dat statistieken niet liegen 😉