Een student geeft een presentatie uit de nog geringe praktijkervaring : In het datawarehouseproject zijn allerlei prachtige managementoverzichten gerealiseerd. De verwachting is dat de gegevens wel snel gebruikt zullen gaan worden voor datamining. Immers, als alle klant- en in- en verkoopgegevens verzameld zijn, ligt het voor de hand dat je ook verbanden gaat zoeken tussen producten, demografie van klanten, tijdstip van de dag enz. En daar komt ie weer : Het eeuwige en overigens fout geciteerde voorbeeld van de luiers en het bier op Zaterdag. Kunnen we nu met zijn allen niets beters verzinnen ? Met datamining technieken zouden we verbanden kunnen vinden tussen de aanschaf van een product, de leeftijdscatgeorie, de plaats van een product in de schappen, voor mijn part het sterrebeeld van een klant en de producten die hij in combinatie koopt. Maar het gebeurt niet ! Al tien jaar lang verwachten we de grote doorbraak van datamining, maar tevergeefs. Datamining heeft een prachtige toekomst achter zich.
Met statistiek kun je bewijzen dat iets gaat gebeuren met een berekende waarschijnlijkheid. Dat is wetenschap: Als je een representatieve steekproef neemt en daar komt uit dat iets met 90% waarschijnlijkheid gaat gebeuren dan IS dat zo. Het omgekeerde trouwens ook : Als statistisch onderzoek bewijst dat er geen verband is, dan IS er ook geen verband. Om dat te illustreren leek het me leuk om met een groep studenten een representatieve steekproef te nemen van bijvoorbeeld tien jaar huwelijken en scheidingen en de geboortedatum van de partners. Dan kun je kijken of er een verband is tussen het sterrebeeld van de partners en de keuze die ze maken. Natuurlijk moet je de gegevens corrigeren voor het feit dat er misschien wel meer Leeuwen en Schorpioenen zijn dan Vissen. Ook kun je de kans op mislukking er nog bij betrekken, uitgaande van het feit dat een scheiding een mislukt huwelijk is. Het resultaat is prachtig : Astrologie is waar of astrologie is BEWEZEN humbug. Dus heb ik de gedachte geponeerd en zijn de studenten enthousiast. Het kost nog wel wat moeite het CBS ervan te overtuigen dat de gegevensleverantie niet privacy gevoelig is. Toch gaat dat onderzoek niet door. Het van onze belastingcenten betaald CBS vraagt namelijk een onbeschaafd hoog bedrag voor het ophoesten van de gegevens. Een onbenutte kans dus om studenten eens een leuk oefening te laten doen met datamining. Zonde niet ?