Als je aan een publiek vraagt wie zijn handen niet wast na een toiletbezoek, hoeveel procent van de aanwezigen steekt dan zijn hand op? Stephen Dubner en Steven Levitt, schrijvers van de beroemde ‘Freakonomics’-boeken, gebruikten de handenwas-vraag tijdens hun keynote op de jaarlijkse Qonnections-conferentie om te laten zien dat we allemaal geneigd zijn sociaal wenselijke antwoorden te geven.
Alle handen bleven keurig omlaag, terwijl uit het gemiddelde onderzoek blijkt dat zo’n 50 procent van de mensen zijn handen niet of niet goed wast.
Om data op de juiste manier te kunnen interpreteren, is niet alleen kennis van grafieken en percentages nodig. Het lezen van data vraagt ook om een kritische blik. Waar komt de data vandaan? Kan de uitkomst mogelijk beïnvloed zijn door factoren waar in eerste instantie geen rekening mee is gehouden, zoals sociale wenselijkheid? Die kritische blik is geen eigenschap die we allemaal van nature bezitten. Om écht kritisch naar data te kunnen kijken, moeten we data begrijpen, ermee kunnen werken en op de juiste manier kunnen analyseren.
Uit onderzoek onder meer dan vijfduizend werknemers in Europa blijkt dat bijna de helft van de mensen op de werkvloer het lastig vindt om onderscheid te maken tussen waarheid en manipulatie waar het data betreft. Maar 17 procent van de werknemers omschrijft zichzelf overtuigd als ‘data literate’: in staat om data op de juiste manier te lezen, verwerken, analyseren en bediscussiëren. Dat betekent dat we nog een lange weg te gaan hebben voor alle werknemers zich comfortabel voelen bij het gebruik van data in hun werk, terwijl bedrijven voor hun resultaten meer en meer afhankelijk zijn van data en het juiste gebruik daarvan.
Conclusies trekken
Tyler Vigen, auteur van het boek Spurious Correlations, trekt in zijn boek en op zijn website interessante conclusies uit correlerende datasets. Wist u dat het aantal mensen dat in de Verenigde Staten overlijdt bij een ongeluk met een gemotoriseerd voertuig, overeenkomt met het aantal Japanse auto’s dat in de VS wordt verkocht? Daar zou je uit kunnen concluderen dat wanneer de verkoop van Japanse auto’s toeneemt, ook het aantal verkeersdoden stijgt. Moeten we dan de verkoop van Japanse auto’s verbieden, omdat deze levensgevaarlijk zijn? Natuurlijk niet. Dat twee verschillende variabelen samenhang vertonen, betekent niet dat de ene variabele van invloed is op de uitkomst van de andere. Met andere woorden: correlatie impliceert nog geen causaliteit.
Met zijn absurde voorbeelden laat Vigen zien dat we niet te snel conclusies moeten trekken uit verschillende datasets die overeenkomsten vertonen. Dat kan namelijk ook gewoon toeval zijn. Op de werkvloer zijn de vergelijkingen die we maken of onder onze neus krijgen echter lang niet zo absurd dat we daar altijd meteen vraagtekens bij zetten. Het is daarom van belang dat werknemers zelfverzekerd zijn over hun kennis en begrip van data: want dat ze data literate zijn, betekent niet altijd dat ze zich ook comfortabel voelen bij het werken met data. Bovendien moeten we diezelfde werknemers stimuleren wanneer ze helemaal niet data literate zijn!
Goud
Data is het nieuwe goud voor bedrijven. Naarmate we er meer van verzamelen en we steeds nieuwe manieren vinden om aan de hand van data bedrijfssuccessen te boeken, neemt ook het belang van data literacy toe. Het is aan bedrijven om, over de hele breedte van de organisatie, te bepalen op welk niveau de werknemers nu zitten en een cultuur te creëren om de werknemers zelfvertrouwen te geven om aan hun datavaardigheden te werken. Op die manier kan ieder bedrijf profiteren van de steeds groeiende dataeconomie.
Datarelatietherapie, want data komen van mars, mensen van venus.
Ik ben erg datavaardig, ik stel zo min mogelijk ter beschikking.
Het kan ook zorgen voor een tunnelvisie als je dataset te beperkt is of de randvoorwaarden niet goed zijn gekozen.
Is het erg dat je na toiletbezoek je handen niet wast? Of is de zeep die je gebruikt wel voldoende om het gewenste resultaat te bereiken. Is de afweging gemaakt of de zeep geen hormoon disruptors bevat (zoals bij heel veel hand zeepjes het geval is) die je hormoonhuishouding negatief beïnvloed waardoor je een geringe toename op kanker bestaat? Hoe kan je de handen drogen en past dat bij de manier van handen wassen? Wat als de manier van wassen en drogen meer energie kost dan een andere manier die minder kost of minder milieu belastend is?
Met die paar zinnen is de dataset al behoorlijk ingewikkeld gemaakt en dus zullen zelfs grote computersystemen het er moeilijk mee kunnen hebben terwijl de mens dit relatief makkelijk kan ontleden en analyseren. Iets om over na te denken dus.
Ik lees nog steeds niets over de differentiaitie van corporate data en generieke data. iets wat ik nog steeds zeer hoog op mijn lijstje heb staan. Data het nieuwe goud. Ik waag dat met gezonde scepsis te benaderen. Immers, meer dan 40%-45% van het wereldwijde gegenereerde data is vervuild, zonder dat op kan worden gemaakt welk deel van die data dan wel of niet ‘bruikbaar’ is. Een aspect waar professioneel angstvallig over word gezwegen of op zijn best, denigrerend of bagatelliserend word gedaan.
Niet iedereen is data ‘fehig’. Dat klopt. Er zal altijd een aanzienlijk deel van de ‘goegemeente’ blijven waar data be-verwerking geen vat of betrekking op zal hebben. Zo eenvoudig lijkt miij dit weer.