Big data kunnen bijdragen aan het maken van betrouwbare en tijdige statistieken, de corebusiness van het CBS. Prof. Piet Daas, hoogleraar aan de Technische Universiteit Eindhoven (TU/e) en senior onderzoeker bij het CBS, is tomeloos enthousiast over de mogelijkheden en de ideeën die voortkomen uit de samenwerking binnen het Big Data-onderzoeksprogramma van het CBS. ‘We kunnen met big data nog veel meer dan we nu doen’, betoogt hij tijdens zijn oratie in mei van dit jaar bij de TU/e.
Nieuwe denken
Elk uur van de dag worden enorme hoeveelheden data geproduceerd door elektronische apparaten zoals telefoons maar ook online door mensen zelf: big data. Bij zijn aanstelling in 2019 als bijzonder hoogleraar Big Data in Official Statistics bij de TU/e stelde Daas al dat big data enorme kansen bieden voor de officiële statistiek, mits enkele fundamentele vragen beantwoord kunnen worden. De officiële statistiek begon ooit met het simpelweg tellen van mensen, banen, bedrijven et cetera. Toen kwam de steekproef, waarbij het uitgangspunt werd: verzamel alleen die gegevens die je echt nodig hebt. ‘Bij de inzet van big data is die benadering anders’, legt Daas uit. ‘Om van big data officiële statistiek te maken, heb je juist zoveel mogelijk gegevens nodig.’ Het is een voorbeeld van een punt waar het ‘oude denken’ en het ‘nieuwe denken’ met elkaar botsen. Tevens maakt het onderdeel uit van de fundamentele vragen waar Daas zich dagelijks mee bezig houdt.
44 Pilots en prototypen
Bij traditionele statistiek werk je vanuit een zeer stevige gevestigde theorie. Bij statistiek op basis van big data is het juist andersom: je begint bij de data, die je in overvloed hebt. Maar een theorie is er vaak (nog) niet. Daas noemt in zijn oratie de 44 pilots en prototypen die in de afgelopen jaren zijn uitgewerkt door diverse organisaties, maar vooral ook door het CBS. Zes van die projecten zijn inmiddels in productie genomen. ‘Lang niet alles wat we proberen blijkt geschikt of stabiel genoeg. Je kunt voor de statistiek over consumentenprijzen gemakkelijk informatie van het internet halen over de ontwikkeling van de prijs van een pak melk over een bepaalde periode. Dat is directe waarneming, die verloopt vrijwel probleemloos. Maar bij afgeleide vormen van waarneming is het ingewikkelder om tot een stabiele productiemethode te komen.’
Pinguïns
Afgeleide waarneming kan bij big data veel opleveren. Om uit te leggen hoe dat werkt gebruikt Daas in zijn oratie het voorbeeld van een onderzoek naar pinguïns. ‘Als je in kaart wil brengen hoeveel pinguïnkolonies er leven op Antarctica, dan kun je op expeditie gaan en ze tellen. Maar je kunt ook satellietfoto’s inzetten en inzoomen op de poep die de kolonies achterlaten. Deze indirecte manier van waarnemen blijkt sneller en nauwkeuriger.’ Het CBS doet inmiddels iets vergelijkbaars: voor een onderzoek naar online platformen worden websites van bedrijven automatisch afgezocht naar woorden die duiden op een dergelijke dienst. ‘We maken dus op basis van big data – het internet – op een indirecte manier een selectie van bedrijven waarvan we denken dat ze online platformen zijn. Vervolgens krijgen die bedrijven een vragenlijst waarmee ons vermoeden bevestigd kan worden.’ Deze aanpak is succesvol maar brengt ook een uitdaging met zich mee: de relatie tussen woorden op de website en het soort bedrijven kan veranderen. ‘We hebben dus een methode nodig om dit te controleren en indien nodig te corrigeren.’
Voorbeelden als inspiratie
In zijn oratie behandelt Daas onder meer de kwaliteit van big data. ‘De foute antwoorden van ChatGPT laten zien dat big data-bronnen niet altijd betrouwbare informatie opleveren – het combineren van databronnen én data science en de zoektocht naar methoden die nodig zijn om big data op een goede manier te kunnen gebruiken voor de statistiek. Vrijwel alles aan het gebruik van big data is nog nieuw. Er is geen handboek, we moeten het allemaal nog leren. Daarom bevat mijn oratie zoveel voorbeelden. De theoriegedreven wereld van de universiteit en de datagedreven wereld van het CBS komen in mijn leerstoel mooi samen. Maar mijn oratie is ook een uitnodiging aan anderen: pak dit op, ga aan de slag en gebruik de voorbeelden die ik geef als inspiratie. Er is nog veel te ontdekken.’
Trots op vooruitgang
Dat de inzet van big data veel vragen oproept, is interessant volgens Daas, maar alleen als er ook antwoorden komen. Dat gebeurt gelukkig. Inmiddels is er een methode ontwikkeld om te corrigeren voor de instabiele waarneming bij de statistiek over online platformen. ‘Daar hebben we voldoende controle ingebouwd door de big databron te combineren met een traditionele manier van dataverzameling en een model ontwikkeld dat de noodzakelijke correcties kan uitvoeren. Dat is een grote stap vooruit, want dat model is breed toepasbaar. Daar ben ik erg trots op.’ Ook het gebruik van satellietfoto’s als big databron is toepasbaar gebleken voor officiële statistiek en het gebruik ervan kan nog uitgebreid worden. Daas denkt nu mee over de doodsoorzakenstatistiek: ‘Dat is een statistiek die veel handwerk met zich meebrengt, omdat het vaak lastig is volledig geautomatiseerd tot de juiste resultaten te komen. Datascience zou daar kunnen bijdragen door de woorden die gebruikt worden op de formulieren die de artsen invullen nauwgezet te analyseren. Ook bij het combineren van big data met andere databronnen wordt vooruitgang geboekt. Dat zal de inzet van big data in de toekomst veel breder toepasbaar maken.’