Volgend jaar wordt het mogelijk om met natuurlijke taal antwoord te krijgen op statistische vragen. Het Centraal Bureau voor de Statistiek (CBS) bouwt een applicatie waarmee het publiek via spraakassistenten als Siri, Alexa en Google Assistent toegang krijgt tot open data.
Bert Kroese, plaatsvervangend directeur-generaal van het CBS, kondigde deze chatbot aan tijdens het congres Data science voor maatschappelijke uitdagingen te Den Haag. ‘Het CBS wordt één grote snoepwereld van data’, zei hij.
Het CBS speelt in op de trend dat gebruikers direct antwoord wensen op hun vragen, of ze zich nu thuis, in vergadering of op straat bevinden. Wil iemand bijvoorbeeld het precieze aantal inwoners van Groningen weten dan moet een virtuele assistent dat meteen kunnen zeggen. Ook op geschreven vragen wordt een zo specifiek mogelijk antwoord gegeven.
Het CBS gaat alle informatie in zijn open database via toepassing van kunstmatige intelligentie (artificial intelligence, ai) ontsluiten. Deze informatie wordt via een computergestuurde dialoog beschikbaar gesteld. Hiervoor wordt software ontwikkeld die deze open data verbindt met een spraakrobot. Tussen de metadata van het CBS en Google Dialogflow wordt een schakel gelegd. Het CBS verwacht volgend jaar maart de eerste betaversie klaar te hebben. Op den duur moeten niet alleen cijfers, maar ook datavisualisaties, infographics en video’s op deze manier worden ontsloten.
Datastrategie
Kroese vertelde hoe ingrijpend de veranderingen bij het CBS zijn. Vroeger werd totaal anders gewerkt dan nu. Het CBS heeft inmiddels toegang tot alle overheidsregistraties. Eerste stap is alle gegevens bij elkaar te brengen. Wat dan nog ontbreekt, wordt vervolgens via enquêtes binnengehaald. De enquêtes worden veel meer ’toegewijd’. Het CBS gebruikt onder meer LinkedIn als bron van data. Van de beroepsbevolking beneden de 45 jaar krijg je langs die weg een goed beeld van de gevolgde opleidingen. Ook Translink, de organisatie achter de ov-kaart, levert veel data toe. Software wordt gebruikt om informatie van 1,5 miljoen websites te extraheren.
‘Het zijn gouden tijden om op het CBS te werken’, aldus Kroese die daar de datastrategie leidt. Door data uit verschillende bronnen te gebruiken kan het CBS informatie aanleveren over bijvoorbeeld de vraag waar het beste laadpalen voor elektrische auto’s kunnen worden geplaatst. De gemeente Den Haag wordt statistisch ondersteund bij de armoedebestrijding. Een succes is ook big data voor de woningmarkt. Het CBS kan de kans dat iemand gaat verhuizen, al met 60 procent nauwkeurigheid voorspellen. De toepassing van open data groeit snel. Via open data is bijvoorbeeld snel inzicht te krijgen in de ontwikkeling van de arbeidsmarkt. Uitzendorganisatie Randstad heeft daartoe een directe verbinding met de interne systemen van het CBS.
Alleen jammer dat de cijfers van de CBS op sommige vlakken net zo (on)betrouwbaar zijn als bijv. wikipedia-artikelen.