Algobracadata (ofwel totale verwarring)

Algoritmen, big data. Syri. Big Brother Belastingdienst. Uitgerangeerd UWV. Zijn we collectief gek aan het worden?

Ik werd gebeld door een NOS-journalist. Hij was bezig met een stuk over de gevolgen van het Syri-vonnis. Dit Systeem Risico Indicatie bevat allerlei gegevensverzamelingen uit de uitkeringensector en moet fraudes signaleren. De rechter steekt daar nu een stokje voor. De Syry-gangers zouden met ‘algoritmen’ door de dataverzamelingen ploegen. Het gevolg is ‘bias’ of ‘willekeur’ en dat is onacceptabel. Dat dat Syri-systeem nog nooit een fraudeur heeft opgeleverd, is juridisch irrelevant.

Kerstvakantie-Pool

De journalist belde omdat ik in een uitzending van Nieuwsuur heb uitgelegd dat het UWV allerlei controles uit een operationeel systeem heeft gesloopt en post-Syri nu kijkt of ze zelf met controles grenzen over gaan. Ik moest lachen. Het UWV grijpt de Syri-uitspraak aan om nóg minder te controleren, maar de vergelijking was sowieso onzinnig. Ik had verteld en nadien beschreven (met name afleveringen 15 en 17) hoe UWV ervoor zorgt dat fraudes niet worden opgemerkt en waarom dat gebeurt.

Maar ik had het over harde controles: het bedrijf dat failliet gaat en de werknemers met terugwerkende kracht een loonsverhoging geeft. De BV-directeuren die elkaars niet-werkende partner in dienst nemen en dan de ww in sturen. De kerstvakantie-Pool die elk jaar in december een ww-uitkering ophaalt en eind januari weer de kas in gaat. Gewoon, controles die het UWV hoort te doen maar niet doet. Dit soort ‘kleurenblinde’ software is iets heel anders dan het zoeken naar esoterische patronen in de data die misschien duiden op fraude. De vragen van de journalist suggereerden dat pers, politiek en rechterlijke macht het basale onderscheid tussen datavalidatie en op artificiële intelligentie (ai) gebaseerde patroonspeurderij niet op het netvlies hebben.

Van het padje af

Inzake Syri was de reactie van het UWV dat de Syri-software werkt op databronnen van diverse organisaties, terwijl UWV alleen controleert op de eigen data. Dat is onjuist en sowieso kul. Het is bijvoorbeeld onjuist omdat het UWV een kopie van de bevolkingsadministratie (de BRP) in huis heeft. En als het UWV Uitkeringsbedrijf en het UWV WERKbedrijf straks worden opgesplitst, zou de uitkeringsclub de sollicitatie-informatie daarna niet meer mogen gebruiken (wat ze nu evenmin doen overigens)? Dat klinkt niet logisch. En dan: de Belastingdienst controleert massaal op data van andere partijen. Als dát het argument is om Syri te verbieden moet de Belastingdienst morgen echt totaal op de schop. Kortom, ook op datagebied lijken we in Nederland van het padje af.

En dat terwijl de situatie in essentie heel eenvoudig is. Wij burgers verstrekken de overheid (er is er maar één) verplicht allerlei informatie: waar we wonen, wie onze partners en kinderen zijn, waar we werken, wat we verdienen, enzovoorts. Die overheid heeft niet alleen het recht maar ook de plicht om deze informatie op juistheid en volledigheid te controleren. Gebeurt dat niet dan wordt de rechtsstaat ondergraven. Dat de Belastingdienst dit type data verzamelt en er op controleert is uitstekend. Dat in de uitkeringssector iedereen werkt met zijn eigen gegevens is juist tegenover de eerzame burger puur slecht.

Tweeledig probleem

Het echte probleem zit zowel in de algoritmen als in de data, maar wel op een andere plek. Wat die algoritmen betreft zou de regel moeten zijn dat trendy patroonspeurderij niet mag plaatsvinden als de onderliggende basale controles ontbreken. Hier ligt de belangrijkste garantie tegen algoritmische discriminatie. Dezelfde controle die de kerstvakantie-ww-pool uit de UWV bestanden pikt doet dat met diens in Brasschaat wonende Nederlandse tegenvoeter. Gaan we daarna verder met deep learning–ai, dan moeten de gevonden patronen ook zijn te vertalen in redelijke regels. Daarbij moet je kunnen uitsluiten dat uitkomsten gebaseerd zijn op niet-representatieve of vervuilde data. Vermoedelijk blijven er dan weinig deep learning-cases over.

Op datagebied speelt een tweeledig probleem. Dataprobleem 1 is dat van de ‘data-ongelijkheid’. Leen ik de Bulgaarse auto van mijn dito werkster dan kan ik met 180 over de A12. Legal aliens in Nederland (en Nederlanders elders in de EU) hebben in onze gebureaucratiseerde samenleving privileges die autochtonen niet hebben: rechtsongelijkheid dus. Dataprobleem 2 is dat diezelfde overheid zich heeft gestort op onze ‘gedragsdata’ en deze registreert buiten alle democratische controle. De overheid behoort niet te weten waar we rijden en parkeren, met wie we bellen/chatten/mailen, wanneer we hoeveel gas/water/elektra gebruiken, enzovoorts. En het zijn die data die de overheid – de Belastingdienst weer voorop – van ons wil hebben, als het even kan zonder het te melden.

Met esoterische deep learning–tech opgespoorde dubieuze patronen in plaats van klassieke controles; gebaseerd op aan de burger ontfutselde gedragsdata en alles natuurlijk niet inzichtelijk en niet onderbouwd. Het is de ultieme rekening die we straks gepresenteerd krijgen voor de verwarring die we met elkaar hebben gecreëerd over wat algoritmen en wat data eigenlijk zijn.

Dit artikel is verschenen in Computable Magazine #2 2020.