De Spaanse griep was een grieppandemie die in de jaren 1918-1920 miljoenen slachtoffers eiste. Voor landen over de hele wereld was de tragedie aanleiding om overheidsinstanties op te zetten met als doel de nationale hulp te coördineren in tijden van crisis. Maar gelet op de urgentie van die hulp ontbreekt het vaak aan tijd om de juiste fraudecontroles uit te voeren.
Vandaag de dag schieten tal van instanties te hulp na een ramp. Zie de coronapandemie of natuurrampen zoals honger en droogte, bosbranden en overstromingen. Een groot deel van deze hulp bestaat uit economische steun aan de getroffen gemeenschappen. Omdat bij deze ‘snelle’ betalingen eventuele frauduleuze praktijken doorgaans pas na maanden aan het licht komen, hebben beleids-, risico- en dataprofessionals binnen de overheid behoefte aan transparante, eerlijke en verklaarbare modellen. In combinatie met ‘everyday ai’-platformen zijn deze modellen vervolgens in te zetten om tot een robuuste, geautomatiseerde besluitvorming door de overheid te komen.
Zie de Australische overheid, die in slechts enkele weken een op machine learning gebaseerd fraudedetectiemodel voor subsidies op ten zetten. Zijn er voor ons belangrijke lessen te trekken uit dat project down-under? Ja.
Zeven lessen
- Definieer het doel
Om het rendement van investering van het project te kunnen bepalen, moet eerst de impact worden begrepen. Een goed startpunt hiervoor zijn de cijfers van de Wereldbank. Zo weet de Wereldbank dat de internationale norm voor fraude in sociale zekerheidsprogramma’s van de overheid tussen de twee en vijf procent ligt. Voor de Australische regering bijvoorbeeld, met een economisch stimuleringsprogramma van 17,6 miljard dollar, komt dit neer op een bedrag tussen de 352 en 880 miljoen dollar. Geen kleingeld. Sterker, dit bedrag overtreft de totale investering in ai die de Australische regering in vier jaar tijd deed. Dit soort cijfers bewijzen al snel dat fraudebestrijding de moeite waard is.
Maar welke rol kan de inzet van data en ai spelen in de oplossing van dit fraudeprobleem? Onder andere door de volgende drie preventie- en opsporingstechnieken van het Commonwealth Fraud Prevention Centre die geschikt zijn voor een datagedreven oplossing. Dat zijn: duidelijke en specifieke subsidievoorwaarden hanteren; verificatie van de subsidiabiliteit van aanvragen door middel van kruisverwijzingen naar interne of externe bronnen; en toepassing van softwareprogramma’s en processen voor fraudedetectie.
- Verkrijg de gegevens
Bij het opsporen van onregelmatigheden geldt: hoe meer data, hoe beter. Door meerdere datasoorten en -bronnen te gebruiken, kan een project verder gaan dan het identificeren van onregelmatige eenheden en meer geavanceerde contextuele of collectieve onregelmatigheden identificeren. Omdat we niet zomaar toegang hebben tot alle relevante Australische overheidsgegevens gebruiken we drie datasets van overheidsinstanties, zoals het belastingkantoor en de toezichthouder van Data.gov.au. Vervolgens voegen we daar een paar datasets aan toe met de gestructureerde en ongestructureerde gegevens die doorgaans aanwezig zijn in subsidieaanvragen van Kaggle en het Snowflake Covid-19 Data Share.
- De gegevens opschonen
Vervolgens moeten de gegevens (die uit een groot aantal bronnen komen) klaargemaakt worden voor gebruik en om te worden samengevoegd tot één dataset, waarop het uiteindelijke fraudevoorspellingsmodel zal worden gebouwd. De gegevens worden gecontroleerd op kwaliteit, consistentie en relevantie en er wordt gekeken naar de verdeling, vorm en afwijking van de gegevens. Zo kunnen we rekenen op een normale statistische verdeling bij het bouwen van voorspellende modellen verderop in het proces.
- Een model bouwen
Om het model te bouwen, worden drie tegenmaatregelen gebruikt die zijn gepubliceerd door het Commonwealth Fraud Prevention Centre. Tegenmaatregelen zijn strategieën om fraude te voorkomen of het frauderisico te beperken door de waarschijnlijkheid en de gevolgen van fraude te verkleinen. Hoewel de meest relevante tegenmaatregelen afhankelijk zijn van de situatie, concentreren we ons op preventieve tegenmaatregelen, omdat die over het algemeen de meest voorkomende en kosteneffectieve manier zijn om fraude te stoppen.
Maatregel 1: duidelijke en specifieke subsidievereisten. Hiervoor moet het model snel bij te werken en opnieuw op te bouwen zijn zonder zorgen over afhankelijkheden. Maatregel 2: kruisverwijzingen naar interne of externe bronnen. Bijvoorbeeld door toepassing van natuurlijke taalverwerking en grafentheorie voor de verificatie van claims. En maatregel 3: modelleren en detecteren van opzettelijke fraude-activiteiten. Door te voorspellen en markeren welke aanvragen een hoog risico hebben op fraude tijdens het beoordelingsproces van subsidieaanvragen.
- Uitlegbaarheid en verantwoordingsplicht
Naast prestatiecijfers verschaffen de rapportagefuncties in ai-platformen gedetailleerde informatie over de verwachte impact en mogelijke vertekeningen van het model, om te helpen de verbetermogelijkheden te begrijpen en te communiceren, en risico’s te beperken. Dit is voor overheidsinstellingen van cruciaal belang om in overeenstemming te blijven met de administratieve wetgeving, wanneer het om subsidieprogramma’s gaat die worden ondersteund door geautomatiseerde besluitvormingssystemen.
- De eerlijkheid analyseren
Ook de eerlijkheid van het model moet onderzocht worden zodat eventuele schadelijke effecten op segmenten van de gemeenschap in kaart gebracht worden. Deze stap vereist een waardeoordeel en inbreng van de gemeenschap. Rechtvaardigheid is geen wettelijk gedefinieerde term en is afhankelijk van de context. Zo vond een onderzoeker 21 verschillende definities van rechtvaardigheid in de academische literatuur.
Voor een overheidsinstantie is de afwezigheid van statistische vooringenomenheid in een model op zich waarschijnlijk niet voldoende om te voorkomen dat achtergestelde groepen en individuen uit de gemeenschap vooringenomenheid ervaren. Daarom is het belangrijk om vooroordelen aan het licht te brengen en eventuele afwijkingen met de belanghebbenden te delen om de aanvaarding van een ai-systeem te bevorderen.
- Beoordeel de prestaties
Geen enkel model is perfect, en het is voor alle besluitvormers van belang om de impact en de afwegingen tussen de prestaties van het model en billijkheidsoverwegingen duidelijk te maken. Transparantie over de afwegingen leidt tot een beter geïnformeerde en volwassen discussie over het evenwicht tussen operationele risico’s in het openbaar bestuur.
De drie benaderingen die we in het voorbeeld hebben gebruikt om de aanvragen te filteren op frauderisico’s hebben het aantal aanvragen teruggebracht tot vijf procent van de oorspronkelijke dataset. Om het risico dat echte aanvragen afgewezen worden te verkleinen, zijn de gemarkeerde aanvragen samengevoegd in een tabel voor handmatige verwerking. Door mensen in het proces op te nemen kunnen bovendien bestuursrechtelijke risico’s worden beperkt. Zoals ongeoorloofd handelen of handelen onder dictaat van een geautomatiseerd besluitvormingssysteem.
Goed beeld
Dit is een enorm verkort overzicht van een volledig fraudedetectieproject maar geeft een goed beeld van de mogelijkheden. Ai kan, wanneer juist geïmplementeerd, fraude stapsgewijs en vol vertrouwen terugdringen door middel van een aantal transparante, datagestuurde strategieën.