Het eerste deel van dit tweeluik ging in op wat ai-ongelukken zijn, hoe ze ontstaan en hoe je ze kan herkennen. Dit tweede deel beschrijft hoe je ai-ongelukken kan voorkomen. Om te beginnen is het belangrijk een doel vast te stellen en te identificeren wat binnen en buiten het bereik valt. Alleen wanneer je dit duidelijk hebt, kan je meten of het model aan de verwachtingen voldoet.
Bepaal wat het ideale doel van het algoritme is (‘ideal spec’), hoe het op te splitsen en uit te voeren is (‘design spec’) en of wat werkelijk geïmplementeerd is zich naar de gewenste manier gedraagt (‘real behavior’). Als laatste is het zaak zowel de benodigde input als de verwachte output op te schrijven, want dit kunnen ook aannames zijn. Wanneer dit allemaal helder is, kunnen de volgende stappen worden genomen.
Benchmarken
- Stap 1: opzetten van schaalbaar toezicht
Als je slechts één model hebt, kun je misschien een werkgroep oprichten om het te bespreken, te benchmarken en goed te keuren. Maar wanneer het om honderden of duizenden modellen gaat, wordt dat al snel onmogelijk. In geavanceerde situaties kun je menselijke sign-off ondersteunen door meerdere soorten ai debate te implementeren. Bijvoorbeeld door visuele modelvergelijkingen te gebruiken om data-scientists en ml-operators inzicht in prestatiecijfers en trainingsinformatie te geven. Ook is het verstandig om modellen verplicht te laten goedkeuren voordat ze in productie worden genomen, waarbij meerdere beoordelaars en goedkeurders betrokken kunnen zijn.
Door menselijke voorkeuren uit gedrag af te leiden, kan de machine het menselijk gedrag zo goed mogelijk nabootsen in een model. Dit proces leert en profiteert dus ook van menselijke goedkeuring. Het ontwikkelen en implementeren van ai-projecten en -modellen zonder goed toezicht kan resulteren in slechte prestaties en onbedoelde gevolgen voor klanten en de organisatie. Met governance en toezicht op ai-portefeuilles kunnen teams gestandaardiseerde projectplannen, risico- en waardebeoordelingen en menselijke sign-off implementeren.
- Stap 2: test, verifieer en valideer
Het is essentieel dat modellen consequent getest, geverifieerd en gevalideerd worden, het liefst vanuit verschillende perspectieven. Ook wanneer een model in gebruik is, moeten de resultaten continu gemonitord en geëvalueerd worden. Alleen dan kunnen teams op afwijkingen inspelen door hun proces te itereren en mensen met verschillende achtergronden, vaardigheden en expertise te betrekken. Om aite kunnen opschalen is diversiteit nodig binnen de teams die de technologie bouwen en ervan profiteren.
- Stap 3: ontwerp voor mislukking
Het klinkt misschien tegenstrijdig maar ontwerp met mislukking in het achterhoofd. Dit is een soort risico-evaluatie. Vorm een zo goed en duidelijk mogelijk beeld van de invloed die een model kan hebben op de organisatie. Dit kan door niet alleen de prestaties van het model zelf te controleren, maar ook na te gaan wat de “blast radius” van je model is en hoe het aangrenzende beslissingen beïnvloedt. Alleen dan is het mogelijk om de juiste veiligheidsmaatregelen eromheen te bouwen.
- Stap 4: ga uit van vooroordelen
Zorg ervoor dat ai traint aan de hand van een reproduceerbare manier die systematisch controleert op vooroordelen en weet dat er ook sprake kan zijn van onbewuste vooroordelen. Modellen die met bevooroordeelde gegevens zijn gebouwd, zullen waarschijnlijk bevooroordeelde voorspellingen opleveren. De modellen zelf hebben daar geen last van, maar klanten en medewerkers waarschijnlijk wel. Met de juiste tools en processen kunnen data-scientists en hun co-builders modellen produceren die verantwoorde en rechtvaardige uitkomsten opleveren. Voer bijvoorbeeld een impact analyse uit om te meten of een gevoelige groep in gelijke mate een positieve uitkomst krijgt als de bevoordeelde groep. Of gebruik een subpopulatie analyse om de resultaten per groep te bekijken. Beide analyses helpen om groepen mensen te vinden die mogelijk oneerlijk of anders worden behandeld door het model.
- Stap 5: praat over ongelukken
Als laatste is het belangrijk om te praten over ai en de mogelijkheid dat het weleens mis kan gaan. Want risico’s voorkomen kan alleen wanneer mensen weten wat de risico’s zijn. Het algemene bewustzijn vergroten en zowel het management als de mensen die bij ai-projecten betrokken zijn, voorlichten over ai-ongelukken is een eerste stap. Er openlijk over praten de volgende. Vaak worden de negatieve resultaten niet gepubliceerd, maar dit kan ertoe leiden dat anderen dezelfde fout begaan. Teams moeten informatie over ai-ongelukken en bijna-ongelukken durven delen. Het gebruik van ai-gebaseerde technologie is een opkomend gebied, dus niet alles zal bij de eerste poging perfect werken, maar het doel moet zijn om te leren van eventuele fouten of onbedoelde gevolgen.
Strategie
Ai heeft een duidelijke governance-strategie nodig. Welk type model ook wordt gebruikt, het moet geverifieerd en gevalideerd worden. Want het model zelf geeft er niets om als het fout is. Het is aan de mens om de prestaties van modellen te bewaken door middel van end-to-end lifecyclemanagement, want uiteindelijk zijn het de prestaties die tellen voor de bedrijfscontinuïteit.
Beperk deze best practices niet alleen tot de net nieuwe ai, maar pas dezelfde striktheid toe op elk ander soort model dat belangrijke beslissingen op basis van gegevens automatiseert. Een kunstmatige scheidingslijn tussen ‘nieuwe’ en ‘oude’ modelbenaderingen bagatelliseert de potentieel grotere risico’s van de laatste. Op die manier kunnen we ai echt laten groeien door de risico’s te beperken.