Dankzij geautomatiseerde detectie van registraties van malafide nl-domeinnamen kunnen de anti-misbruik-teams van Stichting Internet Domeinregistratie Nederland (SIDN) binnenkort sneller ingrijpen bij misbruik. Dit maakt internet een stuk veiliger.
SIDN Labs heeft een systeem op basis van ‘responsible machine learning’ ontwikkeld dat zo goed als klaar is voor de praktijk. Het nieuwe systeem maakt een voorsortering van verdachte domeinnamen. Thymen Wabeke, ai-expert bij het researchteam van SIDN, presenteerde het prototype vanmorgen tijdens het internationale cybersecurity-evenement OneConference in Den Haag.
Hard nodig
SIDN Labs verkende het afgelopen jaar tal van methodes om malafide nl-domeinnamen al op het tijdstip van registratie te herkennen. Handmatig controleren is onhaalbaar met zo’n 2.300 nieuwe registraties per dag afgelopen september. Een automatische aanpak is daarom hard nodig.
Het algoritme dat Wabeke met zijn collega’s ontwikkelde, bepaalt niet alleen of een registratie verdacht is maar verklaart ook waarom de alarmbel rinkelt. Een goed model herkent zoveel mogelijk verdachte registratie, maar markeert tegelijkertijd zo min mogelijk legitieme registraties als verdacht. Anders gezegd: het aantal valspositieven blijft beperkt.
Na de evaluatie van drie methoden viel een scoresysteem dat mede geïnspireerd is op statische regels waarmee DNS België verdachte registraties tegenhoudt, af. Het systeem dat het researchteam van SIDN ontwikkelde, hanteert in plaats daarvan machine learning (ml), net zoals EURid (eu) dat heeft gedaan. Wabeke ging door met een ml-algoritme dat zelf complexe verbanden leert te herkennen. Daarvan bestaan er twee varianten: één met ‘weak supervision’ en één met ‘active learning’.
Wabeke: ‘Bij deze laatste variant hoeven analisten niet alle datapunten te labelen om een model te verbeteren, maar alleen de meest informatieve datapunten. Uiteindelijk bleek het model er slechter op te worden als het werd getraind met nieuwe data. Dit kwam omdat binnen een organisatie verschillend werd gedacht over het doel van het systeem. Aan de uitkomsten werden verschillende labels geplakt waardoor verwarring ontstond.’
Machine learning met ‘weak supervision’ wordt gevoed met data die op abuse-feeds staat. Wabeke sleutelde aan de oorspronkelijke methode om de uitkomsten beter interpreteerbaar te maken. In plaats van een ‘random forest classifier’ die niet-lineaire verbanden herkent, paste hij logistische regressie toe die een soort lineaire regressie mogelijk maakt. De uitkomsten worden daardoor uitlegbaar.
Tijdens de OneConference ging Wabeke dieper in op de vraag waarom ML met een feedback-loop (active learning) in zijn geval niet beter werkt en welke lessen de afgelopen maanden zijn geleerd. Wabeke: ‘Zo hebben we geleerd hoe belangrijk het is een probleem scherp te definiëren. Wat is het primaire doel dat je wilt bereiken? Gaat het er alleen om registraties met malafide intenties eruit te zeven of wil je ook registratie-data accuraat krijgen? En wanneer is precies sprake van hoge-risicodomeinnamen?’
Beleid
Richtte Wabeke zich de afgelopen maanden op de techniek, de volgende stap is om alles in beleid uit te werken en het prototype te integreren met operationele systemen. Daarnaast zal het researchteam het prototype blijven verbeteren. Verder wordt onderzocht of het ook door andere beheerders van top-level-domains is te gebruiken.