Vijftien jaar geleden streed Stichting Brein tegen de internetpiraterij. Mijlpaal was het via de rechter uitschakelen van The Pirate Bay, een downloadsite die op grote schaal een loopje nam met auteursrechten. Nu duikt een nieuwe vorm van piraterij op, die bedoeld is om de honger van artificiële intelligence (ai)-modellen naar data te stillen.
De eerste grote dataset vol illegale content die Brein onlangs offline wist te halen, was het werk van één persoon. Die beheerder mag om redenen van privacy niet met naam worden genoemd. Brein kan evenmin zeggen welke ai-modellen deze dataset hebben gebruikt.
Want de ‘dataverzamelaar’ werkte zonder winstoogmerk en stelde de data vrijelijk op internet beschikbaar. ‘Een verdienmodel was er niet,’ zegt Brein-directeur Bastiaan van Ramshorst desgevraagd. Het lijkt er sterk op dat het de beheerder vooral te doen was om aanzien en imago (‘kijk wat ik kan’).
Veel werk
Zo’n uitgebreide dataset opbouwen is bepaald niet makkelijk. Dat vereist professionaliteit. Van Ramshorst: ‘Daar gaat veel werk in zitten. Het is niet zomaar wat scrapen en kopieën van e-books bij elkaar zetten. Het betreft een hele grote verzameling. Ook het goed leesbaar maken van al die data voor een ai-model vergt tijd.’
De kans dat de zaak nog een staartje krijgt, is miniem mede omdat de implementatie van de EU AI Act niet rond is. Pas vanaf 25 augustus geldt een plicht tot transparantie voor nieuwe ai-modellen. De makers daarvan moeten dan laten zien waarop ze zijn getraind. Volgens Van Ramshorst is nu nog sprake van een juridisch vacuüm. Met de data-piraat is daarom snel een regeling getroffen om de site zo spoedig mogelijk offline te krijgen. De man heeft ook een onthoudingsverklaring getekend dat hij het niet meer zal doen.
Voor Brein was het de eerste zaak op dit ai-gebied. In Denemarken speelde eerder een affaire rond de Books3-database met 191.000 boeken. Onder meer Meta gebruikte deze database om ai-modellen mee te trainen.