Waar blijven de Europese llm's?

BLOG – We zien generatieve ai (gen-ai) en de large language models (llm’s) die eraan ten grondslag liggen, op allerlei manieren ingezet worden. Van consumenten die ai-oplossingen als ChatGPT vragen om een restauranttip, professionals en kwaadwillenden die indrukwekkende deepfakes creëren, tot organisaties die werknemers aanmoedigen om ai de werklast te laten verminderen. Wat ongemakkelijk maakt, is dat praktisch alle gebruikelijke llm’s in handen zijn van non-Europese partijen. Er is behoefte aan meer eigen (EU) gen-ai-initiatieven en wel om drie redenen.

Ten eerste zijn er praktisch geen lokale spelers op het gebied van llm’s. Er leek beweging komen door Mistral, maar nadat deze de Franse partij zichzelf eerst had geprofileerd als dé Europese oplossing voor Big Tech, liet zij zich doodleuk aankopen door Microsoft. Hiermee stond Mistral op de tenen van de vormgevers van de EU AI Act en werd Europa’s beste kans op een EU-native llm-speler alsnog opgeslokt door een van de grootste Amerikaanse tegenhangers.

Een tweede reden voor het belang van eigen gen-ai-initiatieven is de compliance met de EU AI Act. Eerder dit jaar stemde een grote meerderheid van het Europese parlement in met deze wet, waarin beschreven aan welke regelgeving en eisen ontwikkelaars en gebruikers moeten voldoen voor toegestane ai-systemen. Lokale gen-ai-initiatieven kunnen eenvoudiger voldoen aan de voorschriften en daarin meegroeien. Dit in tegenstelling tot non-Europese initiatieven die zich moeten aanpassen aan Europese wetgeving en regulering behoeven.

Het is niet voor niets dat Microsoft, als eigenaar van Azure, zoveel interesse heeft in OpenAI/ChatGPT

De derde reden heeft betrekking op de veiligheid van de gebruikersdata. Gebruikers van gen-ai-oplossingen voeren allerlei data aan de systemen om een zo precies mogelijk antwoord te ontvangen. Dit houdt in dat al deze gegevens, inclusief gevoelige data, in handen komen van non-Europese partijen als Grok en Microsoft. Daarbij moeten we onszelf afvragen of we erop vertrouwen dat de externe partij goed omgaat met onze data, of dat we het liever zelf in de hand houden. De aansprakelijkheid met betrekking tot het beheer van deze gegevens is ook een punt van aandacht. De gevoeligste onderdelen van de ontwikkeling van een llm – het draaien ervan en de opslag van de data – verdienen de sterkst mogelijke bescherming.

Obstakel

Het grootste obstakel voor de ontwikkeling van llm’s is de investering. Nadat het model is opgezet, is er een grote inspanning nodig om het model te trainen. Als er een goede basis is gelegd, zal het model door middel van de invoer van de gebruikersdata daarna verder groeien op basis van nieuwe training. Dan komt het voor de ontwikkelaars neer op het beheer en het tweaken van het model, wat gepaard gaat met relatief lagere kosten. Om het gat in de Europese markt te kunnen dichten, moet de initiële investering gedekt worden. Daar komt nog bij dat op dit moment een Europese infrastructuur die het trainen van modellen faciliteert ontbreekt. Er zijn wel lokale cloudpartijen die kunnen helpen bij het hosten van de llm’s en de training ervan. De meest gangbare keuze evenwel is om dit soort modellen te trainen in hyperscale clouds. Het is niet voor niets dat Microsoft, als eigenaar van Azure, zoveel interesse heeft in OpenAI/ChatGPT. Een Europese infrastructuur trekt het speelveld weer wat gelijk.

Portemonnee

Wil Europa een eigen ai-infrastructuur ondersteunen, dan kan dat door te investeren in lokale initiatieven met ‘onze portemonnee’. Met deze investering zijn standaardmodellen van llm’s te ontwikkelen op basis van Europese data. Dit zou een EU-native alternatief creëren voor de grote externe partijen. Ook kunnen de onderdelen van de ontwikkeling en het beheer van de llm’s die gevoelig zijn voor cybercriminaliteit en andere calamiteiten op deze manier binnen de Europese grenzen worden gehouden. Om het doel en de integriteit van zulke investeringen te bewaken, moet de ontwikkeling afhankelijk zijn van het zuiver en juridisch gedekt ophalen van Europese data. Europese investeringen verlagen de drempel voor lokale initiatieven en dit komt ten goede aan de veiligheid van gen-ai-initiatieven en gebruikers. Het is bovendien een uitgelezen kans om de positie van Europa in de Big Tech-markt te versterken.

Robert van der Meulen is product strategy lead bij LeaseWeb