Minimaliseer het datarisico van generatieve ai

Grote organisaties zagen de kracht van generatieve ai al snel in om nieuwe ideeën te ontdekken en de productiviteit van zowel developers als non-developers te verhogen. Echter, het pushen van gevoelige en bedrijfseigen data naar openbaar gehoste language learning models (llm’s) brengt aanzienlijke risico’s met zich mee op het gebied van security, privacy en governance.

Bedrijven hebben een aanpak nodig die deze risico’s adresseert voordat ze kunnen profiteren van deze krachtige, nieuwe technologie. Zoals IDC opmerkt, maken bedrijven zich – terecht – zorgen dat llm’s kunnen ‘leren’ van hun prompts en dat die informatie doorgeven kan worden aan andere bedrijven. Daarnaast maken bedrijven zich zorgen over gevoelige data die ze delen, omdat deze mogelijk online worden opgeslagen, zichtbaar kunnen zijn voor hackers of per ongeluk openbaar worden gemaakt. Dat maakt het invoeren van data en prompts in openbaar gehoste llm’s voor de meeste bedrijven een onmogelijke opgave. Vooral voor bedrijven die actief zijn in gereguleerde omgevingen. Hoe kun je als bedrijf toch waarde halen uit llm’s en tegelijkertijd de risico’s voldoende beperken?

Balans

In plaats van je data naar een llm te sturen, kun je de llm ook naar je data brengen. Dit is het model dat de meeste bedrijven gebruiken om een balans te vinden tussen innovatie en het belang om gevoelige klantdata veilig te houden. De meeste grote bedrijven hebben hun security en governance rond data al goed op orde en zouden llm’s binnen die beschermde omgeving moeten kunnen hosten en inzetten. Hierdoor kunnen datateams de llm’s verder ontwikkelen en aanpassen, en medewerkers hiermee laten werken binnen de bestaande security-perimeter van de organisatie.

Je kunt geen sterke ai-strategie hebben zonder een sterke datastrategie. Dat betekent dat silo’s moeten worden opengebroken en dat er moet worden gezorgd voor eenvoudige, consistente beleidsregels waarmee teams toegang krijgen tot de data die ze nodig hebben. Dat alles binnen een sterk security- en governancebeleid. Het einddoel is om bruikbare, betrouwbare data voorhanden te hebben die toegankelijk zijn voor gebruik van een llm binnen een veilige en beheerde omgeving.

Hallucinaties

Llm’s die op het hele web zijn getraind, vormen niet alleen een uitdaging op het gebied van privacy. Ze zijn ook gevoelig voor ‘hallucinaties’ en andere onnauwkeurigheden. Daarnaast kunnen llm’s ook vooroordelen reproduceren en offensieve reacties genereren. Bovendien zijn fundamentele llm’s niet blootgesteld aan de interne systemen en data, wat zoveel betekent dat ze geen vragen kunnen beantwoorden die bedrijfsspecifiek, klantspecifiek en mogelijk ook branchespecifiek zijn.

Je kunt een bestaand model uitbreiden en aanpassen zodat het slim werkt voor je bedrijf. Hoewel gehoste modellen zoals ChatGPT de afgelopen tijd de meeste aandacht hebben gekregen, is er een lange en groeiende lijst van llm’s die bedrijven kunnen downloaden, aanpassen en gebruiken achter hun firewall – inclusief opensource-modellen zoals StarCoder van Hugging Face en StableLM van StabilityAI. Voor het tunen van een basismodel toepasbaar voor het hele web zijn grote hoeveelheden data en rekenkracht nodig, maar zoals IDC opmerkt: ‘Als een generatieve ai eenmaal is getraind, kan het met veel minder data worden ‘verfijnd’ voor een bepaald inhoudsdomein.’

Het principe van garbage in, garbage out geldt voor elk ai-model

Een llm hoeft niet groot te zijn om van toegevoegde waarde te zijn. Het principe van garbage in, garbage out geldt voor elk ai-model en organisaties moeten modellen aanpassen met behulp van interne data waarvan ze weten dat ze die kunnen vertrouwen en die de inzichten geven die nodig zijn. Zo kun je medewerkers straks vragen stellen over de verkoop in een bepaalde regio of over de voordelen van het contract van een bepaalde klant. Die antwoorden kan een llm genereren als deze is afgestemd op eigen data en gehuisvest is in een veilige en beheerde omgeving.

Naast resultaten van hogere kwaliteit, kan het optimaliseren van LLM’s ook zorgen dat er minder resources nodig zijn. Kleinere modellen die gericht zijn op specifieke gebruikssituaties in de onderneming hebben doorgaans minder rekenkracht en geheugen nodig dan modellen die zijn gebouwd voor algemene gebruikssituaties of een grote verscheidenheid aan gebruikssituaties. Door llm’s af te stemmen op use-cases binnen de organisatie, kunnen llm’s slimmer en efficiënter gebruikt worden.

Ongestructureerd

Het afstemmen van een model op interne systemen en data vereist toegang tot alle informatie die bruikbaar kan zijn voor het gestelde doel. Veel daarvan zal zijn opgeslagen in andere vormen dan tekst. Ongeveer tachtig procent van alle data in de wereld is ongestructureerd, waaronder bedrijfsdata zoals e-mails, afbeeldingen, contracten en trainingsvideo’s. Dat vereist technologieën zoals natuurlijke taalverwerking om informatie uit ongestructureerde bronnen te halen en deze beschikbaar te maken voor datawetenschappers, zodat zij multimodale ai-modellen kunnen bouwen en trainen die relaties kunnen leggen tussen verschillende soorten data en waarmee je uiteindelijk waardevolle inzichten voor je bedrijf krijgt.

Aanpak

Ontwikkelingen op het gebied van generatieve ai en llm’s gaan snel. Bedrijven moeten daarom voorzichtig zijn met de aanpak die ze kiezen. Dat betekent dat de kleine lettertjes gelezen moeten worden en er gewerkt moet worden met leveranciers met een goede reputatie die garanties bieden over de modellen die ze leveren. Desondanks zou elk bedrijf moeten onderzoeken hoe ai in hun sector van waarde kan zijn. Er moet een balans zijn tussen risico en beloning en door generatieve-ai-modellen dicht bij je data te brengen en binnen je bestaande security-perimeter te werken, is de kans groter dat je de kansen die deze nieuwe technologie met zich meebrengt, kunt benutten.

Olivier Slavenburg is regional sales director bij Snowflake