Data zijn overal. Ze zijn de brandstof die innovatie aandrijven, van gepersonaliseerde marketing tot geavanceerde ai. Nu we steeds meer datasets gebruiken om ai-modellen te trainen, neemt ook de zorg over privacy toe. De noodzaak om persoonlijke informatie te beschermen zonder de waarde van data te verminderen, heeft geleid tot een nieuwe aanpak voor het beschermen van persoonsgegevens: differentiële privacy.
Vraag: wat betekent dit voor developers en testers bij enterprise-it-organisaties maar ook bij softwarebedrijven en system integrators?
Techbedrijven als Apple, Cloudflare en Google steken tijd en energie in het promoten van differentiële privacy. En dat kan geen kwaad, want differentiële privacy is een complex onderwerp. Het is een wiskundig kader dat is ontworpen om de privacy van individuen in een dataset te waarborgen, terwijl het tegelijkertijd nog steeds mogelijk is om nuttige informatie uit die dataset te halen. Het probeert een balans te vinden tussen het beschermen van de privacy van de gebruiker en het behouden van de bruikbaarheid van de data voor analyse. Dat maakt dit concept bijzonder relevant in een tijd waarin datalekken en privacy-zorgen steeds meer voorkomen.
Garanderen
Het idee voor differentiële privacy is niet zomaar tot stand gekomen. In eerste instantie meenden onderzoekers privacy in dit soort situaties te kunnen garanderen met een aanpak die Distributed Aggregation Protocol (DAP) wordt genoemd. DAP maakt het mogelijk gegevens te aggregeren zonder dat er individuele gegevenspunten zichtbaar worden. Noem het maar ‘private aggregation’. Het is nuttig voor toepassingen waarbij een gegevensverzamelaar geïnteresseerd is in algemene trends over een populatie zonder toegang te hebben tot gevoelige gegevens.
DAP maakt gebruik van een cryptografische techniek die we multi-party computation noemen
DAP zet een belangrijke stap in de goede richting, maar private aggregatie alleen is vaak niet voldoende om de privacy te beschermen, schrijft Pierre Tholoniat. Hij deed voor Cloudflare onderzoek naar dit onderwerp. ‘DAP maakt gebruik van een cryptografische techniek die we multi-party computation noemen. Op een hoog niveau verhoogt berekening door meerdere partijen de privacy door de verwerking van het geheel over meerdere servers te verdelen, zodat geen enkele server de gegevens van een individu duidelijk kan zien’, schrijft hij. ‘In eerste instantie lijkt het alsof dit voldoende zou moeten zijn om de privacy van elke individuele gebruiker te beschermen: de gegevensverzamelaar leert alleen de informatie die hij nodig heeft (namelijk de totale informatie), en niet de onderliggende gegevens die worden gebruikt om deze te berekenen. Helaas is dit vaak niet het geval, omdat het aggregaat zelf soms veel privé-informatie kan onthullen.’
Makkelijk te herleiden
Hij gaat verder met vast te stellen: het berekenen van een gemiddelde over een reeks getallen met slechts één invoer daarin onthult de waarde van het unieke element in de reeks. Zelfs het leren van de som van sommige getallen kan al uitwijzen of er een bijzonder groot of klein getal in de verzameling zit. Hij schrijft verder: “Stel dat we de gemiddelde lengte van een groep mensen berekenen. Als een lid van de groep bijzonder lang is, kunnen we, als we weten uit hoeveel mensen de groep bestaat en wat de verwachte gemiddelde lengte is, een aanzienlijke hoeveelheid informatie over de lengte van dat individu afleiden.”
Meer in het algemeen kan het vrijgeven van te veel nauwkeurige gegevens over een database een aanvaller in staat stellen de hele database te reconstrueren, meent Tholoniat. Dergelijke aanvallen bestaan in de praktijk ook al echt. Zogeheten de-anonimiseringsaanvallen op de Amerikaanse volkstelling (US Census Bureau) zijn bijvoorbeeld al op geloofwaardige wijze aangetoond. Grote taalmodellen, zoals ChatGPT, zijn ook kwetsbaar. “Een machine learning-model kan worden gezien als een bepaald type statistisch aggregaat dat wordt berekend op basis van een trainingsdataset.”
Private aggregatie niet voldoende
Deze aanvallen laten zien dat private aggregatie (met DAP of op een andere manier) niet voldoende is voor het beschermen van privacygevoelige gegevens. Een idee waar onderzoekers zich de laatste tijd steeds meer op zijn gaan richten, is differentiële privacy. Het basisprincipe is hier dat het mogelijk moet zijn om vragen over een dataset te beantwoorden zonder de privacy van de individuen in die dataset in gevaar te brengen. Dit wordt bereikt door een zekere hoeveelheid ‘ruis’ toe te voegen aan de gegevens of de query-resultaten. Hierdoor wordt het onmogelijk om te bepalen of de informatie van een specifiek individu in de dataset is gebruikt. Dit proces van ruis toevoegen wordt zorgvuldig berekend om ervoor te zorgen dat de algemene bruikbaarheid van de data niet ernstig wordt aangetast.
De hoeveelheid toegevoegde ruis – ook wel ‘willekeur’ genoemd – is omgekeerd evenredig met een privacy-parameter, doorgaans aangegeven met de Griekse letter 𝜖 (epsilon)
De hoeveelheid toegevoegde ruis – ook wel ‘willekeur’ genoemd – is omgekeerd evenredig met een privacy-parameter, doorgaans aangegeven met de Griekse letter 𝜖 (epsilon). Een kleine 𝜖 is meer privé maar gaat gepaard met meer ruis en is daardoor minder nauwkeurig, terwijl een grote 𝜖 minder privé maar juist nauwkeuriger is. Op deze manier kwantificeert 𝜖 als het ware de hoeveelheid informatie die door het aggregaat aan het licht komt.
De toepassing van differentiële privacy heeft verschillende voordelen. Het stelt organisaties in staat om te voldoen aan strenge privacywetgeving, zoals GDPR in Europa, zonder de analytische waarde van hun data te verliezen. Ten tweede biedt het een mechanisme om gebruikersvertrouwen te behouden of te vergroten, door aan te tonen dat hun persoonlijke informatie bescherming geniet. En tot slot maakt differentiële privacy het mogelijk voor onderzoekers en data-analisten om inzichten te verkrijgen uit gevoelige datasets zonder risico op identificatie van individuele deelnemers.
Cruciale informatie
Voor developers en testers in zowel enterprise-it-organisaties als softwarebedrijven is het essentieel om op de hoogte te zijn van de principes en praktijken van differentiële privacy, meent Tholoniat. Het implementeren van differentiële privacy in applicaties en processen voor data-analyse vereist namelijk een diepgaand begrip van hoe data worden verzameld, opgeslagen en verwerkt. Dit omvat kennis van algoritmen voor het toevoegen van ruis en methoden om de impact van deze ruis op de nauwkeurigheid van de resultaten te minimaliseren.
Daarnaast is het belangrijk voor zowel developers als testers om te begrijpen hoe de privacy-vereisten kunnen variëren afhankelijk van de geografische locatie van de gebruikers en de specifieke toepassingen van de data. Dit vereist een voortdurende evaluatie van de privacy-praktijken en mogelijk het aanpassen van de benaderingen voor differentiële privacy naarmate de wetgeving en technologie evolueren.
Een uitdaging bij het implementeren van differentiële privacy is het vinden van de juiste balans tussen privacybescherming en de bruikbaarheid van de data. Te veel ruis kan de data nutteloos maken, terwijl te weinig ruis de privacy niet voldoende beschermt. Het kiezen van de juiste 𝜖 is dus van groot belang en zal van situatie tot situatie verschillen. Het vereist een zorgvuldige planning en afstemming met stakeholders om de doelstellingen voor zowel privacybescherming als data-analyse te bereiken.
Techniek én ethiek
Bovendien moeten developers en testers zich bewust zijn van de technische en ethische overwegingen bij het toepassen van differentiële privacy. Dit omvat vragen over welke soorten ruis nodig zijn, hoe de parameters voor differentiële privacy ingesteld moeten worden, en hoe de effectiviteit van maatregelen voor het beschermen van privacy zijn te meten.
Ondanks deze kanttekeningen lijkt differentiële privacy een cruciaal concept voor data-gedreven organisaties te worden. Het biedt een framework voor het beschermen van individuele privacy terwijl het nog steeds mogelijk is om waardevolle inzichten uit data te halen. Voor developers en testers is het essentieel om de principes van differentiële privacy te begrijpen en toe te passen in hun werk. Dit vereist niet alleen technische expertise, maar ook een voortdurende afstemming met de laatste ontwikkelingen in privacywetgeving en ethische normen. Door differentiële privacy te omarmen, kunnen organisaties niet alleen voldoen aan de verwachtingen van gebruikers en regelgevers, maar ook de weg vrijmaken voor innovatieve toepassingen van data die toch de privacy respecteren.
To be or not to be is het doel van differentiële privacy om de individuele privacy te waarborgen en gelijkertijd nuttige informatie uit de gegevens te halen. De definitie van nuttig gaat tenslotte om de waarde waardoor de bedot.com marketing van ruis om een toevoeging van onzin gaat doordat anonimisering veelal omkeerbaar is door mogelijkheden van datasynthese. Zo zijn subtiele patronen of kenmerken in een dataset te herleiden tot het een identificatie van het individu door meerdere informatiebronnen te koppelen. Vraag is of dit wenselijk of kwalijk is als we kijken naar een maatschappelijke rechtvaardiging van to be or not to be in de polarisatie naar goed en slecht.
Wat betreft het beschermen van individuele privacy en het beschermen van de collectieve veiligheid is ethiek een bitch als we kijken naar de moraal. Existentialistische filosofen benadrukken de individuele verantwoordelijkheid en de vrijheid om keuzes te maken, ieder voor zich en god voor ons allen. Helaas is het in Nederland andersom doordat Big Brother de burger criminaliseert middels een AI van rekenschap via alle registers waardoor je alleen anoniem kunt zijn in de digitale illegaliteit wat veelal synoniem is aan criminaliteit. Datasythese via zoiets als een rekeningnummer maakt de belastingbetaler tenslotte makkelijk volgbaar.