Naar aanleiding van het recent verschenen jaarverslag 2013 van het College Bescherming Persoonsgegevens (CBP), stelt het CBP dat anonimisering van gegevens kan voorkomen dat ‘big data’ inbreuk maakt op de privacy en de gelijke behandeling van betrokken personen. Voor veel doelen waarvoor big data wordt ingezet, zijn tot de persoon herleidbare gegevens helemaal niet nodig. De gegevens moeten dan onomkeerbaar worden geanonimiseerd. Als organisaties voor hun doel wél herleidbare gegevens verwerken, moeten zij aan alle eisen van de Wet bescherming persoonsgegevens (Wbp) voldoen. Dat stelt Jacob Kohnstamm, voorzitter van het CBP, in zijn toelichting op het jaarverslag.
De Wet bescherming persoonsgegevens (Wbp) schrijft voor dat persoonsgegevens (‘elk gegeven betreffende een geïdentificeerde of identificeerbare natuurlijke persoon’) niet oneindig bewaard mogen blijven. Daarnaast mag bewaring slechts voor een aantal doelen geschieden en heeft de betrokkene (‘degene op wie een persoonsgegeven betrekking heeft’) het recht om zijn gegevens in te zien, aan te vullen of soms zelf te laten verwijderen. Een betrokkene zal echter zijn wettelijke rechten niet uit kunnen oefenen en een verantwoordelijke zal niet aan zijn wettelijke plichten kunnen voldoen, indien geen gestructureerd overzicht bestaat van de opgeslagen gegevens. En dit is exact één van de problemen van big data: er is zoveel informatie opgeslagen, dat niemand precies weet welke informatie (waar) is opgeslagen.
Een theoretisch oplossing
De oplossing van het CBP voor dit probleem is: anonimiseer gegevens. Op zich een goed advies. Indien de persoonsgegevens geanonimiseerd worden, is geen sprake meer van ‘persoonsgegevens’ in de zin van de Wbp. De persoon in kwestie is immers aan de hand van de beschikbare gegevens niet meer ‘geïdentificeerd of identificeerbaar’, waarmee het privacy probleem hiermee theoretisch gezien is opgelost.
Er is echter een aantal problemen verbonden aan deze theoretische oplossing. Ten eerste is de vraag op welk moment de anonimisering moet plaatsvinden. Er is geen specifiek moment waarop ‘data’ opeens in ‘big data’ verandert. Veel (persoons)gegevens die bij een bedrijf, organisatie of overheidsinstelling binnenkomen, hebben een bepaalde onmisbare functie. Zo heeft een webwinkel de naw-gegevens van haar klanten nodig om een bestelling te kunnen leveren. Maar na levering van de bestelling moeten deze gegevens nog steeds bewaard worden, aangezien de terugzendtermijn nog loopt. En nadat deze termijn is verlopen, loopt de algemene garantietermijn (van soms meerdere jaren!) nog. Op welk moment kunnen gegevens nu geanonimiseerd worden?
Naast dit praktische bezwaar, gelden ook juridische bezwaren. Uit een aantal wetten vloeit namelijk een verplichting voort om gegevens voor langere tijd te bewaren. Zo geldt voor overheden het bewaarregime van de Archiefwet 1995 en de daaraan verbonden wet- en regelgeving. Bedrijven zien zich vaak geconfronteerd met een fiscale bewaarplicht van zeven jaar. Daarnaast bestaat ook veel sectorale wetgeving waaruit bewaarplichten voortvloeien voor bijvoorbeeld ziekenhuizen, advocatenkantoren, banken, verzekeringsmaatschappijen en andere financiële dienstverleners.
In de huidige situatie is anonimiseren derhalve gemakkelijker gezegd dan gedaan. Het is voor een verantwoordelijke vrijwel ondoenlijk om precies bij te houden wanneer welke gegevens geanonimiseerd mogen worden. Het probleem van big data is nu immers juist dat geen (volledig) overzicht van de aanwezige gegevens bestaat. En hiermee zijn we weer terug bij af.
Privacy by design
De verwachting is dat de nieuwe Europese Privacyverordening over niet al te lange tijd in werking zal treden. Eén van de uitgangspunten van deze verordening is het principe van ‘privacy by design’, waarbij de bescherming van persoonsgegevens en de borging van de rechten van de betrokkenen vanaf het allereerste begin in het informatiesysteem wordt ingebouwd.
Het vanaf het eerste begin inbouwen van privacybeschermende waarborgen in informatiesystemen lijkt hiermee een realistischere oplossing te vormen voor het ‘big data probleem’. Hoewel het de vraag is of alle technische en praktische bezwaren overwonnen kunnen worden, zou het een goede stap zijn om vanaf het moment dat gegevens het systeem binnenkomen al te bepalen en te programmeren welke (categorie) gegevens op welk moment verwijderd of geanonimiseerd moeten worden. ‘Privacy by design’ zal zeker niet alle problemen oplossen, maar vormt wel een stap in de goede richting.
Mr. Willem Balfoort, advocaat IE/IT/Privacy bij De Clercq Advocaten Notarissen
Bedrijven dienen zich degelijk voor te bereiden op de nieuwe Europese Privacy Verordening. (EPV) en de wet meldplicht datalekken. Dit begint met het maken van een inventarisatie van de informatie de bij een bedrijf in gebruik is. Weet u welke informatie u in uw organisatie heeft? Welke bestanden worden er gebruikt? Waar staan die bestanden opgeslagen? (Ook als u werkt met een cloud-dienst!) Wie hebben er toegang tot de gegevens? Met welk doel wordt die informatie opgeslagen? Dergelijke zaken dienen ten behoeve van de EPV, maar ook van de wet meldplicht datalekken (die op niet al te lange termijn gaat gelden voor alle bedrijven) gedocumenteerd en voorhanden te zijn.
Relevant artikel, met plezier gelezen.
Overigens geloof ik dat er ook nog andere problemen bestaan bij het anoniem maken van data.
Neem als voorbeeld de zoektermen op Google. Ik kan de bron even niet vinden, maar op basis van zoek opdrachten van een gebruiker (Bijv. gebruiker: 5CF93A99-0CAF-4784-A044-2F0E8C67145C) kan ik meer dan 80% van de gevallen gevonden worden WIE de persoon is en waar deze woont.
Met andere woorden: Al is alles anoniem gemaakt van een gebruiker / persoon / patient, kan deze nog wel degelijk uniek geïdentificeerd worden.
Het is een fundamentele uitdaging los van de al aangehaalde punten zoals wanneer de data anoniem gemaakt wordt.
Een hint is in ieder geval dat het net zo werkt als bij internet security. De gebruikers data en credit card gegevens leven niet in dezelfde databasa als de gebruikers data. De gebruikers data moet dus altijd los staan van de bron waarin de gebruiker geïdentificeerd word.
Denk ook bijvoorbeeld aan data maskeren (vorm van anomiseren) van productie data voor testdoeleinden waarbij de gemaskeerde data net zo functioneel moet zijn als de productiedata.
Dit is geen gemakkelijk proces, maar wel te structureren.
Privacy en big data vormen inderdaad een grote uitdaging, maar ik betwijfel of de stelling dat ‘het probleem van big data is dat er geen (volledig) overzicht van de aanwezige gegevens bestaat’ de kern van het probleem is.
Als je als organisatie data haalt uit je CRM-pakket, uit je ERP-pakket en uit social media, dan mag je best spreken van big data (volume: het is al gauw veel; variety: zowel gestructureerd als ongestructureerd; velocity: bij social media mining gaat het zeker om streaming analyse; veracity: niet alles in social media is even betrouwbaar). Toch is in dit geval heel overzichtelijk welke gegevensbronnen je gebruikt voor je analyse.
De kern van het probleem zit eerder in de hoek van vragen als:
– Doelbinding en hergebruik: analyseer je data voor hetgeen je het hebt verzameld of (her)gebruik je het voor iets anders?
– Wat als je door geanonimiseerde bronnen te combineren, toch resultaten tot personen kunt herleiden?
– Hoe betrouwbaar zijn de conclusies van je data-analyse? Verwar je uitingen op social media van verschillende personen niet met elkaar? Is de informatie nog actueel? Of draag je iemand iets na wat niet meer terecht is?
– Hoe traceerbaar zijn de uitkomsten van je data-analyse? Stel je detecteert fraude fraude met een model dat feitelijk als black box opereert. Dan is het lastig om iemand uit te sluiten omdat ‘het model het nu eenmaal zegt’ (hoe goed je model statistisch gezien ook presteert).
Cordny haalt een valide punt aan. Ik heb dit in het verleden nog wel eens fout zien gaan. Met alle gevolgen vandien.
Beste Willem,
Dank voor je artikel. Interessant.
Ik denk dat zonder de Europese Privacyverordening we met de huidige wet-en regelgevingen en instrumenten (selectielijsten met hierin bewaar en vernietigingstermijnen) al de nodige tools in handen hebben om ‘privacy by design’ in te regelen. Het gebruiken van de instrumenten die we nu al hebben zou veel meer moeten gebeuren en dit gebeurd veels te weinig. Wat vaak ook gebeurd is dat privacy gegevens veel langer dan noodzakelijk worden bewaard en er door organisaties (soms bewust) digitaal weinig tot niet wordt vernietigd.
Ik vraag me dan af of de Europese Privacyverordening, organisaties er straks wel toe kan bewegen om serieuzer om te gaan met privacygegevens. Wie weet helpt het.
Ik vind de opmerkingen van Jan-Willem interessant omdat door het koppelen van pseudo-anonieme gegevens met een grote mate van zekerheid de handel en wandel van persoon te volgen is. En Big Data is toch vaak gericht op maken van profielen, de handel in persoonsgegevens is gewoon te lucratief. Hoewel CBP een toename van deze zogenaamde derdeverstrekking signaleert gebeurt er betrekkelijk weinig aan, ‘privacy by design’ is dan ook meer een belofte dan een garantie.
Ik ben het eens met de volkomen terechte opmerkingen dat – zelfs indien anonimisering een optie was – hiermee het probleem nog niet is opgelost. Immers, ook bepaalde combinaties van anonieme gegevens kunnen tot identificatie van een persoon leiden. Hiermee is het niet alleen mogelijk op basis van alreeds opgeslagen gegevens te ‘profilen’, maar ook om actief een bepaalde persoon (in de toekomst) te volgen. In een dergelijke situatie is echter duidelijk sprake van ‘opzet’. Privacy-by-design zal in dit geval dan ook weinig oplossen.
Voor veel bedrijven zullen persoonsgegevens in big data collecties echter meer ‘bijvangst’ dan opzet zijn. Ik ben van mening dat in een dergelijk geval privacy-by-design wel een oplossing kan bieden. Op deze wijze hoeven verantwoordelijken niet steeds de data collecties door te spitten om persoonsgegevens en andere privacygevoelige gegevens te verwijderen. Bovendien kan op deze manier geholpen worden big data meer te structuren. Immers, zoals Rob hierboven terecht opmerkt: het is wettelijk (steeds vaker en om verschillende redenen) verplicht om een volledig overzicht van de aanwezige gegevens te hebben. Met de huidige gang van zaken (met onder meer de opkomst van cloud computing) dreigen we terecht te komen in een situatie waarin vrijwel niemand binnen de organisatie enig idee heeft welke gegevens waar staan opgeslagen. Hiermee is het naleving van wettelijke verplichtingen feitelijk vrijwel onmogelijk…
@Willem
Dank voor je reactie maar je afsluitende zin wekt niet veel hoop, het klinkt alsof wetten maken een bezigheidstherapie is doordat controle ervan feitelijk onmogelijk is.
@ Ewout
Het lijkt inderdaad waar dat de wetgever soms vrij machteloos staat. Neem de strijd tegen het ‘illegale’ downloaden. Waar wetgeving en wetshandhaving tot weinig of geen positieve resultaten leidde, bleek het omarmen van nieuwe businessmodellen (Netflix, Spotify, etc.) wél oplossingen te bieden.
In het kader van de privacybescherming stellen de Nederlandse en Europese wetgever vele eisen aan een organisatie: de organisatie moet een volledig overzicht hebben van alle aanwezige persoonsgegevens, alle opgeslagen persoonsgegevens moeten correct zijn, de gegevens mogen niet langer dan noodzakelijk bewaard worden, de opgeslagen gegevens mogen alleen verwerkt worden voor het doel waarvoor ze initieel verzameld zijn, de betrokkene (de persoon op wie de gegevens betrekking hebben) moet de gegevens kunnen laten aanpassen, wijzigen of zelfs geheel laten verwijderen en bovendien moet de verantwoordelijke aan de betrokkene een volledig overzicht van alle op hem betrekking hebbende gegevens kunnen verstrekken.
Kortom: de wetgever stelt hoge eisen. Dit zal in de toekomst niet veranderen. Immers, met de nieuwe Privacyverordening wordt in een aantal opzichten de last van de verantwoordelijke alleen maar zwaarder. Hierbij is interessant dat iedere wettelijke eis in feite uitgaat van één aanname, namelijk dat de verantwoordelijke weet welke gegevens waar zijn opgeslagen. Indien dit niet het geval zou zijn, zou het immers onmogelijk zijn te voldoen aan voornoemde wettelijke eisen.
En dit raakt de kern van mijn betoog: de wetgever eist iets dat met de opkomst van big data op dit moment bijna onmogelijk is. Betekent dit echter dat de wetgever zich maar niet met dit onderwerp moet bemoeien? Ik denk dat de Europese wetgever op een juiste manier omgaat met deze kwestie. Enerzijds hoge eisen stellen, maar aan de andere kant ook een tool bieden: privacy-by-design. Zoals het CBP niet geheel onterecht stelt: “Door al bij het ontwikkelen van systemen privacy en bescherming van persoonsgegevens in te bouwen is de kans op het succes ervan het grootst.”