Privacy blijft heikel punt bij big data

24 februari 2014 - 15:556 minuten leestijdOpinieData & AI

De privacywetgeving is volop in beweging, een noodzakelijk goed in een innoverende technologisch gedreven informatie samenleving als het onze. Spannende technologische gadgets staan op stapel waarvan de Google Glass een sprekend voorbeeld is. Wordt het op dit moment door velen nog beschouwd als een duur speeltje met een uitermate ‘intrusive’ karakter, over een jaar of vijf (wellicht zelfs eerder) zal dit gadget hoogstwaarschijnlijk zijn ingeburgerd.

In de jaren negentig werd eerst gek aangekeken tegen de mobiele telefoon, emailverkeer en het internet in het algemeen. Nu kunnen we ons dat eigenlijk niet meer goed voorstellen. Een breed draagvlak creëren voor innoverende technologieën is een ‘must’ om deze toepassingen te laten voortbestaan. De kunst daarbij is om zonder die prachtige innovatie onnodig te remmen, kaders te scheppen waarbinnen dit soort technologieën kunnen worden toegepast en waarbij voldoende oog is voor fundamentele grondrechten – zoals het recht op privacy – van individuele personen. Om zodoende niet te belanden in de door Dave Eggers in diens boek ‘Circle’ geschetste samenleving waarbij het motto ‘sharing is caring’ centraal staat, individuele privacybelangen van mensen er niet meer toe doen en er sprake is van een omnipresente samenleving.

Big data

Een van de resultaten van innoverende technologische ontwikkelingen is het fenomeen big data. Onze kennissamenleving produceert ondenkbare hoeveelheden data. Steeds meer apparaten en ‘apps’ worden geproduceerd die grote hoeveelheden data kunnen genereren door middel van bewegingssensoren, camera’s (denk aan de hierboven aangehaalde Google Glass), microfoons, gps en Wi-Fi. De ‘datafootprint’ van individuen is enorm. Exponentiële groei van computerkracht en data opslag capaciteit maken efficiënte opslag en analyse van grote hoeveelheden data hanteerbaar. Met behulp van algoritmes kunnen analyses worden uitgevoerd op grote hoeveelheden gekoppelde data, resulterend in statistische (significante) correlaties op basis waarvan voorspellingen kunnen worden gedaan, besluiten worden genomen, strategische planningen en beleid worden opgesteld.

Uitdagingen

Teneinde betrouwbare voorspellingen te kunnen doen, integere besluiten te kunnen nemen, betrouwbare planningen en constructief beleid op te kunnen stellen, is vereist dat de data betrouwbaar, correct en volledig is. Een van de dingen die echter snel verloren gaan als data in een grote poel wordt opgeslagen en/of verschillende datasets aan elkaar worden gekoppeld, is de context waarbinnen de data is verzameld. Hergebruik van gegevens die ontdaan zijn van de context waarbinnen ze verzameld zijn, kan de integriteit van die gegevens en derhalve van de daarop gebaseerde conclusies aantasten.

Een andere uitdaging is het kunnen scheiden van enerzijds nuttige, actieve data en anderzijds passieve data met een archiveringsfunctie. Hoewel de opslagcapaciteit exponentieel toeneemt, is de toename van data enorm. Niet alle data is even relevant. Maar de grootste uitdaging van big data is wel het brengen van een balans tussen enerzijds de publieke belangen zoals nationale veiligheid (angst voor terroristische aanslagen en/of cyberaanvallen), gezondheidszorg (voorspellen en derhalve trachten te voorkomen of genezen van ziektes, het opsporen en voorkomen van dodelijke bijwerkingen van medicijnen), onderwijs en milieu en anderzijds publieke en persoonlijke belangen als privacy.

Privacy impact assessment

Privacy risico analyses (privacy impact assessments) kunnen een betekenisvolle rol spelen bij het vinden van een balans tussen voornoemde belangen. In de privacy risico analyses kunnen de voordelen van ‘datamining’ voor de samenleving worden meegewogen in de belangenafweging. Hoewel ‘sharing is caring’ in het geval er grote publieke belangen op het spel staan zoals nationale veiligheid en gezondheid een belangrijk adagium kan zijn, is het van belang dat er ook in deze gevallen steeds een belangenafweging plaatsvindt waarbij alle omstandigheden van het geval worden meegewogen en wordt bezien of de verwerking noodzakelijk is voor het doel waarbij wordt onderzocht of het doel niet op een andere manier kan worden bereikt die minder inbreuk maakt op de privacy van individuen. Bij het trekken van conclusies op basis van analyses van big data wordt immers niet (meer) afgevraagd waarom tot een bepaalde conclusie wordt gekomen maar de correlaties tussen data wordt als ‘de waarheid’ beschouwd.

Het nemen van besluiten op basis van gekoppelde gegevens, kan echter verstrekkende gevolgen hebben voor een individu. Niet alleen risico’s als beperkte keuzemogelijkheden (waarbij keuzemogelijkheden van een individu in het heden gedicteerd worden door het gedrag in het verleden) maar ook ongelijkheid, onverzekerbaarheid, werkeloosheid en discriminatie kan het gevolg zijn.

Teneinde de privacybelangen te waarborgen spelen de beginselen van transparantie (openheid van zaken) en accountability (verantwoording nemen) een grote rol in de privacywetgeving, naast de noodzakelijkheidstoets, dataminimalisatie en doelbinding. Dataminimalisatie staat echter op gespannen voet met een belangrijk kenmerk van big data, te weten datamaximalisatie. Hoewel anonimiseren van de gegevens vaak het toverwoord is in ‘privacyland’, zal dit in het geval van big data meestal niet realistisch zijn. Niet alleen blijkt anonimiseren in veel gevallen terug te draaien, binnen de context van big data kan de-anonimiseren juist noodzakelijk zijn ter waarborging van de integriteit van de gegevens op basis waarvan middels correlaties besluiten worden genomen.

Privacy by design

Naast innoverende technologische ontwikkelingen die op gespannen voet staan met privacy belangen, zijn er ook innoverende technologische ontwikkelingen die juist dienen ter waarborging van privacy belangen, denk aan ontwikkelingen op het terrein van ‘privacy by design’. Door vooraf goed in kaart te brengen wat de privacy risico’s kunnen zijn van een technologische toepassing, kunnen tijdig met behulp van onder meer technologische middelen privacy waarborgen worden ingebouwd. Op deze manier kan de factor menselijke fouten behoorlijk worden teruggeschroefd.

Conclusie

Uit het bovenstaande volgt dat het vinden van een balans tussen de belangen die gediend kunnen worden met big data analyses en de privacy belangen die in het geding zijn, een grote uitdaging zal blijken. Privacy impact assessments, een beoordeling van de effecten van een verwerking op de privacybelangen van degene wiens persoonsgegevens in het geding zijn, is een belangrijke stap in het proces om een weloverwogen balans te vinden tussen de relevante belangen die in het spel zijn bij het toepassen van innoverende technologieën. Daarnaast bieden dergelijke assessments een goede basis om in (software)producten technologische privacy waarborgen in te bouwen (‘privacy by design’).

7 reacties op “Privacy blijft heikel punt bij big data”

Henri Koppen schreef:

26 februari 2014 om 14:19

Irvette ik kan me vinden in je stuk. Een degelijke opinie, maar wel een beetje vlak.

Het stuk zou in een zin kunnen: Privacy is lastig te bewaken bij grote dataverzamelingen en zou in het ontwerp meegenomen moeten worden.

Omdat het te algemeen is moet het tastbaar gemaakt worden. Allereerst: wat betekent privacy?

Ik zal het heel plastisch maken: Als mijn zoektermen door een ander persoon geïsoleerd kunnen worden valt daaruit op te maken dat ik bijvoorbeeld zoek naar aandoeningen die op mijn betrekking hebben en waarvoor ik mij zou kunnen schamen. Dat zou mijn gevoel van privacy aantasten, zeker als deze publiekelijk gemaakt worden (het is een voorbeeld).

Een tweede is bijvoorbeeld als een verzekeringsmaatschappij data over mij als individu zou verkrijgen die invloed hebben op mijn verzekering.

Een derde is dat een crimineel data over mij zou kunnen misbruiken door mij af te persen, te bestelen of ander leed toe zou kunnen brengen.

Een laatste zou kunnen zijn dat deze data gebruikt wordt door een overheid om mijn monddood te kunnen maken als ik tegen de regering ben en momentum begin te krijgen.

“Ik heb niets te verbergen” gaat niet op als je homo bent en in Rusland of Oeganda woont.

—
Echter, je kunt weinig met big data als je geen sleutelwaarden hebt. Als je onderzoekt hoe behandelingen aanslaan bij een grote groep patienten moet je onderscheid kunnen maken tussen patienten en weten welke patienten eenzelfde persoon zijn.

Door de identifier obscuur te maken los je het probleem vaak niet op. Als iemand mijn zoekgeschiedenis of URL geschiedenis ziet die gekoppeld is aan ID: AB278236 dan is het toch niet moeilijk te herleiden dat het om mij gaat.

Een belangrijke vraag is: wat kan ik in het slechtste geval met deze data doen? En wie heeft toegang tot deze data?

door de repository te isoleren en toegang te beperken heb je al een stukje veiligheid, door je data niet te delen met instanties, of op te nemen in de wet dat instanties deze data niet mogen gebruiken ben je ook al wat op weg, maar zoals de titel stelt: Privacy in big data blijft een heikel punt waar geen volledige oplossing voor is en ik zie ook niet dat die er gaat komen.

Het zal dus bestaan uit enerzijds de wet, een beperking op veiligheidsdiensten, een controle op veiligheidsdiensten die een tegengesteld belang hebben, bewust zijn (deze data is niet voor iedereen), anonimiseren van data (al is het effect maar beperkt) en straffen op het roekeloos omgaan met deze data…

Log in om te reageren
Jan-Willem Lankhaar schreef:

26 februari 2014 om 15:49

Goed punt dat je hier ter tafel brengt. Als je serieus met big data aan de slag gaat, dan is privacy een belangrijke factor waar je vanaf het begin rekening mee moet houden. Ook lijkt het me niet zo vreemd (in tegenstelling tot Henri?) dat je meteen met pasklare antwoorden komt.

Zonder verkapt reclame te maken, wil ik graag opmerken dat wij (CGI) ons serieus op dit onderwerp aan het bezinnen zijn.

Log in om te reageren
Jan van Leeuwen schreef:

26 februari 2014 om 17:23

De ziekelijke verzamelwoede van vandaag de dag zal in de toekomst hoofdschuddend worden bekeken.
Nu leidt het tot steeds meer mensen die dit niet meer willen en protesteren of zich afkeren, en terecht.
Het ene na het andere datalek wordt ontdekt, wie vertrouwt dan nog zoiets als “big data”?
De mens heeft van nature een vrije ruimte nodig en die verdwijnt steeds meer, dat zal op den duur gevolgen hebben.

Log in om te reageren
NumoQuest schreef:

26 februari 2014 om 21:41

Je zou je natuurlijk ook gewoon bewust kunnen worden en blijven dat je persoonlijke data in het openbare domein niet meer zo privé is als je dacht. Datzelfde geld ook voor die puber die aan haar vriendje een saillant plaatje apt waarvan de klas na het uitgaan van de relatie van mag genieten.

Dagelijks zijn er ‘persoonlijke schendingen’ waar te nemen waar de wetgevende macht en de rechterlijke macht, hopeloos op achter loopt. Sterker nog, de Nederlandse wetgevers verkrachten uw en mijn persoonlijke integeriteit door persoonlijke data van u en mij ter beschikking te stellen van de VS of Brussel. Een kniesoor die daar op let.

Feitelijk moet je een beetje constateren dat het betoog nu al een non issue is. De Nederlandse wet stelt dat verzekeringsmaatschappijen zich van bepaalde activiteiten dienen te onthouden maar stellen hierbij geen grenzen. Balkenende noemde dit de VOC mentaliteit die hij zo node miste en Rutte bazelt wat over de ‘participatie’ maatschappij. Had ik u beiden al verteld dat een aanzienlijk deel van het inkomen van Balkenende afkomstig is van die verzekeringsmaatschappijen?

Ik ben geneigd Henri te volgen maar nog veel meer te zeggen, Big dat is gelukkig corrupt. Heel erg corrupt. En de bescherming zit hem voor het individu ervoor te zorgen dat die data steeds corrupter word. Immers, als we kunnen stellen dat minstens 40% van Big Data corrupt is, dan is 40% van mijn persoonlijke data corrupt. Dat betekend, wil iemand iets doen met mijn persoonlijke data, die uit zal moeten zoeken welke 40% van mijn persoonlijke data corrupt is. Lees, onbruikbaar, on exploiteerbaar.

Het is zeer eenvoudig mijn persoonlijke data nog veel corrupter te maken. En als iemand daar niets van zegt, maar zijn of haar mening baseert op mijn corrupte data, dat je weet wat je aan die ander heeft.

Het kan allemaal eigenlijk toch zo heel eenvoudig zijn. Bottomline. Je kunt je mee laten trekken in commerciele hype, je kunt je gek laten maken door hersenloze zielen die jou waarschuwen dat Mark Zuckenberg ernstige dingen zal gaan doen met jou data.

Tja… Je hebt als mens gelukkig eenvoudige keuzes.

Log in om te reageren
Ewoud D. schreef:

26 februari 2014 om 22:45

Irvette,

Welkom met je ‘maiden-blog’ maar…..

“Te laat, te laat!” riep Winnetou:”Het … is reeds naar binnen toe.”

Een PIA in combinatie met Big Data in sociale media lijkt me namelijk het paard achter de wagen spannen, doel ervan is juist om zoveel mogelijk te weten te komen aangaande personen om zodoende de producten en diensten erop af te kunnen stemmen. Het lijkt me net zoveel zekerheid in de bescherming van de privacy geven als een boterhamzakje bij geslachtsgemeenschap omdat er net als met BSN, waar belastingdienst deze als BTW-nummer voor eenmanszaken gebruikt, gewoon een te groot risico voor scopecreep.

En hoewel de WBP vrij helder is aangaande de rechten en plichten met verzamelde persoonsgegevens is het onze eigen overheid – zoals CBP al meermaals gerapporteerd heeft – die zich niet aan de wet houdt. Nu is privacy is uiteindelijk een subjectief begrip, wat de één als inbreuk op zijn levenssfeer beschouwd ziet een ander als een onschuldig stukje data maar als ik kijk hoe lichtzinnig over Call Detail Records gedacht wordt stemt ook niet hoopvol. Een PIA is uiteindelijk niet meer dan een intentieverklaring, vaak al even snel vergeten als verkiezingsbeloften wanneer het economisch slechter gaat.

Log in om te reageren
Johan Duinkerken schreef:

27 februari 2014 om 08:38

Gaan we zoiets als dit ook in Nederland zien?
http://www.privacynieuws.nl/nieuwsoverzicht/databases/epd/12320-britse-nhs-verkoopt-patientendossiers-aan-verzekeraar-update-over-de-gevolgen.html

Als u mocht denken dat het hier niet zo’n vaart loopt een quote van een gebruiker (id)init van tweakers.net die heel toepasselijk is.

“Bij de invoering van het sofinummer werd toegezegd dat het uitsluitend door de belastingdienst gebruikt zou worden. Tegenwoordig wordt het overal voor gebruikt en staat op identiteitspassen, rijbewijs enz.

Bij de invoering van de DNA databank zou er alleen DNA in komen te staan van veroordeelden van zware misdrijven, tegenwoordig kan er van iedere verdachte DNA worden afgenomen.

Bij de introductie van ANPR werd toegezegd dat de verzamelde gegevens niet langer dan 3 maanden bewaard zouden worden, verschillende politie korpsen hebben deze regel overtreden, inmiddels ligt er een wetsvoorstel om de gegevens langer te kunnen bewaren.

Belastingdienst verstrekt inkomens gegevens aan verhuurders van woonhuizen, ons is altijd voorgehouden dat de belastingdienst dit nooit zou doen.”

Big Data en feature creep zijn dusdanig met elkaar vervlochten dat je mag concluderen dat het wachten is op de zoveelste overtreding van vooraf gemaakte afspraken en/of wetgeving. Wat dat betreft heeft wollig taalgebruik en een afwachtende houding geen enkel effect want deze ‘vooruitgang’ is eenvoudig weg niet meer te stoppen omdat de ‘powers that be’ dit niet wensen.

Er zijn al diverse mensen die de conclusie hebben getrokken dat privacy al lang ten grave is gedragen. Maar misschien zijn ze zich er niet geheel van bewust dat privacy ook een hele belangrijke hoeksteen van onze democratisch samenleving is. Dus mogen wij nu concluderen dat de democratie ook passé is?
Gezien de geschatte opkomst van de aankomende verkiezingen beneden de 50% ligt zou kunnen beredeneren dat velen die conclusie al getrokken hebben.

Log in om te reageren
Jeroen van Yperen schreef:

27 februari 2014 om 11:24

Beste Irvette,

Als ik jouw bijdrage lees krijg ik het idee dat je dit geschreven hebt vanuit de context dat Big Data altijd gaat over verwerking van persoonlijke gegevens. Ik lees dat sterk terug in jouw zin” Maar de grootste uitdaging van big data is wel het brengen van een balans tussen enerzijds de publieke belangen zoals nationale veiligheid …, gezondheidszorg …, onderwijs en milieu en anderzijds publieke en persoonlijke belangen als privacy”.
Als dit jouw referentiekader is, is jouw aandacht voor het naleven van de wet bescherming persoonsgegevens juist.

Ook bevestigd het mijn beeld dat jouw big data hoeft niet gelijk te zijn aan mijn big data. Wat bedoel ik hiermee: big data is de verzamelnaam van het verwerken van gegevens, sneller, efficiënter, goedkoper, en nog meer ~er varianten op bestaande gegevensverzamelingen. Het is per organisatie sterk verschillend welke data verwerkt en geanalyseerd wordt.

Big data voor transactionele gegevens verrijkt het (veelal bestaande) business analytics proces, niet de set aan gegevens. Een analyse op een artikelbestand van een b2b organisatie wordt niet verrijkt met persoonlijke gegevens als die niet beschikbaar zijn. De huidige kwaliteitsanalyse in een ziekenhuis kan sneller. Binnen een half uur in plaats van een hele nacht. En binnen deze organisatie is men zich al bewust van de gevoeligheid van gegevens. Een verbetering in een proces, middels Big Data apparatuur en programmatuur (apparatuur en programmatuur die bestaande processen dus sneller, goedkoper etc..), hoeft geen verdere negatieve consequenties te hebben voor het al respecteren van privacy gevoelige informatie.

Als je Big Data inzet op social data, de op internet geplaatste data van vele individuelen, heb je te maken van informatie die met toestemming van de gebruikers wordt geplaatst. En ja, ik ben het op voorhand met je eens dat de terms & conditions van de vele apps niet voor iedereen goed te doorgronden zijn. Maar in beginsel stemt men toe in het beschikbaar stellen van je gegevens. Het veranderen van communicatie is een feit. Bedrijven, groot en klein, volgen deze communicatiestromen in social media en reageren erop. Knelt dit met het respecteren van privacy? Als je in een negatieve tweet ook hashtag bedrijf opneemt, is dat als een cc in een mail, of een brief naar een antwoordnummer.
Het op grote schaal scannen van social media met het doel onze nationale veiligheid te verhogen gebeurt vanuit de overheid. Is deze aanpak exclusief voor social data?. Neen! Een zelfde aanpak gebeurt bij douane activiteiten. Pakketten worden gecontroleerd op verdachte inhoud. Afgelopen december zag ik op het journaal dat een grote pakketverwerker pakketten controleert op vuurwerk. Ook in het kader van veiligheid. Worden hiermee vele privacy regels geschonden? Neen, wel wordt de veiligheid verhoogd.

Bij sensorische data (streaming data) worden zeer grote hoeveelheden informatie verwerkt. Is dit ook direct gekoppeld aan privacy gevoelige informatie? Neen. Er zijn zeer voor industriële processen waarbij al heel lang sensoren gebruikt worden. De automotive, CV ketel branche, KNMI, energiemarkt, onderzoekinstellingen ontdekken de kracht van het Internet Of Things. De koppeling van sensoren aan het web. Hiermee kan je een kwantitatief onderzoek uitvoeren die een kwalitatief onderzoek sterk kan ondersteunen. Is dat direct gekoppeld aan het verwerven van persoonsgegevens? Neen. Moet je opletten voor het verzamelen van persoonsinformatie? Jazeker!

Dus jouw relatie dat Big Data gaat over privacy gevoelige informatie en daarmee het gevaar voor een individu komt suggestief over. Dat benadruk je sterk door je stelling : “Niet alleen blijkt anonimiseren in veel gevallen terug te draaien, binnen de context van big data kan de-anonimiseren juist noodzakelijk zijn ter waarborging van de integriteit van de gegevens op basis waarvan middels correlaties besluiten worden genomen”.

Jouw conclusie over privacy by design kan ik mij volledig herkennen. En volgens mij de andere reageerders op het artikel ook. Laat dit van toepassing zijn op alle dataverzamelingen waarbij persoonsgegevens gemoeid zijn: small data, medium data of big data. Any kind of data.

Log in om te reageren