Bijna een derde van de 5500 meldingen van datalekken die de Autoriteit Persoonsgegevens in 2016 ontving, komt uit de zorgsector. Zorgelijk, omdat het gaat om zeer privacygevoelige informatie. Datalekken voorkomen doe je door data te beveiligen, versleutelen of anonimiseren. Maar ook door goed te kijken hoe je als zorgorganisatie met deze gegevens omgaat. Hoe zorg je dat het niet mis gaat en waarom bestaat er geen perfecte methode voor?
Volgens de Wet bescherming persoonsgegevens en de Europese Algemene Verordening Gegevensverwerking (AVG), die per 25 mei 2018 van kracht wordt, mogen persoonsgegevens niet gebruikt worden voor andere doeleinden dan waarvoor deze gegevens zijn verstrekt. Onderzoek-, test- en ontwikkelactiviteiten mogen onder de nieuwe wet niet meer plaatsvinden op persoonsgegevens die te herleiden zijn naar een fysiek persoon. Dit geldt niet alleen voor de gegevens van patiënten of cliënten, maar ook voor de persoonsgegevens van jouw werknemers. Het is dus van belang om privacygevoelige data die in niet-productiesystemen opgeslagen staan onherleidbaar te anonimiseren als je deze wilt gebruiken.
Data anonimiseren versus pseudonimiseren
Er zijn twee technieken die hierbij vaak genoemd worden: pseudonimiseren en anonimiseren. Maar wat is nu eigenlijk het verschil? Bij pseudonimiseren kunnen persoonsgegevens nog ontsleuteld en leesbaar gemaakt worden. Anonimisering is onomkeerbaar. Dat betekent dat geanonimiseerde gegevens niet meer te herleiden zijn tot individuen en er geen methode is om het geanonimiseerd resultaat terug te zetten naar de originele waardes. Hierbij blijft de data wel geschikt voor onderzoek en het ontwikkelen en testen van applicaties.
Door de data te anonimiseren, loopt je niet het risico dat gebruikers zonder autorisatie bij privacygevoelige gegevens kunnen. Bijvoorbeeld wanneer (externe) projectmedewerkers bezig zijn met een nieuwe inrichting van je epd op een testomgeving en hiervoor realistische data willen gebruiken.
Data anonimiseren: hoe doe je dat?
Data volledig anonimiseren is een hele uitdaging. Er is namelijk niet één enkele methode die voldoet aan alle eisen die de AVG stelt aan anonimisering. Vaak moet data dus geanonimiseerd worden door een combinatie van verschillende anonimiseermethodes.
Zo kun je bijvoorbeeld alle voornamen in je database vervangen door één vaste waarde, zoals ‘Jan’. Door data te generaliseren zoals in het voorbeeld, zijn individuele personen niet meer te herleiden. Toch is het vaak geen optie om alles te generaliseren. Ga maar eens na: als alle gegevens identiek zijn, kun je mogelijk niet alle functionaliteiten in je testomgeving goed testen.
Een ander veelvoorkomende methode is alle niet-geanonimiseerde data vervangen door een voorgedefinieerde dataset. Hoewel dit een goede oplossing lijkt, is deze vaak erg complex om in te richten. Zo moet je veel tijd steken in het opbouwen van de geanonimiseerde testdataset, zodat deze zo waarheidsgetrouw mogelijk is. Daarnaast moet je uiteraard goed op de hoogte zijn waar en hoe je data opgeslagen wordt. Geen gemakkelijke klus als je epd uit vele terabytes aan data bestaat.
Niet één methode is perfect
Zoals je aan deze twee voorbeelden kunt zien is niet één methode perfect, maar er zijn meerdere anonimiseertechnieken beschikbaar waaronder verwijderen, vervangen en husselen. De uitdaging is om volledige, onherleidbare anonimisering van data te bereiken, maar belangrijker is om eerst te bepalen met welke methode dit bereikt kan worden en welke methode gebruikt kan worden op welke data. Daarnaast moet je anonimisering ook als een continu proces inrichten, door het bijvoorbeeld mogelijk te maken om data die niet geanonimiseerd is te melden. Zo kan deze data alsnog meegenomen worden in de anonimisering.
Enrico van de Laar, productmanager hosting services bij PinkRoccade Healthcare