Data zijn het nieuwe goud. Maar cruciaal hierbij is dat de data ook veilig zijn te gebruiken. Niet alleen vanwege privacywetgeving zoals de AVG, maar vooral om reputatieschade te voorkomen. Het maskeren van data is een veelgebruikte techniek waarmee data zo bewerkt worden dat de privacy gewaarborgd blijft terwijl de data nog steeds bruikbaar zijn. Dit werkt uitstekend voor data die in een database opgeslagen zitten. Maar hoe zit het dan met data in documenten en dossiers?
Het maskeren van documenten en dossiers was in het verleden een grote uitdaging, omdat deze data ongestructureerd is. Je weet van tevoren niet welke gegevens een document of dossier bevat en je weet ook niet waar ze staan. Dit is een fundamenteel verschil met data in een database. Aan de hand van een datamodel weet je welke gegevens opgeslagen worden en waar ze staan. Het consistent maskeren van die gegevens is dan nog steeds een grote uitdaging, maar dit is al langer mogelijk.
Het maskeren van documenten en dossiers gebeurde eigenlijk altijd handmatig. Gelukkig zijn er langzamerhand oplossingen beschikbaar waarmee ook documenten en dossiers automatisch gemaskeerd worden. Nieuwe technologie maakt het mogelijk om autonoom vast te stellen welke gegevens gevoelig zijn waarna deze onherleidbaar gemaakt worden.
Door dit te combineren met machine learning ontstaat een oplossing die zichzelf aanpast aan de organisatie eigen situatie. Elke organisatie kent natuurlijk begrippen die generiek gezien niet gevoelig zijn, maar binnen de context van de organisatie wel. Denk bijvoorbeeld aan een onschuldig woord zoals ‘studentdecaan’. Op zich is dit geen gevoelig woord dat gemaskeerd zou moeten worden, maar als dit woord wordt gebruikt binnen een kleine school waar maar één studentdecaan werkt, dan is dit wel degelijk gevoelig.
Het maskeren van documenten en dossiers is tegenwoordig steeds beter mogelijk. Als je als organisatie zoekt naar gelijkheden om waarde uit je data te halen – nogmaals, data zijn het nieuwe goud – dan is veilig gebruik van data een groot aandachtspunt. Realiseer je dat negentig procent van alle gegevens in een document of in een dossier zit en zorg dat deze gegevens gemaskeerd worden zodat je ze veilig kunt gebruiken. Doordat de omvang van het aantal documenten exponentieel toeneemt, kun je dit niet langer negeren. Je zult dus actief moeten zoeken naar manieren en oplossingen die jou ondersteunen om documenten op te schonen. Doe je dit niet, dan zijn data geen goud meer maar een loden last.
Auteur: Eric Hoefman, managing partner EntrD
(Dit artikel verscheen eerder in de jaargids Computable 100 van 2021.)
Hoeveel (gevoelige) persoonsgegevens in de documenten zitten kan een ieder zelf ontdekken middels Google want vele rechtspersonen in Nederland publiceren nog altijd hun statuten zonder ‘weglakken’ van gegevens. Verder kun je allerlei documenten op websites vinden waarbij even vergeten is om de persoonsgegevens uit de metadata te halen, veel gemeenten zijn nog altijd slordig hierin omdat ze klakkeloos templates gebruiken. En zo kan ik nog wel even doorgaan omdat de zorg voor privacy veelal bij een ander lijkt te liggen waardoor het uiteindelijk als dweilen met de kraan open is.
Anderzijds is er de Rutte doctrine, het overijverig weglakken van het woord studiedecaan omdat de functie herleidbaar is tot de persoon is jammer voor de persoon als het om een transparantie in de besluitvormingsprocessen gaat. Opmerkelijk vaak wordt privacy namelijk gebruikt om aansprakelijkheid te ontlopen.