‘Eindelijk een privacyvriendelijke manier om data te benutten.’ Met die woorden presenteert TNO twee modellen voor data-analyse. Het gaat om multi-party computation en federated learning, waarbij alleen de uitkomsten van een data-analyse worden gedeeld en geen privacygevoelige gegevens worden uitgewisseld.
Multi-party computation (mpc) en federated learning zijn volgens TNO kansrijke technieken om data-analyse toepassingen op een privacyvriendelijke manier te ontwerpen. Zowel mpc als en federated learning gaan uit van een scenario waarin meerdere partijen een gezamenlijke berekening of analyse willen uitvoeren op basis van hun eigen en andermans data zonder deze te hoeven delen. Denk aan een ziekenhuis en een zorgverzekeraar met het gezamenlijke doel om zo efficiënt mogelijk de beste zorg te leveren. Om dit te bereiken, hebben ze elkaars informatie nodig over de behandelhistorie van patiënten. De patiëntgegevens die hiervoor geanalyseerd moeten worden zijn echter privacygevoelig en zijn niet zomaar uit te wisselen.
TNO breekt met de nieuwe toepassingen voor data-analyse met de huidige praktijk waarin vaak één partij alle gegevens in handen heeft om waarde te kunnen halen uit data. ‘Deel geen data, maar benut inzichten uit verspreide databronnen terwijl privacy en vertrouwelijkheid gewaarborgd worden’, adviseren de wetenschappers van TNO.
Federated Learning
Federated Learning moet het privacyprobleem oplossen door de analyses naar de data te brengen in plaats van de data naar de analyses. Daarbij worden de analyses ‘opgeknipt’ in kleine deelberekeningen die lokaal zijn uit te voeren door de verschillende partijen. Na het uitvoeren van een berekening worden alleen de (tussen)resultaten met één of meerdere partijen gedeeld. De gevoelige data worden met niemand gedeeld en blijven bij de partij.
TNO: ‘Federated learning maakt het mogelijk op verspreide databases machine learning toe te passen: De algoritmen trainen lokale modellen op de verspreide databases en combineren deze tussenresultaten tot een globaal model. Veelal herhaalt dit trainingsproces zich een aantal keer tot een definitief model is bereikt.’
Die methode onthult wel karakteristieken van de onderliggende databron. Daardoor is er in vergelijking met multi-party computation sprake van een iets zwakkere ‘privacygarantie’. Daar staat dan weer tegenover dat de de methode eenvoudiger toepasbaar is op grotere datasets.
Multi-party computation
Multi-party computation is een verzameling cryptografische technieken die het voor meerdere partijen mogelijk maakt op een gedecentraliseerde manier analyses en berekeningen uit te voeren op gevoelige data. Hierbij worden de privacy en vertrouwelijkheid van de gevoelige input data beschermd. Alleen de uitkomst van de analyse wordt onthuld, de onderliggende data blijven verborgen.
De technologie is in de jaren tachtig van de vorige eeuw binnen de academische wereld ontwikkeld, maar wordt nu pas breed inzetbaar. Sinds 2009 zijn de eerste toepassingen ontstaan door de groeiende beschikbaarheid van rekenkracht.
‘Zelfs terwijl de data te allen tijde versleuteld blijven, kan er mee gerekend worden’, benadrukken de onderzoekers. Daardoor realiseert mpc volgens hen een maximaal haalbare mate van privacy en vertrouwelijkheid doordat alleen de uitkomst van de analyse wordt onthuld. Als nadeel ten opzichte van federated learning wordt genoemd dat mpc over het algemeen meer rekenkracht of een zwaardere communicatie-infrastructuur nodig heeft.
In een whitepaper deelt TNO nog meer details over multi-party computation en federated learning.
Tien tot vijf jaar
Binnen vijf tot tien jaar moeten de genoemde modellen gemeengoed zijn. Ook start TNO binnenkort een eigen spin-off die de modellen voor privacyvriendelijke data-analyse naar de markt moet brengen.
Inmiddels is er al een aantal pilots gestart. Zo kijkt TNO samen met de Rabobank en ABN Amro naar een mpc-model voor de bestrijding van witwassen door criminelen. Daarbij worden criminele geldstromen in kaart gebracht zonder dat de banken privacygevoelige of concurrentiegevoelige data delen. Ze wisselen alleen de uitkomsten van die data-analyses uit,
Ook zijn er toepassingen in de zorg. Een voorbeeld van zo’n federated learning-toepassing is het concept ‘personal health train’. Daarbij wordt op basis van gedistribueerde databronnen zorg op maat geleverd. Dat gebeurt zonder de data centraal te verzamelen. TNO: ‘De data wordt niet naar de analyse gebracht, maar de analyse gaat (als “trein”) via een technische infrastructuur (“rails”) naar de verschillende databronnen (“stations”). Zo is het mogelijk om complexe algoritmes los te laten op data die beheerd worden door verschillende organisaties (bijvoorbeeld ziekenhuizen), zonder dat deze data centraal verzameld hoeven te worden.’
Belemmeringen
TNO roept de overheid en bedrijven op samen te werken aan de ontwikkeling van privacyvriendelijke data-analyse technologieën. ‘Het delen en analyseren van data is essentieel om economische groei te realiseren en maatschappelijke uitdagingen op te lossen. Uit recente analyses blijkt dat de beschikbaarheid en uitwisseling van data kunnen zorgen voor een economische groei van 1,5 procent van het BBP.’
Maar er zijn nog wel wettelijke en commerciële belemmeringen, kwesties rondom privacy en praktische drempels. Per toepassing moet bijvoorbeeld bekeken worden wie verantwoordelijk is voor accesmanagement, sleutelbeheer van de gebruikte encryptie en kwesties als: wie mag welke vragen stellen aan de data?
Ook zal wetgeving en privacyregelgeving hier en daar moeten worden aangepast om dit soort benutting van data in te zetten. Vaak is er niks vastgelegd over toepassingen van data-analyse waarbij meerdere partijen door uitkomsten te delen, individueel meer waarde halen uit gezamenlijke data.
Het signaal dat data privacyvriendelijk benut kunnen worden is in ieder geval afgegeven. Er liggen nu concrete toepassingen om de huidige praktijk waarin data-monopolisten de macht grijpen, aan te pakken.
Personal Health Train was niet voor niets Computable Award 2020 winnaar in in de categorie zorg! https://youtu.be/PVEwoXdOawA?t=3974