Big data en veiligheid lijken op gespannen voet te staan met elkaar. Ikzelf heb ook wel eens een uitspraak gedaan over de uitdagingen die nog te nemen zijn voordat persoonlijke data gebruikt kunnen worden in big data toepassingen. In deze blog toch een poging een alternatief inzicht te bieden.
Bij veiligheid van data en informatie wordt vaak als eerste gedacht aan diefstal van die data en informatie en het voorkomen daarvan. Daarmee gaan we voorbij aan de mate van “big” in big data. We moeten beseffen dat we het niet hebben over data die nog in een Excel bestand past, of in een reguliere database. Bij big data hebben we het over data die zo omvangrijk is dat je een vehikel nodig hebt zoals een netwerk, het Internet of iets anders van deze omvang. Daarmee is diefstal van big data geen houdbaar concept. Je ‘steelt’ ook niet het Internet…
Dit is overigens niet alleen maar een definitie-trucje om uit te leggen dat we niet zo moeilijk moeten doen over big data en veiligheid. Het is wel een statement dat veel uitspraken over veiligheid en big data niet bij big data horen, maar veel meer gaan over de bestaande uitdagingen in data beveiliging.
Big data is dus intrinsiek veilig, juist omdat het zo big is… Je steelt de Eiffeltoren ook niet zomaar.
Er is nog een reden waarom big data een intrinsieke veiligheid heeft. Vanwege de omvang van big data, is het onmogelijk om die data in een applicatie te stoppen. De eeuwige discussie over centralisatie versus decentralisatie, SBC/VDI versus fat clients, et cetera, komt in een ander licht te staan met big data. De apps moeten naar de data omdat de data niet meer naar de apps kan. Daarmee is de virtuele ‘afkadering’ van big data intrinsiek afgedwongen. Als er sprake is van data die “weglekt” via een app, dan kan dat “slechts” een klein deel van de data zijn. De impact van een lek is daarmee met grote mate van zekerheid klein.
Tot nu toe heb ik alleen over ‘data’ gesproken en niet over ‘informatie’. Dat is geen toeval. Veiligheid van data staat of valt met de potentiële informatie die je er uit kan halen. Informatie is op heel veel manieren te ‘stelen’. Het leuke van big data is dat er een reden is waarom je deze data bij elkaar brengt: het geeft je de mogelijkheid om real time informatie te destilleren uit grote hoeveelheden data. Dat real time aspect is cruciaal voor vele toepassingen. Als je namelijk alle tijd van de wereld hebt, hoef je de data namelijk niet bij elkaar te brengen. Dan kun je beter door alle individuele data systemen heen akkeren en dan krijg je over een tijdje precies de juiste informatie. Een essentieel aspect van big data is, dat de informatie die je er uit wil halen, real time beschikbaar moet zijn. Je wil namelijk nu weten waar iemand is en of je hem in zijn huidige situatie nog wat kan verkopen. Je wil namelijk nu weten of er de komende uren iemand ergens een aanslag wil plegen. Je wil namelijk nu weten of je iemand een andere route moet laten rijden om een verkeersopstopping te vermijden.
Nu hoor ik u vragen hoe dat dan zit met bijvoorbeeld credit card gegevens; daarvoor zou je best even de tijd uit kunnen nemen om de data om te zetten in informatie. Neem de tijd en uiteindelijk kun je rijk worden met boevenpraktijken. Maar nogmaals: Dat heeft niets met big data te maken. Als je credit card gegevens wil hebben, moet je daar nu ook al een systeem voor kraken. Het is lastig maar wel mogelijk en het heeft niets met big data te maken. Misschien zijn credit card gegevens in een big data context wel beter verborgen en daarmee ook beter beveiligd dan in een legacy systeem.
En dat brengt mij bij mijn laatste argument waarom big data intrinsiek veilig is… De allergrootste uitdaging in het big data domein is kennis en vaardigheden. De uitdaging is namelijk hoe je een speld uit een hooiberg haalt in een fractie van een seconde. Dat vergt een heel nieuwe manier van denken. Het menselijk brein is niet gebouwd voor dit soort inzichten. De systemen die we ontwikkelen om real time de spelden te vinden, zullen een grote mate van kunstmatige intelligentie hebben die uiteindelijk wel de informatie produceren die we nodig hebben, maar die we niet noodzakelijkerwijs terug kunnen leiden naar de oorspronkelijke data.
Kortom: ik als klant ben graag bereid mijn data toe te vertrouwen aan de big data omgeving. Ik besef namelijk dat ik daar als klant uiteindelijk een heel persoonlijke dienstverlening uit zal krijgen.
Ter afsluiting: Ooit was er iemand die alle persoonlijke data van alle mensen wilde stelen. Het plan was om iedereen te dwingen deze data in te leveren. Deze zogenaamde ’torture’-strategie was niet succesvol en de initiatiefnemer werd voor lange tijd opgesloten… Iemand anders vond de social netwerken uit…
big data. big hack?
Wat mij betreft toont dit artikel een hemeltergende naïviteit als het gaat om privacy en identiteits riciso’s die slecht beveiligde (big) data met zich meebrengen. De auterur is blijven steken in de tijd van de mainframe als hij bijvoorbeeld stelt dat de data niet in een applicatie past en dus geen riciso genereert.
Kwaadwillenden, wie dan ook, hoeven niet in een fractie van een seconde antwoord – ze hebben de tijd en capaciteit om gerichte profielen te genereren uit data en daarme te doen wat ze goeddunkt.
Typisch geval van “Security by Obscurity”..
Big data zelf heeft geen waarde. Het gaat erom wie er informatie uit kan halen. Als je het open zet, zullen criminelen veel eerder de juiste queries uitvoeren dan de legitieme gebruikers.
@Technicus: Mee eens dat data zelf geen waarde heeft. Zoals ik aan geef in het artikel: “Veiligheid van data staat of valt met de potentiële informatie die je er uit kan halen”. Het gaat er dus inderdaad om wie er informatie uit kan halen en wie de data open zet. M.i. zijn we als eindgebruikers voor een groot deel zelf verantwoordelijk voor het open zetten. Zoals ik ook richting Henri aangaf: We accorderen veelal blindelings allerlei voorwaarden voor toepassingen die vervolgens daarmee toegang krijgen tot meer data dan nodig is voor betreffende toepassing. Daarmee zetten we zelf de deur open.
@Willem: Je spreekt in je reactie over “slecht beveiligde (big) data”. In het artikel wordt niet gepropageerd dat we data (al dan niet big) moeten open zetten. Sterker nog: Zoals ook aangegeven richting Technicus en Henri: Het open zetten van onze privacy gevoelige data doen we vaak zelf en daarmee maken we het criminelen natuurlijk wel heel erg makkelijk. En dat heeft dus niet zoveel te maken met big data. Een server buiten een DMZ op een goed bereikbare plek in je netwerk hangen is ook een slecht idee. Het verschil tussen beiden wordt bepaald door kans en impact.
@Reza: Ik zou de definitie kwestie van big data het liefst achterwege laten, juist omdat er zoveel variaties van in omloop zijn. Maar toch…. laat ik dan de definitie van Wikipedia pakken, voor wat die waard mag zijn: “big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications”.
Op basis daarvan ben ik het dus met je eens dat complexiteit en diversiteit absoluut intrinsieke eigenschappen van big data zijn. En daarnaast lees ik toch ook dat omvang van de data en de relatie met toepassingen, echt intrinsieke eigenschappen van big data zijn. En dat zijn de eigenschappen waar ik in het artikel nader op in ga.
Dat nu vastgesteld hebbende, ga ik even terug naar de titel van het artikel “big data is intrinsiek veilig”. Ik suggereer daarmee dat de intrinsieke eigenschappen van big data (dus o.a. de door jou genoemde complexiteit, diversiteit, en ook de door mij genoemde omvang en relatie met toepassingen) eigenschappen zijn die de veiligheid ten goede komen. Mijn mening is, op basis van de voorbeelden die ik in het artikel aangeef, dat dit een houdbare gedachte is. En zoals ik in de inleiding van het artikel aangeef vooral een “alternatief inzicht” is ten opzichte van wat je veelal rondom dit onderwerp hoort.
Als je vervolgens kijkt naar de reacties op het artikel dan gaan veel reacties over de beveiliging van de omgeving waarin big data wordt gebruikt en wat een crimineel allemaal voor schade aan kan richten als hij toegang heeft tot die omgeving. Prima natuurlijk, maar dat zegt niet zoveel over de intrinsieke eigenschappen van big data. Dat zegt naar mijn bescheiden mening wel iets over het gedrag van mensen die naief toestemming geven aan anderen om vanuit een (min of meer beveiligde) smartphone zomaar alle contact informatie te doorzoeken. Het zegt ook iets over het belang van het beveiligen van data (al dan niet big). Het zegt niets over de onveiligheid van big data. En daarmee denk ik het belangrijkste punt wel gemaakt te hebben. De onveiligheid wordt niet veroorzaakt door de data en haar intrinsieke eigenschappen, maar veel meer door de informatie die er uit te halen is, de manier waarop de omgeving beveiligd wordt en bovenal het gebrek aan awareness van gebruikers die zelf toegang geven tot hun “schatkist” zoals Henri Koppen in zijn tweede reactie aangeeft.
John,
Wat voor jou en mij complex en te divers is kan voor een crimineel (met de juiste tool en kennis) zeer overzichtelijk zijn. Daarom vind ik dat de door jou benoemde intrinsieke eigenschappen geen relatie hebben met dit onderwerp (veiligheid)
Voor de rest, ik kan je niet na het lezen van je reactie volgen! Je reactie (op mijn reactie) zie ik niet in lijn met de inhoud van je artikel. Ik ben de samenhang kwijt!
“Big data is dus intrinsiek veilig, juist omdat het zo big is.”
“Veiligheid van data staat of valt met de potentiële informatie die je er uit kan halen.”
Predicatenlogica: Er valt geen potentiele informatie uit big data te halen.