Big data en veiligheid lijken op gespannen voet te staan met elkaar. Ikzelf heb ook wel eens een uitspraak gedaan over de uitdagingen die nog te nemen zijn voordat persoonlijke data gebruikt kunnen worden in big data toepassingen. In deze blog toch een poging een alternatief inzicht te bieden.
Bij veiligheid van data en informatie wordt vaak als eerste gedacht aan diefstal van die data en informatie en het voorkomen daarvan. Daarmee gaan we voorbij aan de mate van “big” in big data. We moeten beseffen dat we het niet hebben over data die nog in een Excel bestand past, of in een reguliere database. Bij big data hebben we het over data die zo omvangrijk is dat je een vehikel nodig hebt zoals een netwerk, het Internet of iets anders van deze omvang. Daarmee is diefstal van big data geen houdbaar concept. Je ‘steelt’ ook niet het Internet…
Dit is overigens niet alleen maar een definitie-trucje om uit te leggen dat we niet zo moeilijk moeten doen over big data en veiligheid. Het is wel een statement dat veel uitspraken over veiligheid en big data niet bij big data horen, maar veel meer gaan over de bestaande uitdagingen in data beveiliging.
Big data is dus intrinsiek veilig, juist omdat het zo big is… Je steelt de Eiffeltoren ook niet zomaar.
Er is nog een reden waarom big data een intrinsieke veiligheid heeft. Vanwege de omvang van big data, is het onmogelijk om die data in een applicatie te stoppen. De eeuwige discussie over centralisatie versus decentralisatie, SBC/VDI versus fat clients, et cetera, komt in een ander licht te staan met big data. De apps moeten naar de data omdat de data niet meer naar de apps kan. Daarmee is de virtuele ‘afkadering’ van big data intrinsiek afgedwongen. Als er sprake is van data die “weglekt” via een app, dan kan dat “slechts” een klein deel van de data zijn. De impact van een lek is daarmee met grote mate van zekerheid klein.
Tot nu toe heb ik alleen over ‘data’ gesproken en niet over ‘informatie’. Dat is geen toeval. Veiligheid van data staat of valt met de potentiële informatie die je er uit kan halen. Informatie is op heel veel manieren te ‘stelen’. Het leuke van big data is dat er een reden is waarom je deze data bij elkaar brengt: het geeft je de mogelijkheid om real time informatie te destilleren uit grote hoeveelheden data. Dat real time aspect is cruciaal voor vele toepassingen. Als je namelijk alle tijd van de wereld hebt, hoef je de data namelijk niet bij elkaar te brengen. Dan kun je beter door alle individuele data systemen heen akkeren en dan krijg je over een tijdje precies de juiste informatie. Een essentieel aspect van big data is, dat de informatie die je er uit wil halen, real time beschikbaar moet zijn. Je wil namelijk nu weten waar iemand is en of je hem in zijn huidige situatie nog wat kan verkopen. Je wil namelijk nu weten of er de komende uren iemand ergens een aanslag wil plegen. Je wil namelijk nu weten of je iemand een andere route moet laten rijden om een verkeersopstopping te vermijden.
Nu hoor ik u vragen hoe dat dan zit met bijvoorbeeld credit card gegevens; daarvoor zou je best even de tijd uit kunnen nemen om de data om te zetten in informatie. Neem de tijd en uiteindelijk kun je rijk worden met boevenpraktijken. Maar nogmaals: Dat heeft niets met big data te maken. Als je credit card gegevens wil hebben, moet je daar nu ook al een systeem voor kraken. Het is lastig maar wel mogelijk en het heeft niets met big data te maken. Misschien zijn credit card gegevens in een big data context wel beter verborgen en daarmee ook beter beveiligd dan in een legacy systeem.
En dat brengt mij bij mijn laatste argument waarom big data intrinsiek veilig is… De allergrootste uitdaging in het big data domein is kennis en vaardigheden. De uitdaging is namelijk hoe je een speld uit een hooiberg haalt in een fractie van een seconde. Dat vergt een heel nieuwe manier van denken. Het menselijk brein is niet gebouwd voor dit soort inzichten. De systemen die we ontwikkelen om real time de spelden te vinden, zullen een grote mate van kunstmatige intelligentie hebben die uiteindelijk wel de informatie produceren die we nodig hebben, maar die we niet noodzakelijkerwijs terug kunnen leiden naar de oorspronkelijke data.
Kortom: ik als klant ben graag bereid mijn data toe te vertrouwen aan de big data omgeving. Ik besef namelijk dat ik daar als klant uiteindelijk een heel persoonlijke dienstverlening uit zal krijgen.
Ter afsluiting: Ooit was er iemand die alle persoonlijke data van alle mensen wilde stelen. Het plan was om iedereen te dwingen deze data in te leveren. Deze zogenaamde ’torture’-strategie was niet succesvol en de initiatiefnemer werd voor lange tijd opgesloten… Iemand anders vond de social netwerken uit…
@John: als ik je argumentatie goed interpreteer, noem je Big Data veilig ‘omdat het niet in zijn geheel’ te stelen is. Maar stel je kunt er wel bij, dan is het begrip ‘inherent veilig’ eigenlijk niet zoveel waard. Want als een buitenstaander zijn analyses er op los kan laten, wordt geen ‘data’ gestolen, maar wel ‘informatie’.
Ik zou de titel daarom willen wijzigen in: ‘Big Data maakt informatie inherent onveilig’.
Wel een interessante gedachte met nieuwe perspectieven! Dus als we bijvoorbeeld de juwelen van alle Nederlanders samen in 1 kluis stoppen, dan is het daar ook intrinsiek veilig. Niemand is immers in staat om alle juwelen van alle Nederlanders in 1 keer te stelen. En als inbrekers willekeurig wat meenemen is de kans klein dat het net jouw juwelen zijn…
Leuk om te lezen maar inhoudelijk gewoon troep en hier zou niemand intrinsiek wat mee moeten doen. Dit is gewoon vragen om aandacht, en deze krijg je ook, net als bij je vorige artikel.
Atomen stelen is iets anders dan bits stelen. Grappig genoeg kun je geen bits stelen, hooguit de fysieke drager. Bit stelen (ofwel downloaden) is een vorm van kopieren. Net als dat piraterij geen stelen is maar kopieren al kun je daar wel leuk over discussiëren.
Maar goed, Big Data stelen gebeurt vaak. Social Media zoals Facebook hebben API’s. Door mensen jou “applicatie” rechten te geven mag je dus data opvragen van zo’n profiel. Door een viral (spam) app te maken kon zo zeer veel “Big Data” gestolen worden, en of dat waardevol was! Facebook bestrijdt dit soort initiatieven dus.
Wat nog erger is: Stel dat mensen echt denken dat big data veilig is en het niet beveiligen, dan zullen er boefjes zijn die deze grote verzamelingen gaan koppelen, iets wat dus ook gebeurt bij het “Open Data” initiatief van de overheid.
Zou kun je kadaster gegevens koppelen aan inkomens per postcode om te zien waar inbreken zin heeft. Dit is maar een voorbeeld. Stel iemand vraagt jou een lening, door te checken wie iemand zijn vrienden zijn kun je al een goede inschatting maken of je geld ooit nog terugbetaald wordt.
Met cloud computing kun je heeeeeel hard data slurpen, dit doe je geautomatiseerd. En informatie maken… als het om geld verdienen gaat kunnen mensen zeer creatief worden.
Dus kortom leuk dat je weer de aandacht hebt, maar of je daar nu blij van moet worden…
@Leen: Niet helemaal; het gaat mij vooral om de vraag of het risico op het verkrijgen van informatie groter is als je die probeert te onttrekken uit een big data omgeving dan uit een andere omgeving. Risico is een relatie van impact en kans. Impact kan enorm zijn, maar of de kans dat ook is, is de vraag.
@EarlyBert: Leuke analogie; breng ik niets tegen in.
@Henri: Ik ben het zeker met je eens dat informatie die je uit big data haalt heel erg waardevol is, en zeker op een schadelijke manier gebruikt kan worden. Een groot deel van de gratis apps die je kan dowloaden voor op je smartphone hebben voorwaarden die zowat blind worden geaccepteerd door een gebruiker waarna de app-bouwer je hele telefoon inclusief contact base mag gebruiken…. Maar dat is geen stelen…. We geven met z’n allen heel veel informatie vrijwillig af en die is zeker heel veel waard en zal ook zeker als zodanig worden gebruikt. En de meeste gebruikers zullen dat pas beseffen als het te laat is. Ik blijf in twijfel trekken of de slimmerikken die in staat zijn om ongeoorloofd door big data omgevingen te struinen dat makkelijker doen dan ongeoorloofd dezelfde informatie uit andere omgevingen te halen.
@John, sympathiek dat je reageert aangezien ik minder sympathiek was 🙂
Prikkelt me in ieder geval wel om er wat langer over na te denken. Een paar van deze gedachten:
> Op Microniveau is Big Data vaak minder gevoelige data mits je deze niet direct kan koppelen aan echte mensen want dan heb je een imago risico = niet veilig (en als er geen waardevolle gegevens in staan zoals Credit Card nummer in combinatie met meerdere gegevens)
> Als je maar een klein deel van de data op kan vragen valt hier inderdaad minder informatie uit te halen. Leuk als je wat waarderingen over aankopen kunt vinden, pas als je een grote set hebt kun je hier informatie uit ontlenen die waarde heeft. (+ voorwaarden uit het eerste punt)
> Gebruikers delen al zeer veel informatie publiekelijk pas in grote samenhang of alleen op individueel niveau heeft dit waarde. (in combinatie met punt 1 en 2).
Dus al met al zijn er wel wat dingen voor je verhaal te zeggen al blijf ik erbij dat een grote data verzameling vaak ook je schatkist is en volledige toegang een garantie is dat deze misbruikt gaat worden.
John,
Het zou aan mij liggen maar na 2-3 keer je artikel gelezen te hebben is het me niet duidelijk geworden wat je met dit artikel wilde zeggen!
Tevens zie ik een verschil tussen de definitie van jouw big data en die van andere mensen in andere artikelen.
Big data ontstaat in mijn optiek door twee situaties: 1) verzamelen van informatie die direct geen link en verbinding met elkaar hebben 2) verzamelen van informatie die wel met elkaar gelinkd zijn maar een oerwoud vormen.
In beide gevallen hebben we het niet over de hoeveelheid van data (zoals ik het hier en daar in je artikel lees) maar wel over de complexiteit en diversiteit van data en bronnen waaruit je informatie wil winnen.
Ik weet niet wat je met de volgende zin bedoelde: “Vanwege de omvang van big data, is het onmogelijk om die data in een applicatie te stoppen” Dit klopt naar mijn mening niet.
Een applicatie heeft nooit direct met big data te maken. Tussen een applicatie en big data is meestal een BI-laag. Deze laag zorgt voor presentatie van “informatie” uit big data in de gewenste vorm en formaat aan de applicatie. Dit betekent tevens dat de uitdagingen die je voor big data domein benoemd hebt niet echt meer als uitdaging gezien worden. BI is volop in beweging en ontwikkeling. Dit betekent dat wanneer in de komende jaren de echte big data gevormd is dan hebben we ook verschillende BI-mogelijkheden om dit te bestrijden.
Is big data intrinsiek veilig? Nee, naar mijn mening. Dat komt doordat de “informatie” uit big data toegankelijk kan zijn voor iedereen die beschikking heeft over een BI oplossing.
John,
Inderdaad gaat het niet om de nullen in de digitale hooiberg maar om de enen en het eruit (kunnen) halen hiervan is de worst die ons voorgehouden wordt. De Eiffeltoren die ons verkocht wordt als het gaat om publieke data in allerlei sociale media kanalen.
Stellen dat informatie veilig is in een berg data – hiding in plain sight – klinkt orthodox maar heeft grote overeenkomsten met steganografie. Grap is natuurlijk dat we proberen de geheimen eruit te halen en niet als een paashaas de eieren erin stoppen.
Hoewel data ook te manipuleren is, een kleine wijziging kan al tot andere conclusies leiden. Maar dat komt doordat kennis en vaardigheden tegenwoordig synoniem zijn aan ingeblikt vlees, de kunstmatige intelligentie waar we steeds meer op vertrouwen. Maar Godfried Bomans zei al eens:”Een statisticus waadde vol vertrouwen door een rivier die gemiddeld één meter diep was. Hij verdronk.” Omdat we verdrinken in de data gaan we steeds meer vertrouwen op technologie zoals in sketch van Little Brittain.
ik ken er ook nog eentje :
Zoeken is intrinsiek onzinnig. Zoek je iets dat er al is, dan hoef je het ook niet te zoeken. Zoek je iets dat er niet is, dan hoef je het ook niet te zoeken.