Data is steeds interessanter aan het worden. Op basis van data kunnen analyses gedaan worden naar gedrag. Gedrag van mensen, systemen, eigenlijk alles waar maar data over verzameld kan worden.
De uitdaging was altijd het opslaan van deze grote hoeveelheid data en het ‘zoekbaar’ maken van deze data. Men is altijd gewend geweest met databases te werken en daar zoekopdrachten (queries) op uit te voeren, maar deze databases (bijvoorbeeld SQL gebaseerd) zijn altijd gevuld met gestructureerde data, data met een vast patroon (datamodel). Met big data wordt alles opgeslagen, of het nou gestructureerd is (bijv. log data) of totaal niet gestructureerd (netwerk verkeer, video, afbeeldingen). Dit gebeurd dan ook nog eens in grote hoeveelheden en over een lange tijd zodat trends en afwijkingen op gedrag inzichtelijk gemaakt kunnen worden. Het idee is ‘laten we alles maar opslaan want wie weet wat we er mee kunnen’.
Om big data mogelijk te maken is dus opslagcapaciteit nodig. Deze moet geschikt zijn om allerlei soorten data op te slaan, maar belangrijker: moet het mogelijk maken om de data snel te kunnen raadplegen om te gebruiken in analyses. Voor analyse moet de enorme hoeveelheid opgeslagen data gequeried kunnen worden en het antwoord op de query mag niet te lang op zich laten wachten. Hiervoor wordt op het storageplatform software gebruikt die het mogelijk maak dit te doen (voorbeelden hiervan zijn MapR in combinatie met Hadoop).
In cyber security is big data belangrijk voor SOC-omgevingen. Alleen de meta data van netwerk verkeer is niet meer zo interessant, het is interessant om te weten wat er in het volledige netwerk pakket zat, welke applicatie, welke bestanden er getransporteerd zijn et cetera. Met big data security analytics-oplossingen, die steeds meer in het veld te zien zijn, kan dit gedaan worden: grote hoeveelheden netwerk verkeer worden centraal opgeslagen op speciale hardware met een eigen besturingssysteem en analyse-omgeving, zodat de opgeslagen data doorzocht kan worden (bijvoorbeeld op aanvraag vanuit een Security Information & Event Management (SIEM) systeem).
Waarom het interessant is om big data security analytics toe te passen? Het kan veel meer context geven aan een (mogelijke) bedreiging door aan te tonen wat er precies gebeurd is: wie, wat, waar vandaan en wat is er aan data gefiltreerd.
Gebruik van big data is zeer helpvol maar in de praktijk is het lastig om het juist toe te passen zonder dat de integriteit van individuele mensen geschonden wordt. Bruce Schneir legt dit heel duidelijk uit:
https://www.youtube.com/watch?v=GhWJTWUvc7E
@Peter: Goede aanvulling, dank daarvoor! Bij dit soort oplossing is het altijd belangrijk te weten hoe ver de data gaat (wat is er zichtbaar) en wat de ‘operator’ te zien krijgt. Vaak wordt er in de praktijk uitgegaan van het principe dat de gegevens waar je het over hebt alleen in te zien zijn door twee verschillende mensen/rollen, oftewel, het moet noodzakelijk geacht worden om de integriteit te schenden…
Ik ben op zoek naar een overzicht van wettelijke bepalen van o.a.
Bewaarduur: bv Personeelsdossier, Medisch dossier, Bwakingscamera’s gegevens, Kentekens gescand door de politie, Klantgegevens door bedrijf, Internetgegevens, Belgegevens
Track&Trace / Traceerbeerheid / Aanwezigheid : bv OV-chipkaart, Mobiel, Slimme meter, bewakingspoortjes
Gegevensleveringen: bv bank, (zorg)verzekeraar, werkgever of de overheid (politie, justitie, belasting, uwv) of provider, marktplaats
Waar is een dergelijk overzicht te vinden?