De toenemende digitale transformatie betekent dat data op meer plaatsen, sneller en op grotere schaal moeten worden beschermd. Het is in het huidige, snelle digitale landschap echter bijzonder lastig om kritische cyberdreigingen te detecteren en erop te reageren als je het onderzoek niet kunt versnellen.
Dat is waar datawetenschappen om de hoek komen kijken. Als ze op de juiste manier worden toegepast, helpen ze ons om betrouwbare beveiligingsanalyses te ontwikkelen. Hiermee kunnen de teams die zich bezighouden met het oplossen van beveiligingsproblemen sneller en nauwkeuriger waarschuwen voor de serieus schadelijke situaties.
Begrijpen hoe datawetenschap wordt toegepast, begint met drie vragen: hoeveel data hebben we, kunnen we het gelabeld krijgen, en wat is het doel?
Data en labelen
Laten we beginnen met data. Elk security-team beschikt erover. Er zijn logs, siem (scurity information & event management) en cloud buckets. Dat zijn allemaal geweldige vormen van data, maar zijn ze aan te wenden voor geavanceerde analyses? Ja en nee. Big data of data lake-oplossingen zijn verschillend. Een stukje data – zoals een event log of een waarschuwing – moet misschien wel meerdere keren op meerdere manieren worden opgeslagen. Hierdoor zijn de data in de volgende stappen te gebruiken.
De volgende stap – een kritische – is het labelen. Algoritmes kunnen met elk type data werken als ze weten welke data ze kunnen verwachten. Een willekeurig stukje data begrijpen, kost veel tijd en moeite en is op schaal niet uitvoerbaar. Allereerst moeten data zodanig worden opgeslagen dat deze op de juiste manier is te gebruiken. Door de data vervolgens te labelen, maken we creatieve algoritmes mogelijk. Hoe de data moeten worden gelabeld, is een kwestie van security-ervaring. Er moet bijvoorbeeld worden gekeken naar ‘goed en slecht’, ‘specifieke datavelden’, en of ‘het binair is’.
Doel
Het derde onderdeel van het oplossen van problemen is een doel. De meesten zouden zeggen dat het doel is om de slechteriken te stoppen, maar het is specifieker dan dat. ‘Doelstellingen’ moeten in dit verband ook voortkomen uit praktijkinzichten van experts die zowel verstand hebben van security operations als van hoe een dreiging zich gedraagt. Of meer specifiek van de tools, technieken en procedures van een aanvaller. Door te begrijpen hoe aanvallers werken, kunnen we ook specifiekere inzichten krijgen.
Een voorbeeld. We weten dat een aanvaller liever de inloggegevens van legitieme gebruikers steelt en gebruikt. Nu kunnen we een belangrijk doel opstellen, zoals: identificeer inloggegevens die misschien zijn gestolen. Het volgende niveau is: wat zijn de verschillende manieren om te bepalen of iemands inloggegevens zijn gestolen? We weten dat er methoden A, B en C zijn. De volgende stap is om elke methode te definiëren en ervoor te zorgen dat de data die nodig zijn voor elke methode worden verzameld, gelabeld en geoptimaliseerd voor het gebruik van de algoritmes. De resultaten van al deze methoden worden verzameld en geanalyseerd om te bepalen welke methode het meest nauwkeurig is.
Wanneer analisten hun onderzoek beginnen met de context die ze nodig hebben om actie te ondernemen en het bedrijf te beschermen, weet je dat je security-team beschikt over de juiste balans van kunstmatige én menselijke intelligentie.