Het klinkt vreemd uit de mond van voormalige NSA-topanalisten die tegenwoordig als it-consultants op de markt actief zijn. Maar William Binney en Kirk Wiebe zijn ook klokkenluiders, ooit bij de NSA en nu ‘bij’ big data.
Ver voordat de Amerikaanse inlichtingendienst NSA langs indirecte weg ict-onderaannemer Edward Snowden inhuurde, hadden William Binney en Kirk Wiebe al alarm geslagen over uit de hand gelopen databegeerte. De twee hooggeplaatste experts binnen de NSA hebben na tientallen jaren trouwe dienst aan de noodrem willen trekken. Eerst door intern te waarschuwen en te protesteren. Daarna door klokkenluiders te worden. Bijna vijftien jaar geleden waarschuwden Binney (74) en Wiebe (72) al openlijk voor blinde datahonger. Hun NSA-gerichte waarschuwing toen was specifiek voor het omstreden Trailblazer-project van de Amerikaanse inlichtingendienst. Dat initiatief betrof de ontwikkeling van surveillancemogelijkheden voor grote datanetwerken zoals internet. Binney, Wiebe en ook andere insiders zagen het miljoenen en later miljarden kostende project veel te ver gaan. Niet alleen wat kosten betreft, maar ook wat privacy, effectiviteit en uiteindelijk dus ook veiligheid betreft.
De spionageorganisatie van de VS is desondanks het pad van datagraaien opgegaan. De wereld is jaren later met de neus op dit feit gedrukt door de onthullingen van klokkenluider Snowden, die via consultingfirma Booz Allen Hamilton werkte voor de NSA. De wereldberoemde – annex beruchte – Snowden is zoals gezegd voorgegaan door Binney en Wiebe. Deze twee voormalige NSA-werknemers op respectabele leeftijd weten van geen wijken. Ze blijven waarschuwen, want ze zien dat data nog altijd worden ‘misbruikt’, én dat het veel breder gebeurt. Hun algemene waarschuwing nu is dan ook voor de valkuilen van big data en voor bedrijven in algemene zin. Niet alleen inlichtingendiensten bezwijken voor databegeerte.
De twee data-experts hebben tijdens een recent bezoek aan Nederland hun boodschap uiteengezet aan Computable. Binney en Wiebe zijn uitgenodigd door Brunel IT die grootse plannen met hen deelt en uitvoert. De Nederlandse it-dienstverlener heeft namelijk het onafhankelijke dochterbedrijf Pretty Good Knowledge opgezet waarin Binney en Wiebe hun expertise delen met een team van it’ers en data scientists. De twee voormalige NSA-topmannen komen niet alleen met een waarschuwing tegen de verraderlijke verleiding van big data. De it-consultants komen ook met een oplossing. En die is meer dan een simpel commercieel ‘huur ons in’ of ‘implementeer onze software’. De crux van wat de twee onderscheiden NSA-veteranen brengen, is een andere blik op data: weg met de goudkoorts.
Duiding
‘Data zijn niet nuttig’, weet Wiebe te prikkelen. Hij wijst hiermee data-analyse niet van de hand, maar wil duiding brengen. ‘Data zijn geen informatie, geen actionable informatie.’ Het ware goud zit namelijk niet in data, maar in bruikbare informatie. Dit is een niet onbelangrijke nuance, die nogal eens uit het oog wordt verloren. Bruikbare informatie valt uit data te destilleren, maar dan wel middels een afgewogen combinatie: ‘Metadata maken van content nuttige, bruikbare informatie’, aldus Binney.
Marco Visser, directeur it bij Brunel, voegt toe: ‘Er is geen big data. Er zijn alleen metadata plus content.’ Daar snijdt de Nederlandse topman gelijk de kern aan in de ophef rond de surveillancepraktijken van de NSA, en andere inlichtingendiensten wereldwijd. Informatievergaring door dergelijke partijen is vaak, in elk geval in eerste instantie, gericht op metadata; data óver de data. Dus niet de inhoud (content) van telefoongesprekken, chats, mails en andere communicatievormen. Alleen valt de content wel goed af te leiden uit de context.
Een bekende Amerikaanse cartoon (van Matt Bors) heeft dit belangrijke feit enkele jaren terug al duidelijk gemaakt aan een gewoon krantenlezend publiek. In de cartoon geeft een Amerikaanse politicus tijdens een live-persconferentie de verklaring af dat de NSA slechts metadata opslaat en dat dit geen privacy-schending betekent. ‘Niemand luistert naar uw telefoongesprekken’, stelt het Congreslid gerust. Waarop een NSA-functionaris hem informeert dat de inlichtingendienst ziet dat hij afgelopen vrijdag zijn vrouw heeft gebeld en gelijk daarna een escortservice en een hotel. ‘Natuurlijk kennen we de inhoud van die gesprekken niet.’ Even stilte. En dan: tring, tring. ‘Oh, uw vrouw belt u nu’, vertelt de NSA-man in de cartoon.
Waardeloos
‘Metadata zijn zóveel meer dan content’, knikt Wiebe. Hij gaat nog een stap verder met de relativering dat veel content zelfs waardeloos is. Zijn kompaan Binney stelt dan ook dat er bij data-analyse pas naar de content moet worden gekeken als daar aanleiding toe is op basis van de metadata. In de tussentijd moet er níet zoveel mogelijk worden bewaard, doorgespit en gebruikt.
Binney: ‘Wij doen het simpel: vernietig wat je niet nodig hebt’. Visser vat het puntig samen: ‘Wij doen aan waste management, we verwijderen de crap.’ De Nederlandse Brunel-directeur vervolgt: ‘Big data is een buzzword en de sleutel tot succes is niet cots. Zogeheten commercial off-the-shelf software, ofwel standaardpakketten, zijn niet de oplossing voor de bedrijfsspecifieke opgaves met data. Hier komt natuurlijk het zakelijke belang van een ict-partij als Brunel om de hoek kijken.
Visser stelt dat Brunel geen softwareleverancier is en prijst de voordelen van maatwerk aan. Daarbij heeft opensource een voorname rol te spelen, benadrukt Visser. Enerzijds om klanten zelf meer mogelijkheden te geven. Anderzijds om die bedrijven minder afhankelijk te maken van Amerikaanse softwareleveranciers, die de ict-markt nogal domineren. Idealiter wordt de software-industrie een services-industrie, in de visie van Brunel. Overigens staat dat niet gelijk aan een cloud-industrie, zoals die zich nu vormt en waarbij nieuwe vormen van lock-in ontstaan.
Zelfredzaamheid
Het doel van ict-aanbieder Brunel is om klanten te voorzien van een werkend systeem, om dat daarna aan de gebruikende organisaties over te kunnen laten. ‘We bouwen, we vertrekken’, aldus Visser. Wiebe merkt op dat hiermee het leven van de it’er ook leuker wordt: ‘Want je bent niet alleen bezig met repetitief standaardwerk.’ Visser: ‘We laten de klant dan zelf cool stuff doen, met hun expertise en hun businessmensen.’ Het is een klassieke boodschap, maar daarom niet minder waar: het gaat om de businessprocessen. Wiebe: ‘It is niet belangrijk, want waar maak en gebruik je it voor?’ Voor het bedrijfsproces, natuurlijk. Nog altijd beginnen veel bedrijven met de vraag welke technologie of welk product zij moeten gebruiken. Dat is de verkeerde beginvraag. Het startpunt moet zijn: wat is het businessproces? Daaruit vloeien dan vereisten voort die uiteindelijk leiden naar technologie of product. Klinkt logisch, maar Binney weet: ‘Het moeilijkste is denken, goed nadenken.’ Hij en Wiebe houden de kernvragen voor: wat is nuttig voor jou, voor jouw organisatie, voor jouw doel? ‘Analyseer elke stap, elke handeling en kijk dan naar het eindresultaat’, somt Wiebe op.
Bad guys
Het is Visser, Binney en Wiebe te doen om inzichten, voor en door anderen. Natuurlijk is dit ook hun business, maar ze willen expliciet niet een software-oplossing slijten. Wiebe zegt laatdunkend: ‘Leveranciers pitchen dat hun software de bad guys kan vinden’, of dat pakket X het gewenste goud uit de databerg kan mijnen. Binney formuleert het kort: ‘Software is maar een tool’.
Eén van de grootste valkuilen bij big data en data analytics is dat er geen gehomogeniseerde datasets worden gebruikt, legt Wiebe uit. Data moeten vóór gebruik – en misschien ook wel vóór het grootscheeps vergaren – worden gecontroleerd, gewogen en gevalideerd. Immers, garbage in, garbage out. Valideren en dan homogeniseren is volgens Brunels Visser een stap die haast iedereen vergeet. Groot voordeel van dergelijke vóórbewerking van data is dat er dan ook minder van is. ‘Kijk alleen naar wat nuttig voor je is’, adviseert Visser. Binney legt uit dat dit neerkomt op het formaliseren van je methode; wat wil je waarom te weten komen? Een noodzakelijke bezinning vooraf. ‘Anders verdrink je in je data lake.’
Bescherming
Bijkomend voordeel is overigens dat zulke dataminimalisatie – versus blinde en brede datavergaring – organisaties ook een vorm van bescherming geeft. Bescherming tegen datalekken. Minder data in huis hebben, geeft nat uurlijk niet letterlijk bescherming tegen alle datalekken. Maar het beschermt wel tegen incidenten waarbij data naar buiten komen die eigenlijk niet eens van belang zijn voor de organisatie. De Nederlandse meldplicht Datalekken, die sinds 1 januari 2016 geldt, wordt eind mei 2018 opgevolgd door strengere Europese databeschermingsregels. De GDPR brengt meer verplichtingen en laat toezichthouders hogere boetes opleggen bij datalekken en tekortschieten in databescherming. Diverse experts, op data- maar ook op juridisch gebied, hebben al gewaarschuwd dat de risico’s flink groter zijn naarmate een organisatie meer data vergaart, analyseert en bewaart. De achterliggende gedachte is simpel: wat je niet hebt, kun je niet lekken. En hoe minder je hebt, hoe beter er valt te beschermen wat je wel (nodig) hebt.
Ratrace
Bovendien valt er dan ook te ontsnappen aan de schijnbaar eeuwige ratrace van de ict-industrie: meer, groter, sneller, duurder. Binney spreekt van een nieuw paradigma, waarbij dure datacenters en enorme databergen niet per se nodig zijn. Vooraf valideren, normaliseren en beter filteren geeft ook minder metadata die dan sneller vallen te analyseren om daarna gericht naar de content te kijken. Wanneer een organisatie heeft uitgevogeld wat het echt nodig heeft, zijn alle overgebleven data nuttig. Of grotendeels nuttig, nuanceert Binney.
(Deze bijdrage is afkomstig uit Computable Magazine, editie 06/2017.)
Er is ook een sociaal component aan Big Data. Dwz dat als een bedrijf je vuilnisbak door gaat zoeken je daar naar alle waarschijnlijkheid niet zo heel erg blij van wordt. Dan is het ook niet gek dat je de digitale variant daarvan ook niet bepaald kan waarderen. Plus het is zoveel keer sympathieker om klanten (via een niet opdringerige manier) persoonlijk te benaderen om aan te geven hoe e.a. anders zou kunnen.