Steeds meer organisaties, mensen, en machines zijn continu verbonden met het internet en genereren events die gebruikt kunnen worden voor het beantwoorden van een scala aan vragen. De verschillende databronnen vormen samen het ‘internet of events’ dat onderverdeeld kan worden in het ‘Internet of Content’ (webpagina's, video's, foto's, en muziek), het ‘Internet of People’ (sociale media zoals Twitter en Facebook), het ‘Internet of Things’ (apparaten die aan het internet hangen of rfid-tags hebben), en het ‘Internet of Locations’ (bijvoorbeeld geotagging van berichten door smartphones).
De stromen events die geregistreerd worden leveren informatie over hoe apparaten, medewerkers en bedrijven nu echt functioneren. De ingenieur van morgen kan niet volstaan met het maken van een ontwerp van een systeem of proces. In plaats daarvan zullen systemen en processen zich continu moeten bewijzen in de praktijk. Dit is de reden dat de Technische Universiteit Eindhoven recent het Data Science Center Eindhoven (DSC/e) heeft opgericht.
Big data als brandstof
Data science richt zich op het omzetten van ruwe data in waardevolle resultaten. Critici kunnen terecht zeggen dat dit niets nieuws is. Binnen de statistiek is men immers al decennia bezig met de analyse van data. Toch zijn de schaal en de bijbehorende methoden en technieken dramatisch veranderd. We zijn nu in staat enorme hoeveelheden data te verzamelen die veel directer het gedrag van mensen, machines en organisaties registreren. Ook hoeven we niet langer te volstaan met het nemen van een steekproef. We kunnen vaak de hele populatie in detail analyseren. De enorme groei van opslagcapaciteit en rekenkracht volgt al jarenlang de Wet van Moore.
Over de afgelopen veerig jaar zijn elke twee jaar de prestaties van ict-systemen verdubbeld. Een computer van nu levert 240/2=1048576 keer betere prestaties vergeleken met een computer uit 1974. Indien het treinverkeer een soortgelijke ontwikkeling had doorgemaakt dan zou de Intercity van Eindhoven naar Amsterdam slechts 5 milliseconden nodig hebben. We zouden ook in 24 milliseconden naar New York kunnen vliegen en met slechts 38 milliliter brandstof rond de wereld kunnen rijden. Deze vergelijkingen illustreren de spectaculaire ontwikkelingen op het gebied van hardware en software. Er is daarom een grote behoefte aan een nieuw type ingenieur (de ‘data scientist’) om de nieuwe mogelijkheden te benutten.
We kunnen data zien als de brandstof voor de hedendaagse kenniseconomie en kennismaatschappij. Net zoals olie, vertegenwoordigt data een enorme waarde. We moeten eerst de data vinden, en vervolgens moeten we de data extraheren, raffineren, verwerken, opslaan en transporteren voordat we er zinvol gebruik van kunnen maken. De recente overname van Whatsapp door Facebook voor het astronomische bedrag van negentien miljard dollar illustreert dit. Omgerekend betaalt Facebook ruim 35 dollar per actieve Whatsapp-gebruiker. Een blik op de ranglijst van meest waardevolle bedrijven laat de importantie van data zien. Er ontstaan ook voortdurend nieuwe business-modellen waarvoor het slim gebruiken van gegevens cruciaal is.
Harde confrontatie tussen model en data
Een ingenieur gebruikt vaak modellen tijdens het ontwerp van een nieuw systeem of een nieuw bedrijfsproces. In het verleden stonden deze modellen soms ver af van de werkelijkheid. Na realisatie van het proces of systeem verdwenen de modellen dan ook vaak in een archief. Tegenwoordig is de veranderingssnelheid veel groter dan voorheen. Uitgangspunt is vaak een bestaand proces of systeem waarvoor al veel data beschikbaar zijn. Hierdoor is het mogelijk automatisch modellen af te leiden en voortdurend de modellen te koppelen aan de werkelijkheid.
Onvolkomenheden in modellen kunnen nu genadeloos blootgelegd worden door de confrontatie met de harde data aan te gaan. Neem bijvoorbeeld bedrijven als booking.com en bol.com. Deze bedrijven experimenteren voortdurend met nieuwe features en intelligente aanbevelingen, vaak direct gekoppeld aan de beschikbaarheid van producten (hotelkamers of boeken). Op basis van het daadwerkelijke effect op geselecteerde klanten worden systemen en processen aangepast. Dit soort ‘evidence-based’ systeem/procesontwerp zal steeds belangrijker worden.
Analytics in beweging
Process mining is een voorbeeld van een innovatieve, op data gebaseerde analysetechniek. Klassieke technieken voor procesanalyse en herontwerp maken geen gebruik van de grote hoeveelheden data die vandaag de dag beschikbaar zijn op het ‘internet of events’. De nadruk ligt op het handmatig maken van modellen en de analyse ervan. Omgekeerd schieten traditionele data mining en business intelligence (bi)-technieken tekort vanwege de afwezigheid van een duidelijke procesoriëntatie. Process mining is de ontbrekende schakel tussen enerzijds procesanalyse en herontwerp en anderzijds data-analyse. Dankzij process mining is het bijvoorbeeld mogelijk automatisch procesmodellen te construeren die weergeven wat er nu echt gebeurd. Dit is vaak een openbaring.
Medische apparatuur en software worden bijvoorbeeld anders gebruikt dan gedacht. In ziekenhuizen lopen de behandelprocessen vaak totaal anders dan beschreven in de richtlijnen. Indien er al een procesbeschrijving of systeemontwerp bestaat is het mogelijk verschillen tussen model en werkelijkheid te kwantificeren (compliance-niveau) en te diagnosticeren. Indien een activiteit bijvoorbeeld vaak overgeslagen wordt is het interessant te begrijpen waarom dit het geval is. Events hebben bijna altijd tijdstempels die aangeven wanneer iets gebeurd is. Daarom is het mogelijk, zonder vooraf iets te modelleren, te ontdekken waar en waarom vertragingen optreden.
Dankzij process mining is de analyse van data niet beperkt tot het leggen van statische verbanden. Het vangen van de dynamiek van apparaten, mensen en organisaties is erg waardevol. Het stelt wel nieuwe eisen aan de technologie en expertise van de analist. Bijvoorbeeld, data warehouses slaan vaak reeds bewerkte en/of geaggregeerde informatie op. Dit is voldoende voor het berekenen van gemiddeldes en sommaties, maar zeker niet voldoende voor het analyseren van het onderliggende echte proces. Voor een detailanalyse is het nodig de echte events bij te houden. De data scientist, als ingenieur van de toekomst, heeft gelukkig wel de kennis om te bepalen welke data echt van belang zijn en is in staat om waardevolle inzichten uit deze data te trekken.
Wil van der Aalst, hoogleraar aan de Technische Universiteit Eindhoven
Over de auteur en DSC/e
Wil van der Aalst (www.vdaalst.com) is universiteitshoogleraar aan de Technische Universiteit Eindhoven (TU/e). Daarnaast heeft hij deeltijdaanstellingen bij Queensland University of Technology (QUT) in Australië en de National Research University Higher School of Economics in Moskou. Hij is ook wetenschappelijk directeur van het onlangs geopende Data Science Center Eindhoven (DSC/e).
Het Data Science Center Eindhoven (DSC/e) speelt in op het snel toenemende belang van (big) data. De expertises van twintig onderzoeksgroepen van de Technische Universiteit Eindhoven (TU/e) zijn in dit onderzoeksinstituut gebundeld om met bedrijven samen te werken en ingenieurs aan de benodigde kennis te helpen. Het DSC/e werkt samen met bedrijven als Philips, Perceptive Software, Adversitement, Synerscope, SAP en Fluxicon. De oprichting van het DSC/e moet binnen enkele jaren leiden tot de eerste zelfstandige bachelor- en masteropleiding op het gebied van data science. De enorme belangstelling van het bedrijfsleven voor data science bleek tijdens de opening in december waarvoor in korte tijd de zevenhonderd beschikbare plaatsen vergeven waren.
Ik mis de risiko’s die dit met zich meebrengt in dit stuk.
We kunnen heel gewichtig doen over Big Data natuurlijk maar voor alsnog zijn het commerciele partijen die hypen en roepen dat het een lieve lust is.
Verschillende onderzoeken wijzen vooral twee zaken uit.
Big Data een duurdere exercitie dan verwacht
Omdat de term Big Data voor de vele disciplines een volkomen ander gezicht heeft, is het helemaal aan de betreffende discipline wat je nu met Big Data moet en hoe je daar nu mee om zou moeten gaan.
helder is nu al dat de toestroom aan Big data, de aanwas daarvan, enorme investeringen met zich mee zal brengen omdat een aanzienlijk deel van die data totaal niet relevant is maar je die wel moet opslaan en ‘behandelen’ om dat te kunnen concluderen.
Corruptie en Big Data
Dat er sprake is van aanzienlijke corruptie van die data, moge ook al helder zijn. Als wij alleen al even kijken naar de wijze waarop bepaalde data is opgezet, kijk alleen al maar naar hoe men de commerciele wereld van pretentie en ‘make believe’ op zet, dan zie je welke problemen je gelijk met data binnen krijkgt.
Als we alleen al de waarde evalueren weten we dat vrijwel 75% van de commerciele wereld een grote pretentieshow is, en die andere 25% gewoon een feitenweergave, dan weet u al wat u aan die 75% heeft.
Als u in ogenschouw zou willen nemen dat ongeveer 35% van alle data zwaar corrupt is doordat de feiten niet kloppen tot margen van onzin en leugen, dan weet u nu al wat u aan die data heeft. Zelfs als u uw filters specificeert, u ontkomt er niet aan ALLE data op integeriteit te controleren en dan nog heeft u geen enkele poot om op te staan waar het de integeriteit en bruikbaarheid betreft.
Terug naar het begin van mijn betoog, het stuiterend hypen van big data is niet meer en minder een commerciele exercitie waarbij men graag aan u wil verdienen. Het verkoop praatje is dan gelijk men telkens weer roept…..
Zorg dat je erbij bent
Als u het nu niet doet bent u te laat en loopt u achter de feiten aan
Als u het niet doet doen anderen het en dat betekend voor u…..
U moet vooral dit, u moet vooral dat……
Ziet u wat u laat liggen?
Ziet u wat u mis loopt……?
Het zou toch heel erg jammer zijn dat……
Ook al wil u niet…. dat is wel waar we met zijn allen naar toe gaan….
Enfin, maakt u het rijtje voorts maar af…..
Kort en goed, overdenk eens wat die Big Data feitelijk is en welke toegevoegde waarde dat voor u heeft. Besef hierbij één eenvoudig ding. Vehikel IT is er om u te laten besparen. Soms vergt dat een overzichtelijke, calculeerbare, beperkte investering, soms ook helemaal niet.
Heeft het geen toevoegende waarde, dan zou u toch vooral een pas op de plaats moeten maken. Want de wetmatigheden van IT als vehikel zijn ook hier helder. Als het u niet doet besparen kan het u niets opleveren. Of toch wel? Heel veel hele grote rekeningen.
Big data is big redundancy.
Zo,zo…een hoogleraar als expert of is dit weer een door redactie overgenomen stukje?
Misschien moeten we al die data eerst maar eens dedupliceeren voordat we er een ‘peut’ techniek en wetenschappers tegen aan gooien. Want ik had eens gehoord dat Big Data & Analitics niet een wetenschap moet worden met abstracte doelen maar operationele efficiency verbeteren en risico’s mitigeren. Tenslotte lijkt een gezonde boekhouding met goed bestuur me meer garanties geven voor toekomst als ik kijk naar schandalen die we na Enron allemaal nog gehad hebben. Stellen dat meest waardevolle bedrijven die met alleen maar data zijn doet mij namelijk terug denken aan al die zeepbellen die we gehad hebben, ook het sprookje van de kenniseconomie lijkt hier onder te vallen.
Ander mooi verhaal wat ik hoorde ging over de mens, dus niet de gebruiker of klant die gedegradeerd is tot een nummer in een complex algoritme maar dat apparaat van vlees en bloed. Die machine heeft eerst voer, onderdak en zorg nodig en dan pas volgens Maslow al die informatie waar nu blijkbaar weer hele drommen mensen voor opgeleid moeten worden. Maar goed de vergelijking met intercity van Amsterdam naar Eindhoven is dan ook wel treffend, het is geel en reist terug in de tijd;-)
Wat we nu in de huidige big data-keten missen is een stukje intelligentie in het beginproces, tijdens productie van data. Met de komst van nieuwe technologieën en ontwikkelingen zoals Internet of Things hebben we te maken met een tsunami van data.
Sommige bedrijven zijn bezig met het ontwikkelen van sensoren en mechanisme waarmee de data in de beginfase en tijdens productie al gecategoriseerd wordt. Deze intelligente laag maakt het oerwoud van big data veel overzichtelijker dan wat we nu hebben. Ik denk dat de aan de big data gerelateerde zaken (zoals process mining) ook hierdoor heel anders gaan worden, misschien bij sommige gevallen worden ze helemaal overbodig en dus verwijderd in de keten.
Zeurpieten en zuurpruimen! Er wordt zoveel aangerommeld met Big Data dat een academisch initiatief juist toegejuicht zou moeten worden, zeker als het een goede link met het innovatieve bedrijfsleven rondom Eindhoven heeft. Bovendien neemt de vraag naar data scientists sterk toe en zal iemand ze toch moeten opleiden. Ik ga het DSC/e in ieder geval met grote interesse volgen.
@Jan
Wetenschappers houden zich in de regel meer bezig met mogelijkheden dan risico’s.
Big Data is een hype en kan (lees zal) voor slechte toepassingen gebruikt worden.
Desalniettemin is het een gebied in sterke ontwikkeling. Wat dat betreft is wetenschappelijk onderzoek op dit gebied zeker voor ons kennis land van belang. Al was het maar om er goede dingen mee te doen.
@ Johan Duinkerken,
in mijn tijd aan de universiteit sprak men nog over ethiek, is dat voorbij?