Big data is een fenomeen dat zichzelf moeilijk laat definiëren. Velen zullen gehoord hebben van de 3 V’s: volume, velocity en variety. Kortgezegd gaat big data over grote volumes, veel snelheid (realtime) en gevarieerde/ongestructureerde data. Afhankelijk van de organisatie kent big data echter vele gezichten.
Om te analyseren hoe big data het beste in een bedrijf geïntegreerd kan worden, is het van belang eerst duidelijk in beeld te hebben wat big data precies biedt. Dit is het beste samen te vatten in de volgende viif beloftes:
1. Predictive: Big data genereert voorspellende resultaten die iets zeggen over de toekomst van uw organisatie of resultaat van een concrete actie;
2. Actionable results: Big data levert mogelijkheden op voor directe acties op gevonden resultaten, zonder menselijke interventie;
3. Realtime: De nieuwe snelheidsnormen zorgen dat je direct kunt reageren op nieuwe situaties;
4. Adaptive: Een goed ontworpen model past zich constant automatisch aan wanneer situaties en relaties veranderen;
5. Scalable: Verwerking en opslagcapaciteit is lineair schaalbaar, waardoor u flexibel kunt inspelen op nieuwe eisen.
Deze vijf big data beloftes kunnen alleen worden gerealiseerd met inzet van drie big data disciplines/rollen: De big data scientist, de big data engineer en de big data infrastructuur specialist.
Predictive
In een klassieke Business Intelligence omgeving worden rapportages gegenereerd over de huidige status van het bedrijf. In het geval van big data praat men echter niet over het verleden of de huidige situatie, maar over predictive analytics.
Voorspellende rapportages worden mogelijk gemaakt doordat de data scientist patroonherkenningstechnieken toepast op historische data en de gevonden patronen uitwerkt in een model. Het model kan vervolgens de historie inladen en op basis van actuele events/transacties de patronen doortrekken naar de toekomst. Op deze manier kan een manager schakelen van reactief management naar anticiperend management.
Actionable results
Actionable results ontstaan wanneer gevonden resultaten uit de modellen van de data scientist direct worden vertaald naar beslissingen in bedrijfsprocessen. Hierbij maakt de data engineer de koppeling en zorgt de data scientist dat het model de output in het juiste formaat aanbiedt. De belofte van actionable results wordt zodoende deels ingelost door de big data-specialisten, echter komt het grootste deel voor rekening van de attitude van het management team.
Het management heeft de taak om een nieuwe manier van sturing aan te wenden. Er wordt niet meer gestuurd op de micro-processen zelf, maar op de modellen die deze processen automatiseren. Zo wordt er bijvoorbeeld niet meer gestuurd op wanneer welke machine onderhouden moet worden, maar welke risicomarges het beslissende model mag hanteren om de onderhoudskosten te optimaliseren.
Realtime
Bij big data wordt vaak gedacht aan grote volumes van terabytes aan data die verwerkt moeten worden. De ‘big’ van big data is echter geheel afhankelijk van de dimensie van snelheid. Zo is 10 TB aan data verwerken in een uur big data, maar 500 MB verwerken is ook big data als de eis is dat dit in tweehonderd milliseconde moet gebeuren. Realtime verwerking ligt in dat laatste hogesnelheidsdomein van verwerking. Er is geen gouden regel, maar men spreek vaak van realtime wanneer de reactiesnelheid binnen vijfhonderd milliseconde is. Om deze hoge snelheden te realiseren is een combinatie van alle drie de big data disciplines nodig.
De big data infrastructuur specialist heeft de taak om het opslaan en inlezen van data te optimaliseren. Snelheidsoptimalisatie vind je door de data geheel te structureren op de manier waarop het door het model wordt ingelezen. Zo laten we alle flexibiliteit in de data los om deze vanuit één perspectief zo snel mogelijk te consumeren.
De big data engineer realiseert dit door de snelheid van de koppelingen tussen de databronnen en de afnemers te optimaliseren, door de koppelingen in een gedistribueerd format aan te bieden. Zo kunnen een theoretisch oneindig aantal resources worden aangeschakeld om de data gedistribueerd te krijgen en elke verdubbeling van resources zorgt voor een verdubbeling van capaciteit. Ook is het aan de big data engineer om de modellen die de data scientist ontwikkelt om te zetten in een format dat alle sub-analyses van het model isoleert – en zoveel mogelijk distribueert over de beschikbare resources. Data scientists werken vaak in programmeertalen als R en Matlab, die ideaal zijn voor het exploreren van de data en de verschillende mogelijke modellen. Deze talen lenen zich echter niet goed voor distributed processing en de big data engineer moet daarom vaak in samenwerking met de data scientist een vertaling van het prototype model verwezenlijken in een productiewaardige programmeertaal als Java of Scala.
De data scientist verzorgt zoals besproken de modellen en daarmee de logica van de dataverwerking. Om realtime te kunnen opereren is het de taak aan deze persoon om de complexiteit van de dataverwerking in te perken tot een niveau beneden exponentieel. Zodoende is een samenwerking van de drie disciplines vereist om tot een optimaal resultaat te komen.
Adaptive
We kunnen spreken van een adaptive omgeving – ook wel machine learning of artificial intelligence genoemd – wanneer de intelligentie van deze omgeving zich autonoom aanpast aan nieuwe ontwikkelingen binnen het te modelleren domein. Om dit mogelijk te maken is het belangrijk dat het model genoeg ervaring heeft opgedaan om zelf te kunnen leren. Hoe meer informatie er beschikbaar is over het model door de geschiedenis heen, hoe breder de ervaring is die we op kunnen doen.
Scalable
Schaalbaarheid wordt bereikt wanneer er een theoretisch oneindige verwerkingscapaciteit is als oneindig veel computers worden bijgeschakeld. Dit betekent wanneer je vier keer zoveel capaciteit nodig hebt, vier keer zoveel computers worden bijgeschakeld – en wanneer je duizend keer meer nodig hebt er duizend computers worden toegevoegd. Dit lijkt eenvoudig, maar tot voorheen was deze samenwerking tussen computers een zeer complexe taak.
Iedere discipline heeft een rol in het schaalbaar maken en schaalbaar houden van big data-oplossingen. Zo verzorgt de big data infrastructuur specialist de schaalbaarheid van het lezen, schrijven en opslaan van data. De big data engineer verzorgt de schaalbaarheid van het consumeren en produceren van data en de big data scientist verzorgt de schaalbaarheid van de intelligente verwerking van de data.
Big data, big deal?
Om van de volledige mogelijkheden van big data gebruik te maken is het dus van groot belang een multidisciplinair team in te schakelen. Dit klinkt wellicht alsof er direct zeer grote investeringen gedaan moeten worden, echter biedt big data ook de mogelijkheid om klein te beginnen. Dit kan door een data scientist de verschillende analyses te laten doen op een laptop of een lokale server, om zo met een minimale investering een aantal ‘short-term wins’ voor je organisatie te creëren. Wanneer je de toegevoegde waarde van big data inzichtelijk hebt, is het een relatief kleine stap om een big data omgeving in productie te zetten en zodoende ook jouw organisatie op een data-gedreven manier te kunnen sturen.
Koen Verschuren en Bart Wetselaar van BigData Republic
‘Predictive: Big data genereert voorspellende resultaten die iets zeggen over de toekomst van uw organisatie of resultaat van een concrete actie’
Dit is niet waar, big data is gewoon wat het zegt, veel data. Een analyse aan de hand van KPI’s zorgt voor voorspellende resultaten. Tenzij ik het mis heb, kan je dus niet met Big Data alleen resultaten generen.
Dit is zo voor het hele artikel geschreven, waarbij ik mijn twijfels heb of alle data die ik voor handen heb ineens uit zichzelf een functie krijgt. Data is data, dat door middel van tooling omgezet kan worden naar informatie die relevant is. Moet je wel de juiste vragen stellen.
Predictive: het zoeken naar patronen en dit uitwerken in een model maakt het alleen mogelijk om inzicht te krijgen in het verleden, niet per se om de toekomst te voorspellen. Dat kan alleen als de omstandigheden niet (of nauwelijks) veranderen. Resultaten uit het verleden zijn geen garantie voor de toekomst.
Deze opinie is met wat lichte variatie al vaker geplaatst op Computable. Dat hoeft niet erg te zijn, maar het voegt ook niet zoveel toe.
Johan: Dat is een dooddoener die je schrijft. Resultaten uit het verleden geven wel degelijk een grote kans van waarschijnlijkheid in de toekomst (morgen is ook al toekomst). Als boer zoekt vrouw al 10 afleveringen door grote groepen mensen gekeken word, dan zal dit hoogst waarschijnlijk ook voor aflevering 11 gelden. Als blijkt dat grote groepen jongeren het platform Facebook verlaten kun je een redelijk voorspelling doen welk platform ze naar toe gaan. Wat lastiger is zijn aandelen omdat gebeurtenissen die je niet kunt voorspellen grote invloed uit oefenen. Maar de waarde van predictive valt in veel gevallen niet te ontkennen….
Als je big data hebt en dagelijks vergaart kun je mogelijkerwijs een lerend systeem genereren wat verbetert, bijvoorbeeld om te voorspellen of een transactie hoge mate van waarschijnlijkheid frauduleus is. Je moet dan wel iets doen met die big data en daarmee loop je tegen uitdagingen aan die hier beschreven worden.
Henri
Als we kijken naar de beloften van Big Data aangaande het voorspellen van de toekomst op basis van statistiek dan dienen we hier een duidelijk onderscheid aan te brengen tussen de boer die een vrouw zoekt en de vrouw die een (data)boer zoekt. Ja, data analyse (wat helemaal niet zo groot en divers hoeft te zijn) heeft onomstotelijk zijn nut bewezen in het vinden van de anomalie in patronen die bekend zijn maar wordt een behoorlijke abstracte kunstvorm als je het omdraait.
Op dit moment draait (blijkbaar niet succesvol als je 3 afleveringen na elkaar programmeert) een serie op TV die mooi het dilemma van dader en slachtoffer uitbeeld. Het contextueel acteren op nummers wordt nog weleens verkeerd ingevuld als we kijken naar de belangenverstrengelingen en het zal duidelijk zijn dat ik je voorbeeld van een ‘kijkbuis’ niet echt een betrouwbare bron vindt.
1. Predictive
De materie waarmee je werkt is predictive, business generated Big Data afhankelijk van welke data je genereert. Baseer je je productie op externe data dan is dat ook nog te bezien, maar denk van van het www big data te importeren voor gebruik, dan kun je dat niet predictive meer noemen.
2. Actionable results
In navolging van 1, is het maar de vraag of big data dat gaat doen. Je zult altijd een controle slag moeten maken om te kunnen beoordelen of data kan worden geprocessed zonder die controle. Ik heb moeite met het woordje ‘mogelijke’. Misschien ben ik niet de enige hier.
3. Realtime
Ook hier zul je iets duidelijker moeten zijn. Als sje stelt dat je realtime data op kunt nemen in om het even welk proces, okay. Maar je zult data altijd moeten analyseren op integriteit, toepasselijkheid en bruikbaarheid.
4. Adaptive
Hebben wij het hier over een procesmodel of beoogt software die dat gaat doen? Als hier het laatste word bedoeld verwijs ik weer naar 1. Je zult te allen tijde een controle in je proces moeten hebben om de integriteit van je data te waken. Ik geloof niet dat we al in staat zijn dit aan software over te laten. De stelling van mij hier is dat mens namelijk de parameters van die software bepaald door het concreet meegeven van ‘Value’. En die ‘Value’ is nu eenmaal erg subjectief. Dat heeft dan weer gevolgen voor adaptive.
5. Scalable
Dat is in het geval van Big Data wel te hopen. Een beetje een open deur wat mij betreft.
Overigens bovenstaande niet bedoeld als iets neer sabelen maar gewoon een objectief oog.
“Wie roept mij”, er staat geen vraag, dus ik kan er verder niet op antwoorden, behalve dat ik je reactie ook niet helemaal kan volgen.
René, ik denk er iets anders over en zal op jouw punten reageren.
1) Je schrijft elders dat IT perfect voorspelbaar is. Moet je in C eens aan gedeclareerde variabele geen waarde toekennen, maar wel gebruiken. Ik voorspel je 100% dat dit volstrekt onvoorspelbaar is 🙂
zoals het artikel beschrijft :
“Voorspellende rapportages worden mogelijk gemaakt doordat de data scientist patroonherkenningstechnieken toepast op historische data en de gevonden patronen uitwerkt in een model.”
Door al het chinees wat het www in een bak te gooien kun je met machine learning software mogelijk te maken dat het systeem voorspelt wat het volgende woord gaat worden wat je wilt schrijven, zoek maar eens op het swift keyboard. Het voorspelt in alle talen wat je gaat schrijven of swipen en doet dat verrassend goed. De voorspelling is niet 100%, maar zeker meer dan 70% en daarmee in dit geval erg bruikbaar.
2) Uiteraard moet het systeem leren wat goed of fout is gegaan. Om het swift keyboard dan weer als voorbeeld te nemen. Iedere keer als een gebruiker het woordje niet accepteert door het te verbeteren of een ander woord ervan te maken leer het systeem wat in dit geval niet goed was. Dit is in feite een continu controle proces. Aardig is dat het systeem dan bijvoorbeeld ook andere parameters leert mee te nemen. Waar is deze persoon? Spreekt dit persoon ook nog andere talen? Hoe oud is deze persoon? Wie zijn zijn of haar vrienden?
3) Data analyse ging vroeger batchgewijs. Je had een relatief dode bak data. De computer ging rammelen en er kwam een rapport uit. Ook IBM Watson analytics is nog gebaseerd op file-based data. als je echter transacties moet valideren op eigenschappen, dan moet dat NU gebeuren of in ieder geval “bijna nu”. Dat vergt een hele andere mindset en code. Als een gebruiker in de chrome browser een URL intikt dan moet Chrome razensnel checken tegen miljoenen URL’s aan of dit geen verdachte URL is. Maar ook gewoon de zoek woorden in Google voorspellen in feite wat je wilt gaan zien en al die zoekopdrachten is in feite streaming data. Integriteit is niet meteen het belangrijkste, dat hangt dus heel erg van de casus af die je bekijkt. Als je iemand gaat veroordelen op basis van data dat moet die een stuk integerder zijn, dan als iemand zoekt op Karaoke.
4) Kijk en hier wringt het denk ik met jouw beeld over big data en machine learning, want adaptive is het sleutel element. Wat betekent een rating van een film? Als die een negen van tien krijgt genomen over 10.000 mensen, betekent het dan dat de kans groot is dat jij die film ook goed gaat vinden? Nee, niet echt. Maar als tien van jouw vrienden die erg op jou lijken een film erg goed vonden, dan lijkt me de kans redelijk groot dat jij die film ook goed te verteren valt. Om ook weer terug te komen op dat Swift keyboard (voor mobiel, onlangs overgenomen door Microsoft) . Het door voorspellingen op basis van een grote database die door de tijd heen verandert omdat woorden ineens populair kunnen worden of dat er nieuwe woorden ontstaan. Het is echter adaptive omdat het zich aanpast naar jouw specifieke gedrag. Een werknemer van mij is Pools en heeft zowel Nederlandse vrienden als Poolse vrienden, hij switch echter niet steeds van toetsenbord per taal, maar zijn Swift keyboard kan er heel goed mee om gaan. Als dat niet adaptive is?
Ik hoop dat je hiermee ook door een andere bril naar bijv. Big Data gaat kijken. ja er word veel onzin geschreven, maar niet ieder stuk over big data is onzin.
@ Henri,
Dank voor je reactie Henri, altijd aardig sparren.
1. Even een trede terug.
Voor daar sprake van ‘data processing’ kan zijn zul je eerst iets geprogrammeerd moeten hebben wat dan weer aan ‘predestined value’ zal moeten voldoen om te kunnen functioneren. Om software ‘iets’ te laten uitvoeren, zul je parameters mee moeten geven, wederom, ‘predestined value’ om uit, om het even welk type analyse je voor ogen hebt, bruikbare data te kunnen genereren. Eens als je zegt dat wanneer je geen parameters mee geeft, dan krijg je ongebreidelde data waarvan je je af moet vragen of die bruikbaar is. Hier dus mijn stelling IT=100% voorspelbaar.
2 Development
Ik geloof zeker dat we, op de huidige ingeslagen weg, een ‘learning’ system een keer zullen gaan krijgen die steeds accurater zal worden. Maar, tot die tijd zullen we toch als mens moeten blijven controleren.
Human aspect
Vooral waar het mij gaat om de menselijke benadering en gebruik, en zijnde onderwerp van die big data, blijft de mens een onvoorspelbare en onberekenbare factor. Ik heb eerder wel eens aangegeven de hypes en ongebreidelde commerciële pretenties van die of gene, de missrepresentatie van onze overheid, criminaliteit, om maar een paar zaken te noemen, zullen altijd een onberekenbare factor blijven in big data. Dit is zomaar tot de helft aan onbetrouwbaarheid van die big data die niet goed te analyseren zal blijken te blijven.
4.
Ik ga hier, met mijn kritische oog even nader op in. Momenteel kennen wij het zogenaamde ‘afgestemde adverteren, namelijk, het gericht projecteren/bombarderen van bepaalde type advertenties, via media zoals email, websites die je bezoekt, searches die je een keer in google of elders in gaf. Wil allemaal niet zeggen dat dat mijn gedrag zou kunnen bepalen. Sterker, ik ben zelf bijvoorbeeld volkomen anti dergelijke manier van reclame en heb daar zo mijn stapjes voor genomen iets wat ‘specifiek gedrag’ als waarde om zeep helpt.
Dit laatste ‘proves my point’ met regelmaat want ik ken veel meer mensen die dezelfde stelling/mening heiligen en daar heb je dus al corrupte data. Want als je gaat aannemen dat een bepaalde waarde in data ‘True’ is, terwijl die ‘False’ is, dan toont dit al mijn stelling aan hoe onbetrouwbaar Big Data feitelijk is.
Zal dat ooit perfectioneren? Vast wel. Maar daar zal nog best wel een lange tijd over heen gaan.
Vanuit een andere hoedanigheid in mijn professionele leven, die van Numoquest, kan ik je zeggen dat naast reactieve overeenkomsten tussen mensen, een ander aspect door vrijwel geen computer kan worden gelezen. Dat is het individuele natuurlijke karakter en latentie. Juist die combinatie die mensen uniek maakt en daarin, ook voor big data vrij onvoorstelbaar.
Nadeel waar je ook mee te maken krijgt is dat de commercie streeft naar het modelleerbaar maken van de menselijke natuur om op die manier meer en meer omzet te kunnen voorspellen en genereren. Maar dat is dan weer een andere, zeer interessante, discussie.
Big Data, wat mij betreft, een stap en ontwikkeling naar, maar voorlopig een hype die nog niet echt genereert wat veel ‘commerciële’ geesten maar al te graag roeptoeteren.
Henri
inderdaad staat er geen vraag omdat jouw bril nogal beslagen is, je reductie argumentatie is nogal veelzeggend over het onderwerp als ik kijk naar je voorbeelden van besloten antwoorden.