Het begon met databases en computers. Daarna kwam relationeel om de hoek kijken. Vervolgens datawarehousing, datamining en data marts. Met 'actionable business intelligence' – via dataverwerking en informatievoorziening – leek alles bij elkaar te kunnen komen. Maar dan nu ineens big data, het laagste sportje op de kennisladder, dus gewoon weer terug naar af!
De reden is dat totaal datamanagement nooit af is. We willen immers een complete scope. De blik op wat we weten, het verleden, plus de contemporaine historie, het heden, en dan via de voorspellende kracht van Big Data doorsteken naar hard onderbouwde kennis over morgen. Inclusief voldoende tijd om elk offer-you-can’t-refuse goed voor te bereiden.
Daar komt technologie bij kijken, en niet zo’n beetje ook. Maar wat willen we daarvan weten? Relationele databases worden uitgebreid met Hadoop, Pig, cloud en nog veel meer. De kern is dat we in het Big Data-tijdperk simpelweg de luxe hebben om te beginnen bij alle soorten data en vragen die er zijn. Dankzij de doorlopende data-explosie en toenemende verwerkingskracht zijn we een compleet nieuwe fase binnengetreden.
Big Data is de overstap van intuïtieve naar data-intensieve besluitvorming. Zo wordt heroïsch management – blind besluiten bij gebrek aan data – wetenschappelijk management op basis van ’total data’ en dito inzicht. Big Data is de kroon op de verwetenschappelijking van organisaties, een leidmotief dat Frederick Taylor een eeuw geleden al agendeerde in zijn Principles of Scientific Management.
Big data is een fundamentele omslag, zoals indertijd de microscoop. Dat is tegenwoordig een geliefde analogie. We staan aan het begin van een tijdperk, te vergelijken met de start van de moderne wetenschap, vierhonderd jaar geleden. Wat moeten we dan zeggen over technologie, anders dan dat ze met zevenmijlslaarzen voortsnelt?
Dankzij de technologische ‘microscoop’ die voor big data wordt ontwikkeld, kunnen we veel accurater analyseren en voorspellen. Eindelijk zijn we met geavanceerde hardware en software in staat om razendsnel in en uit te zoomen. Op structuren en verbanden ten behoeve van spectaculair betere inzichten, oplossingen en beslissingen.
Volgens Shaun Connolly van het technologiebedrijf Hortonworks schuiven momenteel de traditionele datawereld van de business-transacties en die van de interacties en de observaties ineen. Met als motto ‘Big Data = Transactions + Interactions + Observations’ is het doel: meer business, een significant hogere productiviteit en nieuwe commerciële kansen.
Het is glashelder: Big data is de technologie voorbij. Facebook bouwt verder aan Hadoop MapReduce met Corona, relationele databases worden standaard uitgebreid met big data-verwerking, nieuwe algoritmes als GraphChi zijn aan de orde van de dag, beveiliging kan beter worden aangepakt met oplossingen als QRadar van IBM, en misschien het allerbelangrijkste: quantum computing begint op eigen benen te staan.
Jaap Bloem, research director bij Sogeti/VINT
Hoe ‘bigger’ hoe beter in dit geval, maar erg “Big” hoeft die data helemaal niet te zijn. Het gaat erom de ‘randomized trial’ geheel in te bedden in informatiserings/automatiserings-projecten/trajecten. Door – zoals in Amerika – rechtszaken middels het lot te koppelen aan rechters, kun je niet alleen vergelijken welke rechters kortere en welke langere straffen opleggen, maar bijvoorbeeld ook of korter of langer straffen invloed heeft op recidivisme.
Steeds gaat het erom het signaal van de informatie relatief te versterken door de ruis uit te middelen (door zoveel mogelijk herhalingen over elkaar heen te leggen). Verder gaat het erom zoveel mogelijk ondersteuning te bieden tegen de gebruikelijke menselijke observerings-zwaktes. “big data” laat in Amerika zien dat een zwembad aan huis (of wonen aan water) honderd keer gevaarlijker is dan een wapen in huis. Zelfs het nuttig effect voor mensen die zelf geen wapen in huis hebben komt zonder moralisering boven water. Gewone statistiek brengt zelfs het nuttig veiligheidseffect voor de wapeneigenaren zelf niet eens boven tafel komt(voorkomen incidenten spelen een onevenredig kleinere rol dan plaatsgevonden incidenten). Het boek ‘super-chrunchers’ geeft tal van mooie voorbeelden. ‘Wisdom-of-Crowds’ van James Surowiecky laat zien hoe je het mechanisme van de randomized trial zelfs kunt inbedden in organisatie- en maatschappijstructuren. Helaas ontstaat voor dit soort fenomenen in Nederland pas interesse als er tools van voorhanden zijn die verkocht kunnen worden of kennis rondom kan worden geleverd. Die tools zitten in dit geval m.i. aanvankelijk meer in de weg dan dat ze helpen (althans om de principes mee voor het voetlicht te brengen).
De Nederlandse overheden gaan er vast voor. Ze hebben veel grotere IT-budgetten dan goed voor ze is en zijn voortdurend op zoek naar bestedingsrechtvaardiging. Als kolchose-boeren zijn ze – middels aanbestedingen – het ene jaar weer bezig een traktor van 2500 ton laten bouwen (om de vorige van 1200 ton weer mee van het land te krijgen). Ze denken dat schaalvergroting per definitie goed is, terwijl je in een turbulente markt als de IT juist behoefte hebt aan intrinsiek leervermogen en omvangbeperking van gevolgen van verkeerde beslissingen of het kunnen bijstellen op nieuw verworven informatie. Schaalvergroting vindt bij voorkeur fractaal plaats, niet door dingen buiten de proporties op te blazen waarbinnen ze zich bewezen hebben. Al helemaal niet waar je op ieder moment een datacenter van duizenden glasvezelverbindingen on-a-chip kunt verwachten (zoals bijvoorbeeld nu met de laser-on-silicon die een jaar of drie geleden productierijp is geworden.
Als je het mij vraagt, kunnen we ons voorlopig als branche beter bezig houden een dolgedraaide overheid weer op het spoor te helpen.
Big data heeft niets te maken met het manipuleren van statistiek en data. Het heeft ook helemaal niets te maken met de wijze waarop onze overheid met IT budgetten omgaat. Wat Jaap volgens mij duidelijk probeert te maken is dat door alle data die er is te gaan gebruiken we beslissingen die nu nog vaak intuitief zijn van een onderbouwing kunnen voorzien (klopt het wel of niet). Het is een paradigm shift in de manier waarop we met data omgaan.
De analogie met 400 jaar geleden is wel treffend. Toen zagen wetenschappers ineens dingen die ze daarvoor niet konden zien en werd hun verbazing en nieuwsgierigheid daardoor enorm gestimuleerd. Onze kennis maakte een sprong naar voren en dat heeft ons mede de Gouden Eeuw opgeleverd. Big Data zal voor veel wetenschappers ook betekenen dat ze fundamenteel op een andere manier moeten werken en zet eScience nadrukkelijk op de kaart.
De technologie is er en zal verder ontwikkelen. We gooien niet weg wat we hebben maar integreren het. De grote uitdaging is nu: hoe gaan we het (leren) gebruiken. Dat zal moeten met vallen en opstaan, verbaas en verwonder en doe er samen wat moois mee.
@Oscar, Big data is het nuttig statistisch aanwenden van grote hoeveelheden voorhanden gegevens die door een andere oorzaak of behoefte zijn ontstaan (of daaruit konden worden geëxtraheerd).
Het heeft inderdaad niets te maken met manipuleren. Dat beweer ik ook nergens. Maar wel alles met statistiek en data. Het mee laten ontstaan van controle-data (of dit eraan toevoegen), is samen met regressie de belangrijkste statistische techniek om te onderzoeken welke significante relaties er eventueel bestaan.
“Het klopt wel of het klopt niet” klopt in zoverre als de vraag is of iets wel of niet een hoogste kans heeft (met een gegeven onzekerheidsfactor). Gegevens met zekerheidsrelaties hoef je niet te onderzoeken. Die relaties waren dan voorafgaand al bekend bij het tot stand komen van de big data.
Big data wordt de volgende excuustruus van overheden om een enorm budget te verbrassen. Dat hebben ze straks nodig om al hun verkeerde beslissingen met terugwerkende kracht te rechtvaardigen. In zoverre heeft het ermee te maken.
mooi en oud ; De multi search engine techniek lijkt mij erg op de cpu communicatie welke bij meiko transputer in gebruik is.
Dus met alle mooie woorden , oude techniek in nieuw jasje.
Maar letop , zoals het sqnnet product van oracle grondlegger van Big Brother gerekend kan worden , is deze techniek een search enige die alle bochten deuren achteringangen afspeurd misschien wel het einde van gegevensbescherming. Wees alert niet alle vooruitgang is goed.
@Rob Koelmans:
Quote: “”big data” laat in Amerika zien dat een zwembad aan huis (of wonen aan water) honderd keer gevaarlijker is dan een wapen in huis.
”
Precies het gevaar van big data, de foute vragen stellen, in sommige staten is het wettelijk verplicht om een wapen in huis te hebben.
Wonen aan het water of aan een zwembad is een luxe. Wat loop je met elkaar te vergelijken? Zeker als je ook nog even terugdenkt hoe goed New Orleans destijds voorbereid was op water overlast.
@Jaap Bloem: Ik kan er wel inkomen dat de cirkel rond is. Vroeger vroeg je als IT-er aan de klant wat de normalisatie slag zou moeten zijn.
Wat wil je weten? en wat wil je dat er gelogd wordt? Nu kan de business meer zien waar hij mee bezig is.
Ha Rob,
Ik bespeur een enorme kwaadheid richting overheden?
Zou je met ons willen delen waar die in wortelt wat jou betreft . . . ?
Misschien moet je er hier ook eens een artikel aan wijden.
@Rob Koelmans,
Wat betreft excuustruus overheden voor verbrassing overheidsbudget..
Daar help computable ook aan mee. Hoeveel Bigdata artikelen hebben we afgelopen tijd nou al gezien hier ? En wat zijn we nou echt wijzer geworden dat behalve dat het vaag nuttig kan zijn, en het in ieder geval veel resources en dus veel geld kost ?
In hoeverre zijn de voorbeelden die jij noemt mbt strafmaat/rechters en zwembad/wapens-gevaar, trouwens niet gewoon met traditionele database technieken + statistiek op tel lossen ?
Van BI zien ook veel bedrijven het nut wel in er zijn alleen zo weinig mensen die er wat mee kunnen.
Informatie blijft een aanjager van macht en de (die) macht ligt maar bij een paar partijen.
Er zijn maar weinig bedrijven/personen met toegang tot grote verzameling data, en aangezien data(analyse) vaak niet een primair bedrijfsproces is, kunnen veel bedrijven er vervolgens weinig mee. Daarnaast zijn de onderzoekers (die slim genoeg zijn om chocola van data te maken) hele andere mensen dan IT-ers. Dus ook daar heb je nog wat uitdagingen te pakken.
“big data” is daarmee voor niet veel mensen en bedrijven weggelegd en daarmee vooral een leuk onderwerp om over te praten in het algemeen. Veel artikelen blijven of vaag, of gaan over het IT gedeelte (big data omgeving). Dat laatste is helemaal niet zo interessant, met een slim team is de omgeving zo klaar. Maar wanneer komen de artikelen die ingaan om bepaalde fundamenten en principes achter grote verzamelingen (minder gestructureerde) data. Ik geloof zomaar dat Google hier koning is en ik snap ook wel dat die niet alles gaat delen 🙂
@technicus: De vraag die gesteld werd, was: ‘met welke maatregelen kunnen we kans op dodelijke ongelukken in en rondom het huis verkleinen?’ Dat kun je niet afdoen als een verkeerd gestelde vraag.
@Jaap: Die enorme frustratie zou zo maar kunnen. Met name als ik de revue laat passeren wat me bij de Gemeente Groningen allemaal overkomen is. Maar raak jij niet gefrustreerd als je die bedragen bij de Politie, Gemeenten Den Haag en Amsterdam, IND enz. allemaal hoort en welke debacles ze er mee creëren? Je kunt tegenwoordig 1 PetaByte in een 19″ kast kwijt. Een mainstream board kan 24 cores en 768 Gbyte werkgeheugen kwijt. Daarmee kun je duizenden gebruikers zelfs met RDP per server bedienen (met RemoteApps). Maar RDP wil je alleen maar voor ‘legacy’ gebruiken. Die overheden gebruiken het voor alles (remote desktop) en dan met een hoeveelheid geheugen die nog niet eens genoeg voor de kernel en de footprint van een stuk of 5 tot 10 gebruikers is. Daarmee zetten honderden servers mee op en vervolgens gaan ze koketteren met ‘groen’ koelen (met Amstelwater). 90% van hun applicaties is legacy. De grootste leverancier van consumenteninformatie ter wereld is Axciom o.i.d. Totale bestandsomvang was 380 TeraByte (volgens het artikel dat ik las, een stapel diskettes van circa 6 kilometer). De meeste van de legacy applicaties dateren nog uit de tijd van diskettes terwijl je tegenwoordig in één serverkast circa 500 TeraByte kwijt kunt. Toch hebben die overheden voor hun legacy en wat nieuwe applicaties 5 datacenters van ieder circa 3000 m2 nodig. Waar slaat dat op? Over vier jaar wordt het nog veel gekker.
@Mauwerd: In databases zoek je met statistiek naar dingen die je wil weten. Met database-warehouse-mining zoek je naar wat je in het belang van een bepaalde vraag zou moeten wìllen weten.
@Rob Koelmans: Ja, maar er zijn voor vuurwapens allerlei voorzieningen om het veiliger te maken. Kluizen, trekkersloten en voorlichtingprogramma’s over het veilig opbergen van dergelijken. Voorlichting over veiligsaspecten van zwembaden zijn er zo goed als niet.
In principe kan je met de vraag een bepaalde aanname neerzetten. En de waarom vraag wordt waarschijnlijk vergeten; Waarom blijkt/lijkt het dat zwembaden gevaarlijker zijn dan vuurwapens? Mensen gaan waarschijnlijk onder invloed of na te zwaar tafelen zwemmen en dat kan tot problemen leiden.