Gartner-analist Frank Buytendijk zegt dat big data zeker geen hype is. Na ‘magic quadrant’ is ‘big data’ de meest ingevoerde zoekterm op de Gartner-site. ‘Maar het zegt genoeg dat dit onderwerp op de agenda stond van het World Economic Forum en de Bilderberg-conferentie. Als je nu niet met big data aan de slag gaat, dan haalt dit fenomeen jou in. Dan kun je wel inpakken.’
Buytendijk, naast Gartner-analist ook expert bij Computable, hield zijn presentatie op de Gartner ITxpo te Barcelona in een grote zaal. Dat deze helemaal vol zat, zegt ook wel iets over de belangstelling voor dit onderwerp. De term big data noemt hij volslagen verkeerd gekozen. Het heeft niet met big te maken, noch met data. ‘Maar waar hebben we het dan wel over? We spreken van big data als de huidige it-infrastructuur niet meer overweg kan met de drie v’s.”
Hij heeft het dan over volume, velocity (snelheid) en variety (variatie) van data. Big data is van belang voor de business, en heeft effecten voor it, maar de business moet hier leiding aan geven. ‘Niet dat je moet vragen wat de eindgebruiker dan wil, want dat weet hij meestal niet. Maar de business moet zeker betrokken zijn.’
Parkeerterrein
Uit het jongste cio-onderzoek van Gartner blijkt dat er een grote zorg bestaat over het kunnen vinden van het juiste personeel om iets zinnigs met die data te kunnen doen. Er komen op dit vlak wereldwijd 4,4 miljoen banen, waarvan slechts een derde ingevuld kan worden. Voorts is er behoefte aan chief data officers.
‘Het gekke is dat data de nieuwe olie wordt genoemd. De vijfde productiefactor, maar dat er niemand verantwoordelijk voor is. De cio moet zorgen voor een goed it-landschap, maar heeft niks te maken met data. De cfo zorgt voor het geld. De hr-manager voor personeel, de facilities manager voor het gebouw en alles wat erbij hoort. Maar niemand is verantwoordelijk voor data. In de meeste organisaties wordt het parkeerterrein beter beheerd dan de informatie.’
En we moeten echt oppassen dat we geen tovenaarsleerling zijn, waarbij data volkomen verkeerd wordt behandeld, waarschuwt Butytendijk.
Nieuwe inzichten
Het creëren van nieuwe inzichten is iets waar de huidige generatie bi-specialisten en data-analisten zich nauwelijks mee bezig hebben gehouden. ‘Want je gaat externe data toevoegen. Je gaat de dark data in het bedrijf gebruiken. Dat zijn gegevens die ergens in de onderneming liggen te slapen en in combinatie met andere informatie bruikbare inzichten kunnen opleveren. Dit overstijgt de datawarehouses en databases.’
Het gaat om e-mail, rapporten, contracten, mobiele informatie, industrie sentiment (hoe wordt er in social media over de organisatie gepraat?) en netwerkinformatie. Die moet je paren met bijvoorbeeld informatie van sensoren, het weer en economische gegevens.
Buytendijk kondigt het einde aan van het datawarehouse als bron voor bedrijfsinformatie. Die rol wordt overgenomen door het logische datawarehouse, waarin de bestaande datawarehouses een plaats krijgen. Evenals cloud databases, xml, ingewikkelde datatypes, data in HDES, de in-memory database, de datawarehouse appliance, complex event processing, en de kolomgebaseerde database. ‘Bedenk wel dat het gebruik van een logisch datawarehouse valt of staat bij een goede inrichting van master data management.’
Pluim voor NS
Buytendijk kwam met een voorbeeld van een organisatie die op een goede manier big data inzet: de NS. ‘Elk treinstel is uitgerust met beveiligingscamera’s. Dan kun je zien hoeveel mensen er in een coupé zitten. Als je dat deelt door het aantal aanwezige zitplaatsen, dan krijg je een bezettingsgraad. Het is heel simpel, maar dan kun je mensen via hun mobiele telefoon vertellen of ze beter kunnen wachten op de volgende trein, of waar ze een plekje kunnen vinden. Dat heeft de NS goed gedaan.’
CIO staat volgens mij nog altijd voor cief information officer, en heeft alszodanig de verantwoordelijkheid voor alle informatie binnen een orgnaisatie en alle informatieverwerkende systemen. Dat CIO vaak verwordt tot chief IT officer is een heel ander verhaal…
Ik snap niet wat het meten van een bezettingsgraad (wat je per coupe ook handmatig kan tellen, zo weinig data is het) nu met big data te maken heeft. Het gaat om heel weinig data, de data is extreem georganiseerd (het aantal zitplaatsen in een coupe verandert niet tijdens de rit) en het is maar 1 bron van data. Daarnaast sturen conducteurs en machinisten al vele jaren hun passagiers naar coupes waar nog wel ruimte is, niks nieuws onder de zon.
Handig dat je de berichten nu via de mobiel kan ontvangen, maar het heeft niks met big data te maken. Ook niet wanneer Gartner dat roept.
@Jans. U raakt de kern van het verhaal. Big data heeft volgens Buytendijk niks met big en niks met data te maken. In het geval van de NS: bij elk station wisselt het aantal zitplaatsen. De conducteur kan alleen iets vertellen als je al wilt instappen. Geen berichtje thuis op het mobieltje dat je beter een volgende trein kunt pakken. Wel iets nieuws onder de zon.
‘Elk treinstel is uitgerust met beveiligingscamera’s. Dan kun je zien hoeveel mensen er in een coupé zitten’
Meen me te herinneren dat camera’s met ander doel zijn opgehangen en dus zou ik niet te snel in conclusies springen omdat NS nog steeds onvoldoende scoort op de sociale veiligheid en ‘zitplaatskans’ in de spits. En er zijn nog meer verbeterpunten waar het niet om het verkrijgen maar het verspreiden van de informatie gaat.
Gekozen voorbeeld is sprekend voor het gevaar van Big Data waar ‘Cherry Picking’ resulteert in data vooroordelen en verkeerde voorstelling van zaken, het weggooien van ‘onhandige’ datapunten. Er zijn dan ook nog teveel voorbeelden van valse causaliteit, data bagger-en data manipulatie om op die manier te bewijzen dat slapen met je schoenen aan hoofdpijn veroorzaak omdat gegeven van dronken naar bed gaan weggelaten is.
Nu zal ik niet zeggen dat data analyse zoals dat al jaren gedaan wordt met allerlei grids geen waarde heeft maar ik heb mijn twijfels over het nut van ‘dark data’ waar dictatuur van gegevens onze privacy bedreigt.
http://www.nytimes.com/2013/06/11/books/big-data-by-viktor-mayer-schonberger-and-kenneth-cukier.html?_r=0
@Ewout
las inderdaad vandaag ook zoiets :
http://www.computerworld.com/s/article/9243719/Big_data_blues_The_dangers_of_data_mining
Vind de definitie die op Wikipedia te vinden is nog de meest begrijpelijke:
http://en.wikipedia.org/wiki/Big_data
Daar komt ook de definitie van big data van Gartner in terug. Ik denk dat gedistribueerdheid het woord is wat op big data van toepassing op is. Van invoer, opslag en verwerking. Het voorbeeld van de trein en de bezetting is misschien niet big in de zin van enorm veel maar wel het probleem van data dat van veel en verschillende plekken vandaan komt. Het is al gauw big en laat zich niet verwerken en opslaan op 1 enkele computer. Ik denk dat de uitdaging is om te herkennen welke data een organisatie in huis heeft en wat je ermee kan aanvangen. Big of niet big. De beschikbare techniek (Is dat een ict-feestje? Daar houden wij hier toch niet van?) bepaalt de mogelijkheden en wat je kan aanvangen met de data die je ter beschikking staat. Wat dat betreft zijn de ontwikkeling op het gebied van cloud computing (bv hadoop) hier ook een aanjager in. Want als er nu organisaties zijn die met ‘big data’ te maken dan zijn het wel de grote internetgiganten.
Maar zoals altijd gaat met een hip begrip (nu big data, cloud), gaat men ermee aan de loop en verwordt het een vaag begrip, iets abstracts en onbegrijpelijk en komt het overal te pas en te onpas terug. Vandaar dat het ook verstandig is als er een boek geschreven wordt over het gerommel met data en privacy daar nu ook maar het label big data aan te plakken. Uit verkoopoogpunt beter en nog beter als je het vlak voor Sinterklaas en de Kerstman uitbrengt.
Verder vroeg ik me af, bestaat er ook zoiets als big computation? Want met de huidige mogelijkheden om rekenkracht naar wens aan te spreken zou je dat wel denken. Nog maar eens effe googelen.
@Rob Dijkshoorn, CIO mag dan wel voor chief information officer staan, hij of zij is er zelden voor verantwoordelijk. Meer verantwoordelijk voor processen en systemen. Eigenaarschap van gegevens wordt ook vaak actief bij de business neergelegd. Het is dus niet zo dat de CIO het niet krijgt, maar vaak ook niet wil.
Er is een nieuwe rol in opkomst: chief data officer, vandaag veelal in overheid en in financiele dienstverlening. Ook in NL al gesignaleerd.
Net zoals de CFO overigens niet het eigendom over het geld heeft, maar het gebruik van geld in goede banen leidt, is de CDO ook niet verantwoordelijk voor alle information, maar zorgt voor het in goede banen leiden, middels bij MDM and information management.
Beste Louis,
Dat boek wat je wilt hebben bestaat: het heet Socrates Reloaded en het is ook op Computable.nl gereviewed. Het is een uitstekend boek en ik kan het weten, ik heb het zelf geschreven ;-).
De andere kant van big data is momenteel een belangrijk research onderwerp. Als je toegang hebt tot Gartner research, zoek maar eens op mijn naam. Anders, zorg dat je bij een van mijn workshops zit op het gebied van ethiek en technologie. Bijvoorbeeld op Gartner BI Summit in London, 10-11 maart 2014.
frank
Frank, ik ben benieuwd naar het boek. Heb de recensies gelezen en die waren enthousiast, dat klonk goed. Maar big data en ethiek, het onderwerp ethiek en ict is een onderwerp van belang voordat de term big data al bestond. Ethiek is altijd al aanwezig geweest, maar mooi dat het onderwerp ter discussie wordt gesteld. Want ik denk wel eens dat de term ethiek niet meer bestaat, of ze nu Snowden, NSA of Google heten. Om een paar voorbeelden te noemen.
@Louis Kossen,
Big data was maar een deel van de aanleiding voor het boek. Ethiek en technologie is inderdaad het bredere onderwerp waar het boek over gaat.
Het was altijd al belangrijk, maar wordt nu urgent. We zijn met alle technologie net Disney’s Tovenaarsleerling. Out of control.