Door de veelheid aan beschikbare gegevens dreigen ondernemingen de grip op hun omgeving te verliezen. Dat ziet Computable-expert en trendwatcher Frank Buytendijk als uiteindelijke consequentie van een ontwikkeling als big data. ‘De hoeveelheid beschikbare gegevens is zo groot dat sommigen denken dat deze de werkelijkheid benadert. Maar het blijven schaduwen op de muur.'
Hoe meer informatie er real-time beschikbaar komt, hoe minder we die kunnen gebruiken in besluitvormingprocessen, constateert chief marketing officer Frank Buytendijk van softwareleverancier Be Informed. Buytendijk is op 17 april 2012 dagvoorzitter bij het Big Data Forum 2012 in Almere.
In de steeds grotere datasets die ontstaan, ligt volgens Buytendijk slechts een deel van de werkelijkheid opgesloten. Het probleem is daarvan dat ondernemingen vergeten dat de dataset niet de werkelijkheid is. ‘Wired-hoofdredacteur Chris Anderson beschrijft dat in een essay uit 2008: door de stortvloed aan gegevens heb je geen model meer nodig om de werkelijkheid te beschrijven, je hebt de werkelijkheid gevangen. Maar dat is een illusie. Gegevens worden namelijk vastgelegd door meetinstrumenten, en zijn daardoor per definitie beperkt en gekleurd. Gegevens op zich hebben geen waarde. De betekenis van gegevens is afhankelijk van definities. Ontkoppel je gegevens van het meetinstrument waarmee zij zijn verzameld, dan kleurt dat de data. Dat is het begin van het einde van het datawarehouse.’
Postmoderne ict
Buytendijk ziet datasets door hun omvang en door de complexiteit van de verbanden in de gegevens zich ontwikkelen tot individuen. Ze worden uniek van aard en zijn voor de meeste mensen niet meer te doorgronden. Net als mensen geven deze gegevensbestanden een interpretatie van de werkelijkheid, een opinie. ‘We moeten accepteren dat we in het postmoderne tijdperk van de ict zijn aangekomen, waarin er geen enkele versie van de waarheid bestaat, alleen maar interpretatie. Managers en specialisten doen er goed aan op zoek te gaan naar meer versies van de waarheid, om een rijker beeld van de werkelijkheid te construeren.’
Om zelf grip te krijgen op de ontwikkelingen die hij in de ict-sector ziet, ging Buytendijk te rade bij filosofen als Aristoteles, Plato en Karl Marx. Een van zijn conclusies is dat Karl Marx het einde van bedrijven als Google en Facebook voorspelt. ‘In de tijd van de industriële revolutie werden werknemers tweemaal uitgebuit: in de fabriek en als consument. Doel van de kapitalisten was hun winst te maximaliseren. Voor bedrijven als Google en Facebook is informatie het nieuwe geld. Gebruikers worden leeggezogen. Zij zijn niet de klant, maar het product.’
Ook andere filosofen hebben duidelijke meningen over de huidige ontwikkelingen in de ict, ontdekte Buytendijk. ‘Plato zegt behartenswaardige dingen over governance, Aristoteles had duidelijke ideeën over enterprise architecture.’ De ideeën van de filosofen komen uitgebreid aan bod in een boek dat Buytendijk deze zomer publiceert.
Datatherapeut
Big data moet volgens Buytendijk niet leiden tot grotere datawarehouses of analysesystemen. ‘Op basis van zoveel informatie kun je beslissingen het beste zo diep mogelijk in de organisatie leggen, dicht bij de bedrijfsprocessen. Big data zal dan ook verschuiven naar de hoek van businessprocesinnovatie en niet richting business intelligence en datawarehouse.’
De omvangrijke datasets die door big data ontstaan zullen ook nieuwe beroepen in het leven roepen, voorziet Buytendijk. ‘In 2020 zal er veel vraag zijn naar datatherapeuten. Datasets zullen net als individuen storend gedrag gaan vertonen. Therapeuten zullen door het stellen van vragen aan de dataset het dysfunctionele gedrag analyseren om zo weer tot betrouwbare uitkomsten te komen.’
Datasets zullen ook vatbaar blijken voor psychische stoornissen die bij mensen voorkomen. Denk aan iets als autisme, zegt Buytendijk. ‘Neem die slimme marketeers die in een klantenbestand zes segmenten definiëren die vervolgens elk een gerichte aanbieding ontvangen. Als de conversie sterk omhoog gaat bevestigt dat alleen maar de segmentering, en niet wat de klant wil. Die reageert namelijk alleen op de aanbiedingen die hij krijgt. De klant wordt zijn segment. Systemen reageren niet meer op externe prikkels, alleen op de prikkels die ze zelf genereren.’
Verslaafd
Ook verslaving zal bij datasets kunnen optreden, vreest Buytendijk. ‘Als een algoritme ultiem verfijnd wordt en het krijgt een tijdje geen gegevens te verwerken, kan het algoritme het gebrek aan gegevens gaan interpreteren. Dan gaat zo’n systeem haperen.’
Business managers hebben altijd hun eigen versie van de werkelijkheid geconstrueerd, stelt Buytendijk. ‘Fact-based decision making is een hype. Mensen nemen beslissingen op basis van aannames van de werkelijkheid en zolang je dat beseft is dat prima. Dat we de laatste tientallen jaren hebben gedacht dat wij op basis van feiten beslissingen konden nemen, zal in de tijdlijn van de geschiedenis een kleine afwijking opleveren. Later zullen wij zeggen: wij waren even collectief de weg kwijt.’
Big data is in mijn ogen een te grote marketing hype aan het worden. Iedere leverancier roept er wat over, en heeft de perfecte oplossing er direct voor. Maar wat is Big Data nu eigenlijk? Een collega van mij roept altijd: “Big Data grote onzin”. Ik vind dat zelf iets te zwart wit maar ook Big Data begint net als Cloud een kapstokbegrip te worden waar veel te veel aan op gehangen wordt.
Net als bij Cloud is er nog veel onduidelijk, en ontbreekt aan standaarden. Hier door wordt het voor de bedrijven die actief naar Big Data kijken erg onoverzichtelijk.
Big Data is absoluut hot, maar minder hot als de marketing machines van de diverse leveranciers laten over komen. Zonder Big Data overleef je het ook nog wel.
@Frank: Een mooi artikel Frank!
De analogie met de industriele revolutie zie ik ook, al is niemand geinteresseerd in de opt-out van Google. Echter, zeggen dat fact based decision making een hype is vind ik wat te ver gaan. Immers, was het niet Galileo Galilei die de moderne wetenschap inluidde met zijn empirische onderzoeken en de onsuccesvolle onderbuiktheorieen(geocentrisch wereldbeeld) van Aristoteles en Plato achterliet. Een succesvolle trend die al 400 jaar duurt. Deze trend accelereert zelfs in de wetenschap.
De industriele revolutie automatiseerde fysieke arbeid, een blijvend effect. In het informatietijdperk zijn we nu pas begonnen met het automatiseren van beslissingen. De kapitaalvernietiging die bij veel organisaties plaatsvindt door het niet optimaal inzetten van data is een armoede. De meeste organisaties zijn nog maar net zo ver dat ze informatie uit het verleden inzichtelijk kunnen maken. Tellen dus.
Machine-learning, het leren van beslissingen uit data komt nog maar net om de hoek kijken. De voorspellende modellen die met deze algoritmen geleerd worden uit data zijn overigens veelal adaptief. Het segmentatiemodel kan dus ook realtime worden geupdate met nieuwe data. Toch moet er, zoals je zegt, gewaakt worden voor het creeeren van te gesloten systemen waar je self-fulfilling prophecies krijgt. Hier zijn we alleen nog lang niet en verwacht ik eerder een uitweg via data marktplaatsen als Bluekai dan een terugval naar handarbeid. De uitdagingen de komende periode zullen niet in opslag liggen maar eerder in de analyse, cultuur en procesautomatisering. De ene uitdaging is nog groter dan de andere.
Big data is volgens mij het domein dat begint bij (#rows*#columns*variatie)/tijd >> C, waarbij C een nader vast te stellen parameter is. Het canonieke voorbeeld is petabytes aan data, veel variatie in de kolommen of het realtime willen analyseren van veel data met complexe algortimen.
De informatieberg groeit exponentieel en miljoenen uitgeven aan een SSD-upgrade is niet echt een schaalbare oplossing. Daarnaast zijn veel enterprise BI oplossingen gestaaft op het relationele model terwijl er nu ook nosql data wordt ontsloten. De behoefte onstaat dus, maar er zijn nog geen eenduidige enterprise oplossingen zoals al eerder is aangegeven. Het omgaan met big data vergt andere tools en disciplines.Het big data domein luidt dus een paradigme shift in. Het schept dus uitdagingen voor vendors, BI’ers, organisaties en analisten. Google en Amazon liepen als eerste tegen deze problemen aan. Nu kunnen ze bijna lineair schalen.
@Ruud: Eens. De meeste grote organisaties in Nederland zitten nog lang niet in het big data domein. Voor facebook, google, netflix, foursquare, amazon en banken maakt omgang met big data het verschil. Het lijkt me ook een hype. Echter wat nu niet is gaat komen omdat de dataverzameling en ontsluiting onverminderd doorgaat.
Je zou denken dat je met een ideaal systeem alles slechts één keer hoeft op te slaan. In de praktijk zwerven jouw gegevens over ‘tig’ systemen, wereldwijd. Over vervuiling gesproken – niet persoonlijk bedoeld trouwens. In een overgereguleerde consumptie maatschappij, waar je bij vrijwel alles je persoonlijke hemd van je gat wordt gevraagd, kunnen met die persoonsgegevens kapitalen worden verdiend en dus is die informatie goud waard. En hoe meer ze er van hebben, hoe meer ze kunnen verdienen. Dus stropen bedrijven alle bits en bytes af die ze kunnen vinden, verzamelen ze alles wat los en vast zit en verkopen jouw gegevens weer aan hun klanten.
In plaats van onze gegevens in allerlei databases te proppen via digitale invulformulieren, vragenlijsten en wat dies meer zij, zou het wellicht handiger zijn als iedereen zijn persoonlijke gegevensbank krijgt, die je ook zelf beheert. Bedrijven moeten dan aan jou toestemming vragen of ze jou gegevens mogen matchen met hun product of dienst, maar jij bepaalt vervolgens welke gegevens ze van je krijgen. ‘Dat bepaal je nu toch ook?’, zul je zeggen. Tot op zekere hoogte is dat zo, maar we zijn inmiddels zo gewend dat voor elke bonusaanbieding onze doopceel wordt gelicht, dat we niet eens meer in de gaten hebben wat we eigenlijk weggeven. Als het er op aankomt lig je op straat; wie je bent, wat je doet, wat je eet, wat je weet , wat je vindt, wat je leest, wat je kijkt, alles. Iedereen is zijn eigen product en tegelijkertijd commercieel en openbaar bezit geworden. Feitelijk verliezen we daarmee allemaal grip op de werkelijkheid. In de vorm van big data.
Om in de sfeer van de groten der aarde te blijven, von Goethe schreef in zijn Sonnet “In der Beschränkung zeigt sich erst der Meister” en dat geldt ook voor alle vormen van big data en hoe we daar mee om moeten gaan. De kunst is om van (ongestructureerde) grote hoeveelheden weer gestructureerde kleine hoeveelheden te maken anders snappen we er nog steeds niets van. Waarbij die kleine hoeveelheid informatie (of kennis) oplevert die we anders niet – zo snel – hadden gevonden.
Big data wordt nu wel een hype maar is zeker geen onzin. Vele andere ontwikkelingen gingen ons als hype reeds voor. Big data is ook niet nieuw. De mediasector kent al vele jaren big data bij al zijn vormen van digitale (AV) content en in vele sectoren produceren systemen al jaren lang bergen met sensordata. We worden er alleen nu steeds meer mee geconfronteerd mede omdat we alles online en deels realtime beschikbaar hebben en de hoeveelheden in het kwadraat aan het toenemen zijn. Het bekende ‘antieke’ probleem van de rijstkorrel die verdubbelt op het schaakbord. Wat het verder in de spotlight zet is dat big data nu ook aan onze privacy raakt en wij allen ‘ge-profiled’ worden op een manier waar geen enkele psychiater tegenop kan.
Big data is niet alleen voor marketeers het nieuwe goud dat dan nog wel ‘even’ gedolven moet worden. In met name Healthcare biedt big data enorme kansen voor bijvoorbeeld vroegtijdige diagnose, preventie, betere analyse en persoonlijke medicijnen etc. De zorgsector is wereldwijd de grootste producent van data en nu ook van big data. Daaruit kennis halen zal enorm kunnen bijdragen aan het betaalbaar houden van de zorg en healthy aging. Big data heeft ook een grote maatschappelijke waarde en dat wordt helaas nog wel eens vergeten.
Big data biedt ons in Nederland een enorme kans om internationaal een vooroplopende positie te verkrijgen in het ermee kunnen omgaan. In de USA wordt het overweg kunnen met big data gezien als de ‘second best career opportunity for 2012’ en dat is geen loze uitspraak. Het is ook geen toeval dat de stad Almere als DataCapital volop inzet op big data en het opbouwen van kennis.
Ik zie ook veel kansen in healthcare. Big data analytics bedrijven schieten in de VS als paddenstoelen uit de grond: clearstorydata, opera solutions, dataspora, skytree, metamarkets, enz. De ene naar de andere krijgt funding. GNS healtcare, bijvoorbeeld, specialiseerd zich in precies dat wat Oscar voorstelt.
Via Kaggle, een crowdsourcing platform voor predictive analytics wedstrijden, loopt nu een wedstrijd voor $ 3 000 000 met het doel te voorspellen uit verzekeringsdata hoe lang iemand het komende jaar opgenomen gaat worden in een ziekenhuis.
Voorlopig lopen we nog behoorlijk achter op de VS. De flexibiliteit en innovatie ontbreekt hier. Wellicht dat daar binnenkort verandering in gaat komen. Waarom hebben we nog geen EPD?
Doet me denken aan dit versje van vroeger :
Hoe meer ik leer, hoe meer ik weet
Hoe meer ik weet, hoe meer ik vergeet
Hoe meer ik vergeet, hoe minder ik weet
Waarom leer ik dan eigenlijk???
En waarom Big data ?
@mauwerd: De kunst is om op het juiste moment de juiste dingen te weten, zodat je de juiste dingen kan doen.
Het gaat er bij een informatiesysteem niet primair om hoeveel gegevens erin zitten. Dat is meestal prima verzorgd. Het is belangrijker dat de juiste antwoorden gegeven worden als er een vraag op die gegevens losgelaten wordt. (En het liefst zo vroeg mogelijk in het beslisproces, of (bij predictive analytics) als trigger voor een beslisproces)
De gebruiker van zo’n systeem wil nogal eens van perspectief veranderen. Bijvoorbeeld omdat de markt verandert, regelgeving aangepast wordt, zijn bedrijf reorganiseert of dat een klant andere wensen krijgt.
Dit heeft bij traditionele IT tot gevolg dat de vragen die je aan het systeem kunt stellen hetzelfde blijven, terwijl er andere antwoorden gevraagd worden. Iets dat je graag wilt voorkomen.
De “Big Data” stroming probeert (onder anderen) een oplossing te bieden voor deze behoefte. Daarom dus Big Data.