Big data is een populair gespreksonderwerp, waarbij vooral veel wordt gesproken over de hoeveelheid peta – en zettabytes die over ons uitgestort worden. De big data uitdaging is echter veel breder dan alleen de hoeveelheid data die we tegenkomen. In deze bijdrage ga ik in op deze uitdaging en toont ook aan welke waarde big data heeft, in de vorm van nieuwe inzichten, hogere omzet en lagere kosten.
De petabytes zorgen zeker voor uitdagingen, omdat deze datavolumes niet meer met relationele database management systemen zijn te behandelen. Deze database bevat veelal niet de mogelijkheden (tekstuele analyses) om hiermee om te gaan, is te dwingend in gebruik (relationeel) of het loopt qua kosten (grote volumes) de spuigaten uit. Maar ook de snelheid waarmee de data zich verspreidt, het datamodel, de onderlinge relaties en de kwaliteit van de data zorgt voor complexiteit. Als laatste hebben we nog te maken met afwijkende structuren, zoals semi-, quasi- of ongestructureerde data.
Deze complexe datastroom wordt onder andere veroorzaakt door mobiele devices, slimme meters, logbestanden, rfid, websites en -services, geo toepassingen, documenten, e-mails, medische toepassingen, sociale netwerken, publieke datasets en audio/videobestanden. Het mag duidelijk zijn dat de grootte van de data slechts een van de dimensies is. Meer dan BIG alleen dus, complex data zou een betere naamgeving zijn.
Deze nieuwe uitdagingen moeten zowel aan de kant van ict/bicc (business intelligence competence center) als aan de gebruikerskant geadresseerd worden om adequaat te kunnen reageren op deze datastromen.
Kostenbesparing
Inzet van een gedistribueerd opslag- en verwerkingsplatform, waarbij data in ruwe vorm wordt opgeslagen, biedt interessante mogelijkheden, door de datacompressie en rekenkracht. Een voorbeeld van zo'n platform is Hadoop, dat door steeds meer softwareleveranciers wordt omarmd en zich daardoor lijkt te ontwikkelen als de standaard voor gedistribueerde opslag en verwerking van ruwe (onbewerkte) data.
Ict/bicc krijgt hiermee de beschikking over een relatief goedkope data-infrastructuur, die eenvoudig kan worden opgeschaald zodra er nieuwe complexe databronnen ontsloten moeten worden. De kostenbesparing wordt gerealiseerd doordat Hadoop op relatief lichte hardware draait, en vooral bestaat uit open source componenten.
De mogelijkheid om al die complexe data gecomprimeerd op te slaan biedt interessante aanvullingen op de bestaande business intelligence voorzieningen, zoals het bieden van opslag voor archivering van historische data, of voor delen van de staging area. Middels deze archivering/staging kan op ieder moment het datawarehouse en/of de datamart gevuld worden met informatie conform de dan geldende business rules en informatiebehoefte. Etl (extract, transform & load) functionaliteit richting het datawarehouse wordt deels verplaatst naar de gedistribueerde omgeving, waarmee een zeer goede performance kan worden verkregen. Hiermee is een zeer flexibele business intelligence omgeving haalbaar en dient Hadoop als ‘voorportaal' voor de business intelligence omgeving.
Ook documenten of andere ongestructureerde content kunnen via Hadoop worden bewaard, waarmee een integratie tussen twee traditioneel gescheiden kampen – data en documenten – dichterbij komt. Juist voor deze toepassing is Hadoop interessant, omdat het oorspronkelijk vanuit deze behoefte is ontwikkeld. Aangezien de complexe data voor circa 80 procent bestaat uit ongestructureerde data, ligt daar dus bij uitstek een mogelijkheid om nieuwe inzichten te verkrijgen.
Nieuwe inzichten en hogere omzet
Nu de organisatie met Hadoop deze data-voorziening heeft, kan de data scientists aan de slag om op basis van deze data nieuwe inzichten te verkrijgen. Natuurlijk zijn er interessante inzichten te verkrijgen uit het analyseren van een enkele (zeer grote) databron, maar juist de combinatie van verschillende bronnen is interessant, zoals de koppeling van gegevens uit bijvoorbeeld het klant- en verkoopsysteem met gegevens uit sociale netwerken, wat inzicht kan geven in de tevredenheid van de klant, bijvoorbeeld door gebruik van sentiment analyse. In combinatie met statistische/ datamining modellen kan voorspeld worden wat de kans is dat klant gaat aanblijven of vertrekken. Meer grip op de klant dus.
Een ander voorbeeld waar extra omzet mee wordt gegenereerd is het aanbevelingsmechanisme wat bij veel webwinkels in gebruik is, veelal wordt dit gebruikt om minder frequent verkochte (longtail) artikelen onder de aandacht van de consument te brengen.
Via het extraheren van metadata uit ongestructureerde content kan informatie gericht worden aangeboden aan bezoekers van een website. Hiermee wordt de beleving van de bezoeker beter, wat een hogere conversie oplevert en dus de kans groter maakt dat deze bezoeker in de toekomst terug gaat keren. Door deze metadata extractie is het koppelen van data aan content ook mogelijk, en wordt een integraal klantbeeld mogelijk: welke orders heeft een klant geplaatst, welke brieven en e-mails zijn er verstuurd. Hiermee kunnen we de klant beter van dienst zijn, wat ook weer leidt tot een verbetering van de relatie.
Gegevens van slimme energiemeters kunnen samengevoegd worden met weersgegevens en overige klantgegevens (ook uit documenten en sociale media), waardoor gericht advies kan worden gegeven omtrent energiebesparing. Hier geen omzetverhoging, maar zeker maatschappelijk relevante inzichten.
Nieuwe technologie en nieuwe vaardigheden
De introductie van Hadoop in de organisatie vergt andere vaardigheden van de business intelligence consultant. Het database systeem met fancy interfaces wordt deels ingeruild voor een omgeving waar het gebruik van de command line interface meer regel dan uitzondering is, en aanvullende skills naast het maken van sql-query's benodigd zijn. Echter gezien het tempo waarmee Hadoop wordt geaccepteerd door de markt zal ongetwijfeld ook snel leiden tot handige gebruiksinterfaces.
Aan de gebruikerskant zijn analisten (data scientists) met kennis van statistiek en datamining nodig om de inzichten op basis van deze data te verkrijgen. Ook voor deze analisten geldt dat ze de nodige technische bagage zullen moeten hebben, om niet continu afhankelijk te zijn van de ict'ers voor het benaderen van de complexe databronnen.
Conclusie
De kritische lezer zal zeggen: what's new, dit deden we allemaal al, maar dan onder andere noemers, zoals competitive- of customer intelligence. Deels is dat juist, en is big data een containerbegrip: een verzameling van technieken en vaardigheden om specifieke – complexe data – uitdagingen op te lossen. Hadoop als concrete toepassing is echter een ontwikkeling die door organisaties vanuit een specifieke probleemstelling is ontwikkeld en vervolgens als open source beschikbaar is gesteld. Door de brede acceptatie ontwikkelt het zich tot een goedkoop en eenvoudig te verkrijgen hulpmiddel, waar bij de meeste traditionele intelligence oplossingen geen sprake van is.
In dit artikel is aangetoond hoe het gebruik van deze complexe – veelal nieuwe – databronnen en bijbehorende nieuwe technologie, benut door met de juiste skills uitgeruste medewerkers, concreet kan leiden tot inzichten en opbrengsten en daarmee tot een groei naar een hoger volwassenheidsniveau, waar bijvoorbeeld het verschil kan worden gemaakt met de concurrentie.
Voor ict/bicc zal een belangrijke rol liggen in het faciliteren van de organisatie om deze nieuwe technologie zo goed mogelijk te laten gebruiken.
Hoi Johan,
Goed artikel. Je schrijft ondermeer: “Via het extraheren van metadata uit ongestructureerde content kan informatie gericht worden aangeboden aan bezoekers van een website. ” Heb je al eens naar taaltechnologie gekeken? Ik heb net in Computable een artikel daarover geschreven onder de titel “Taaltechnologie wordt steeds belangrijker”. Wellicht eens tijd voor een kop koffie?
Als je van wollig taalgebruik doorspekt met marketing terminologie houdt zal dit vast een goed artikel zijn. Volgens mij bevat het maar weinig concrete relevante informatie. Misschien is het artikel zelf een manier om te laten zien dat veel data overweldigend kan overkomen?
QUOTE:
Deze complexe datastroom wordt onder andere veroorzaakt door mobiele devices, slimme meters, logbestanden, rfid, websites en -services, geo toepassingen, documenten, e-mails, medische toepassingen, sociale netwerken, publieke datasets en audio/videobestanden.
Welnu, dit is toch vrijwel allemaal non data, van generlij waarde, welicht uitgezonder voor marketing doeleinden.
Complex data is ook zo’n gebakken lucht uitdrukking.
Alle relationele data is complex, daar is weinig bijzonders aan.
Nee dit artikel lijkt vooral over marketing te gaan.
Prima stukje, Johan.
Wat betreft de “non-data van generlei waarde”: documenten omvatten ook contracten. E-mails bevatten uitspraken die te maken hebben met juridische aansprakelijkheid. En alle publieke datasets bestempelen tot “waardeloos” getuigt van “generlei” inzicht in de waarde van data. We hebben het over meer dan 2 miljoen gedocumenteerde datasets. En de data uit geo-toepassingen waardeloos? Daar zullen ze op veel plekken wel van achterover slaan. Bij TomTom bijvoorbeeld. Of de politie.
Verder is niet alle relationele data (wat dat dan ook mag zijn) complexe data – anders zou er weinig terechtkomen van automatisering, gezien het niveau van sommige “automatiseerders”. Niet iedereen heeft een IT-opleiding.
De afkerige reactie die ik hier proef in het commentaar lijkt de tegenhanger te zijn van de NoSQL beweging (die het hele relationele landschap doodverklaart). Beide zijn naar mijn mening onterecht. Er valt veel waarde te halen buiten de relationele database, het wordt tijd dat we daarmee beginnen. *Zonder* meteen de verworvenheden van de afgelopen decennia overboord te zetten.
Johan, prima artikel.
@Peter: ik zie helemaal niks wolligs, en Johan geeft juist een paar hele praktische voorbeelden. Computable biedt nooit diepgravende technische artikelen. Het is heel moeilijk om technische onderwerpen op een eerlijke manier te versimpelen en dat heeft Johan prima gedaan. Misschien heb jij het gewoon niet aandachtig genoeg gelezen, of er niets van begrepen?
@Pascal: non-data, en van generlij waarde? Is dat niet aan de business om dat te bepalen? En sinds wanneer is marketing geen waardevolle businessactiviteit? De term “complexe data” slaat op het feit dat de structuur niet alleen maar twee-dimensionaal is zoals tabellen in een relationele database. Was dat nu echt zo moeilijk te begrijpen?
@Johan,
Ik ben het helemaal eens met je dat Hadoop een veelzijdig en veelbelovend platform is voor data analyse. Wel denk ik dat die rol van “data scientist” nog grotendeels ingevuld zal moeten worden.
Ik denk dat het enerzijds vrij diepe kennis van de business vereist om te kunnen verzinnen wat voor een soort analyses waardevol zijn. Anderzijds zal er kennis van statistiek nodig zijn om de kwaliteit van de analyses te kunnen garanderen. Tot slot zal deze ook de nodige programmeerkennis in huis moeten hebben om efficient deze zaken te kunnen combineren tot map/reduce jobs.
Het onderwerp is heel herkenbaar. Vanuit mijn ervaring wil ik daar het volgende aan toevoegen.
Bigdata hoeft niet alleen voor marketing interessant te zijn. Momenteel zit ik in een opdracht waar metingen over het frequentiespectrum heel veel data oplevert. Eén meting kan per dag zo´n 200 mld meetresultaten opleveren. Het bijzondere is dat het meetresultaat zelf weinig waarde heeft. De kern van mijn opdracht is om uit deze meetresultaten informatie te halen. Daarvoor zijn complexe algoritmes nodig, uitgevoerd door data-analisten.
Dus ongestructureerde bronnen zijn niet per definitie complex. De uitdaging zit in de interpretatie ervan én de integratie met gestructureerde
bronnen. Dat vraagt andere technieken en vaardigheden. En daar zitten -zoals je schetst- ook de toegevoegde waarde.
Aardig artikel op niveau!
Overigens, de term ‘slimme’ energiemeters is m.i. onzin: ze zijn *online* en dat is, behalve een extra risico, voor Big Data van belang. Het ‘slimme’ aspect komt uit de Big Data analyse en die zit helemaal niet in de meter. Bovendien heb je daar de online meter niet voor nodig. Juist door de klant erbij te betrekken (zijn meterstand te inspecteren en bij te houden) heb je kans op gedragsverandering – en dus de beoogde besparing.
@Roland Bouman
Computable bied inderdaad weinig technisch diepgravende artikelen aan maar dat hoeft niet te betekenen als er iets meer technische artikelen worden gepresenteerd er volledig in vaktaal wordt omgeschakeld. Om van onnodige anglicismen te zwijgen.
In het verleden was hier een artikel over dat aangaf dat het de ICT kwalijk wordt genomen dat zij onnodig veel vaktaal gebruikt. In dat opzicht lijkt me dit hier een mooi voorbeeld van.