Bestaat ‘big data’ eigenlijk wel? Of is het relatief? Zegt het mogelijk iets over waar je vandaan komt? Hoe dan ook, de ontwikkelingen rondom big data bieden volop kansen. Maar het zorgt ook voor veel nieuwe uitdagingen, onder meer op het gebied van data-integratie. Daarbij draait het er ook om hoe omvattend/complex de databronnen zijn en vooral hoe snel de informatie is te integreren om er dan nieuwe actiegerichte inzichten uit te kunnen putten.
‘Big’ is voor een kleine kruidenier iets heel anders dan voor een grote onderneming. Big data is alles wat valt buiten de comfortzone van een organisatie om te verwerken. De vraag rijst hierdoor of big data dan niet gebonden is aan de ‘mate van volwassenheid’ van een organisatie.
Bedrijven kijken vandaag de dag anders tegen data aan dan een paar jaar geleden. Kijk bijvoorbeeld naar de logdata van webservers. Die machines slaan in hun logbestanden het opvragen van en doorklikken op webpagina’s op. Vanaf welke ip-adressen gebeurt dit? Met welke cookiedata? Enzovoorts. Allemaal gegevens die best waarde in zich kunnen hebben, maar het gros van de logdata kun je eigenlijk weggooien. Alleen weet je niet wát je precies kunt weggooien. Bovendien is er ook een verschuiving in de waarde van dergelijke gegevens over surfgedrag. Wat vroeger zeker gewist kon worden, kan nu juist waardevol blijken te zijn.
Waar het vroeger bijvoorbeeld niet bepaald interessant was welke andere pagina’s een websitebezoeker zoal bezocht, daar kan dat nu juist cruciaal zijn. Neem bijvoorbeeld realtime recommendations, wat veel online-retailers inmiddels doen. Of profielverrijking, zodat je als leverancier beter snapt waar de behoeften van klanten liggen. Deze marketingtoepassingen van big data hebben voor een bredere visie op het nut van data-integratie gezorgd. Organisaties zien dat er meerwaarde zit in het koppelen van de websitedata aan de traditionele informatiebronnen zoals een crm-systeem.
Groeiende databergen
Op het eerste gezicht lijkt de groei van de data die bedrijven vergaren, opslaan en correleren wellicht geen groot probleem. De opslagcapaciteit van opslagmedia blijft maar toenemen en de prijs per gigabyte is aan neerwaartse druk onderhevig. Alsof harde schijven gehoorzamen aan een eigen versie van de bekende Wet van Moore. Maar die vlieger gaat niet helemaal op. Want niet alleen is de groeicurve van capaciteitstoename voor opslag minder steil dan die voor processors, ook is die opslaggroei niet in staat de data-explosie echt voor te blijven.
Bijkomend probleem voor het omgaan met de informatie-explosie is software. Specifiek: databasesoftware. Veel van de opdoemende databergen zijn niet zomaar op te slaan in een relatief dure gestructureerde database of in een kostbaar datawarehouse. Want in die enorme databergen zit weliswaar goud, of mogelijk goud, maar het is nog onbekend hoeveel en wáár. Bovendien zijn veel van die data ook nog eens ongestructureerd.
Angst voor Linux
Hier komt de open source-software Hadoop om de hoek kijken. Hadoop volgt nu het pad van Linux. De markt adopteert het gaandeweg voor serieuzere toepassingen. Beide technologieën komen uit een hele andere wereld dan de reguliere bedrijfswereld en vereisen in de kern nogal wat technische kennis, ook van gebruikers.
Er was eerst ook angst voor Linux, maar voor dit veelgebruikte open source-besturingssysteem zijn er jaren terug al partijen opgekomen als Red Hat, die de kernsoftware combineren met zakelijke toepassingen en dat prepareren in één zakelijk zó in te zetten geheel. Voor Hadoop begint dat proces van zakelijke ‘packaging’ nu ook. Zo kun je Cloudera en Hortonworks vergelijken met Red Hat voor de bedrijfsadoptie van Linux.
Hadoop onder de motorkap
Hadoop is nu nog eng en lastig voor veel bedrijven. In de regel hebben zij namelijk aparte technische mensen nodig. Niet alleen voor installatie en configuratie, maar ook voor onderhoud en zelfs het dagelijks gebruik. Ervaren programmeurs die naast code-skills ook beheerderstalenten hebben plus de kennis en kunde van data-analisten. Een zeldzame en dus kostbare optelsom van kwaliteiten. Ondanks die complexiteit is Hadoop in trek, want het biedt zoveel voordelen.
Voordelen die je kunt benutten door het gebruik van tools die Hadoop onder de motorkap houden waarbij de complexiteit van de software wordt afgedekt met voor bedrijven bekende processen en programmatuur. Klanten kunnen zich dan richten op het daadwerkelijke gebruik van de tools voor data-integratie, in plaats van dat ze eerst nog experts nodig hebben op het gebied van de onderliggende software. De opgeslagen data in Hadoop is dan veel eenvoudiger te prepareren en te ontginnen. Door data-analisten en zelfs door gewone gebruikers.
In dit verhaal mis ik een paar zaken.
Big Data heeft ook big vervuiling van Data.
Dat is eigenlijk nooit ongestruktureerd, als iets bewaard wordt dan toch echt met een bepaalde struktuur de kombinatie van verschillende strukturen kan “ongestruktureerd voorkomen maar is dat niet.
De vraag naar het al of niet legitieme aan de verzamlewoede vindt ik hier niet.
Als laatste, Linux is niet ingewikkeld, althans niet ingewikkelder als Unix dat we al enige tientallen jaren gebruiken, net als clusters.
Bigdata als berg met daarin verstopt wat de business wil : Goud !
Helaas is het er maar lastig uit te halen en nog erger, men weet vaak niet eens hoe dat goud eruit ziet, als ik het artikel lees. En dan hangt het ook weer af van de tijd. Surfgedrag is nu de moeite waard om te bewaren. Erger nog, de databerg groeit harder dan de storagemogelijkheden lezen we en het wordt alsmaar moeilijker met Linux enzo en Hadoop en IT ers die het wel begrijpen.
We hadden vroeger een hond thuis, een reu die ook op zoek was en ook niet begreep waar, hoe en waarom. Dus pakte die maar een kussen om tekeer op te gaan, waarna wij weer konden wassen.
Business als hijgende hond zien. Zegt dat nu iets over mijn mate volwassenheid of die van de business ?
In ieder geval kan ik de troep weer opruimen.
Grappig dat ook hier weer wordt gesteld dat in grote bergen data, goud is te vinden. In veel gevallen is dat niet het geval, of is het zo weinig dat het niet de moeite waard is. Maar waarom negeert men weer (!) al het zilver, steenkool, olie, zout, etc. etc. etc. ? Ga toch aan de slag met wat je data waard is en beschouw een klompje goud maar als een krent in de pap. Mooi dat je dit klompje goud hebt gevonden, maar probeer je dagelijks brood toch maar te verdienen met de overige waarde van je data. Daar verdien je veel meer mee.