Je zou als IT-architect maar bij een grote onderneming werken en de vraag krijgen: wat is onze big data-strategie? In één adem daar achteraan volgt dan de vraag: doen wij ook iets met Hadoop? Big data en Hadoop lijken onlosmakelijk met elkaar verbonden. Ik zie bij veel organisaties een gevoel ontstaan van ‘we moeten hier iets mee en wel zo snel mogelijk’. Dit echter zonder dat precies duidelijk is wat men met de technologie kan of wil bereiken.
Uit angst niet achter te blijven wordt Hadoop gebombardeerd tot de big data-strategie van het bedrijf. Dan doen we immers mee met de rest en hebben we een antwoord op de gestelde vragen. Vanuit mijn optiek is dit geen wenselijke situatie. Ja, Hadoop is een krachtige technologie, maar niet het logische antwoord op de grote big data-vraag.
Business case
Een eerste belangrijke stap bij het bepalen of het goed is om aan de slag te gaan met Hadoop, is het bouwen van de business case. Dit is bij de ene partij een eenvoudiger proces dan bij de andere. Zo is het bijvoorbeeld voor online retailers evident. Zij hebben bij uitstek veel te maken met data rondom webgedrag en willen dit kunnen combineren met bestaande klantgegevens uit het datawarehouse om daarmee zo mogelijk direct aanbevelingen te kunnen doen op basis van koopgedrag van vergelijkbare klanten. Het gaat hierbij om zoveel data dat je al snel kunt concluderen dat alleen een Hadoop-omgeving dit tegen aanvaardbare kosten kan doen. Alleen door het opbouwen van een goede business case kun je de investering in Hadoop voldoende rechtvaardigen.
Investering? Ja, want ondanks dat Hadoop open source is heb je wel degelijk te maken met kosten. Zo bevat Hadoop veel verschillende technologieën, die bovendien voortdurend in ontwikkeling zijn.Om met het platform te werken is kennis hiervan onmisbaar en het opdoen van kennis vereist nou eenmaal een investering. Ook wekt het feit dat het platform open source is de indruk dat het een ‘plug and play’-oplossing is. Echter om de voordelen van Hadoop maximaal te benutten, is het downloaden pas het begin.
Factoren
Als de business case sterk is en de kenniscomponent is ingevuld, lijkt het alsof het licht voor de implementatie op groen staat. Echter als dit platform gebruikt gaat worden in (cruciale) informatievoorzieningsprocessen, moet nog een aantal factoren op orde zijn:
– Toegang tot data
Data kan in een Hadoop-omgeving op verschillende manieren fysiek worden opgeslagen, waarbij het niet vanzelfsprekend is dat je de data transparant, efficiënt en eenvoudig kan benaderen, bewerken en beheren. Eenduidige toegang is belangrijk bij Big Data-toepassingen. Je tools voor toegang en connectiviteit moeten op eenzelfde manier bij de Hadoop-omgeving kunnen aansluiten zoals rdbms’en en enterprise applicaties.
– Beveiliging
Verzeker jezelf ervan dat er veiligheidsmaatregelen zijn genomen rond je Hadoop omgeving. Als je je bedrijf bestuurt vanuit dit platform, dan wil je niet dat iedereen zomaar toegang heeft. Ook wil je zeker weten dat het systeem niet down gaat en je daarmee geen toegang meer hebt tot je data.
– Performance
Hadoop is ontworpen voor big data, maar je moet het platform wel beheren om de beste prestaties te kunnen halen. Denk erover na hoe je sla’s gaat halen en zorg ervoor dat je voldoende kennis hebt van de omgeving en de mogelijkheden van de software die je gebruikt. Een juiste balans tussen capaciteit en workload is belangrijk binnen Hadoop.
– Integratie
Zorg dat duidelijk is hoe Hadoop aansluit en zich verhoudt tot de andere componenten in je infrastructuur. Het is belangrijk te begrijpen hoe de hardware omgaat met de groei van de workload. Zorg dat het op het juiste niveau werkt, begrijp welke informatie erin komt en welke informatie eruit gaat. De slimste bedrijven combineren ideeën en inzichten voor big data met hun traditionele databronnen. Een goede Hadoop-implementatie benut de voordelen van de beschikbare all in-memory implementatiescenario’s. Dit zorgt voor significant betere analyses en geeft vertrouwen aan degenen die de beslissingen moeten nemen.
Strategie
Het is duidelijk dat de keuze voor Hadoop een weloverwogen beslissing moet zijn waarbij de implementatie en het gebruik ook de nodige aandacht vereisen. Alleen dan kun je zorgen dat deze technologie een positieve bijdrage kan leveren aan je big data-strategie en uiteindelijk aan je bedrijfsdoelstellingen.
Tsja, ik vind het een goede opinie welke heel terecht stelt dat Hadoop alleen maar de techniek is want niet de analyse zijn nog een heel ander verhaal. En Big Data is zeker niet het antwoord is op alle vragen want zoals analisten van Ovum al stelden: Het moet dus helpen om operationele efficiency te verbeteren, risico’s te mitigeren en zorgen voor een ‘holistic customer view’ in plaats van een leuk speeltje te worden.
“wat is onze big data-strategie? In één adem daar achteraan volgt dan de vraag: doen wij ook iets met Hadoop?”
Als je deze vraag krijgt weet je in ieder geval dat iemand geen clue heeft waar het over gaat maar iets gelezen heeft over big data en het nieuwe goud.
Het enige echt uitdagende uit Big Data is de algoritme om er iets uit te halen en daarbij ontkom je niet aan wiskunde, algebra en een hele hoop pielen.
“Zo is het bijvoorbeeld voor online retailers evident.”
In mijn ogen hebben online retailers ook qua web analytics nu niet echt ongestructureerde data en zou ik overigens niet per se voor Hadoop kiezen, maar eerder Red Shift.
Hadoop betekent maatwerk en de grootste kracht in mijn ogen van Hadoop is dat je parallel kan kunt werken om tijdwinst te boeken (rekenkracht uitschalen) en dat je heel gemakkelijk kunt pielen met data uit bestanden zonder vaste tabel structuur.
De kosten van Hadoop zitten hem vooral in het hebben en consumeren van rekenkracht waarbij cloud computing heerlijk om aansluit omdat je dan niet betaald voor capaciteit die je niet gebruikt en alleen betaalt voor de (gedistribueerde) bewerkingen die je uitvoert. Oja, en in de uren die gaat zitten in het bouwen van jobs, pielen met data et cetera.
Hadoop is commodity, het is de machine learning / training en kennis op doen waarin de meeste tijd en geld gaat zitten. Hadoop is just a tool en er zijn steeds meer alternatieven.
Er is in ieder geval geen shortcut naar het te gelde maken van big data. Er gaat genoeg tijd en geld naartoe en daarmee is Big Data per definitie een zeer goede kandidaat voor WBSO subsidie, want daarvoor heb je een probleem nodig waarvan je niet zeker weet dat de oplossingrichting werkt.
Wat betreft Big Data en strategie… focus op een simple working system en haal daar een klein voordeeltje uit, vanuit dat vertrekpunt ga je verder en stel je een roadmap op.
Toen ik dit artikel las dacht ik dat het niet specifiek is voor “big data” na mijn eerste zin werd ik onderbroken (die is gelukkig verwijderd).
Wanneer je hier Hadoop vervangt door een groot ERP dan is het artikel nog steeds geldig, in die zin een goede leidraad. Anderszins ligt veel ervan tamelijk voor de hand zoals funktionerende hardware, security en performance. Waar het online retailers betreft heb ik mijn twijfels, een paar grote zoals amazon kunnen hier misschien wat mee maar het meerendeel is al blij met een statistiekje van de bezoeker-aantallen en referers.
Overigens beschouw ik “big data” net als “cloud” een veel te onspecifieke kreet, sommige webapplicaties worden inmiddels ook al als cloudoplossing verkocht, dat zal met “big data” niet anders zijn want wat is “big”, dat hangt af van je referentiekader.
Ewout: ik vraag ook altijd: ‘welk business probleem wil / kun je gaan oplossen?’
Henri: jouw eerste zin is dus inderdaad een punt; en dat heb ik meerdere malen langs zien komen de afgelopen 2 jaar. Ik was 2 jaar geleden bij Gartner in London, en daar leek het wel of iedereen een ‘big data’ probleem had, of in ieder geval zou moeten hebben. Vervolgens zie ik dat (te) snel naar technologie wordt gekeken, of gegrepen. Een Hadoop omgeving heb je als speeltuin immers snel gedownload. Maar dan?
Ik reageer ook nog even op jouw opmerking rondom ‘ongestructuureerd’. Het is nl een interessante vraag om de vraag aan de klant te stellen hoe hij dat definieert! Weblogs? Mwah, zit best wel wat strucuur in, hoor! Of heb je het over documenten, e-mails, call center gesprekken, social networks?
Jan: ik denk dat je je vergist in de volwassenheid van (een aantal) online retailers in NL. Partijen die op dit moment al data uit het dwh analyseren richting een Hadoop cluster, bezig zijn met recommender engines etc.
Jouw laatste opmerking zou van mijzelf kunnen zijn: ik sluit mij aan bij mijn collega Paul Kent die zegt:’Big data is relative. Data that is of such volume, variety, and velocity (or the pace at which it is changing) that it puts an organization outside of its comfort zone to technically derive intelligence for effective decisions.’