Big data is – met cloud computing – dé trend in de Iitmarkt. De verwachtingen zijn hoog gespannen. Niet in de laatste plaats onder business-managers. En terecht, want met big data-technologie kan it een waardevolle bijdrage leveren aan het succes van de business: realtime inzicht in de zee aan gegevens die we dag-in-dag-uit over klanten, de markt en onze partners en leveranciers verzamelen.
Er is natuurlijk altijd een ‘maar’. Die heeft in dit geval te maken met het feit dat big data bij voorkeur in realtime dient te helpen om betere beslissingen te nemen. Daarbij gaat de aandacht tot nu toe vooral uit naar de onderliggende technologie. Denk dan bijvoorbeeld aan Cassandra of Hadoop. Daarbij lijkt echter wel eens vergeten te worden, dat de ervaring die een business manager met big data heeft, zeker niet alleen gebaseerd is op de technologie die in het datacenter wordt toegepast. Sterker nog, zo’n Hadoop-cluster krijgen veel it-afdelingen heus wel voor elkaar. Het grote probleem van big data zit ‘m echter in de applicaties die deze business-mensen gebruiken om al deze gegevens op een nuttige manier te gebruiken. Werken die wel goed samen met de big data-omgeving in het datacenter? En als er beschikbaarheidsproblemen of performance issues zijn, waar ligt de oorzaak daarvan dan precies? Een big data-omgeving is complex en op tal van plekken kan het mis gaan. Maar waar precies?
De ‘early adopters’ zijn inmiddels een tijdje met big data aan de slag en hebben reeds de nodige kennis opgedaan. Wie die ervaringen op een rijtje zet, ziet al snel dat er vier punten zijn waar it-afdelingen aandacht aan dienen te schenken.
Tip 1. Stel vooraf de relevante key performance indicators (kpi’s)vast
Veel deskundigen zien big data liefst als een realtime oplossing voor business-problemen. Of dit in de praktijk altijd haalbaar zal blijken, is nog maar de vraag. Maar het is natuurlijk wel van cruciaal belang dat we vooraf vaststellen aan welke prestatie-eisen een big data-applicatie moet voldoen. Let hierbij op dat deze kpi’s opgesteld dienen te worden vanuit de eindgebruiker. Het is immers die business manager die met de verzamelde gegevens betere beslissingen moet nemen en betere inzichten moet verwerven. Veel big data-projecten leunen zwaar op technisch geavanceerde oplossingen als Cassandra, maar laat dat ons niet verleiden tot een aanpak waarbij we ons verliezen in techniek. Het gaat om de voordelen die de business uit big data kan halen.
Tip 2. Extra hardware is bij performance-problemen meestal géén oplossing
Veel big data-projecten hebben – zeker in de startfase – last van tegenvallende prestaties. Uit de ervaringen met big data tot nu toe blijkt dat simpelweg meer hardware tegen het probleem ‘aan gooien’ in de meeste gevallen geen oplossing brengt. Het probleem zit ‘m vaak niet in te weinig hardware, maar in een matig tot slecht geoptimaliseerde Hadoop- of Cassandra-omgeving. Met softwarematige hulpmiddelen als Hadoop MapReduce is het mogelijk om tot belangrijke prestatieverbeteringen binnen het Hadoop-cluster zelf te komen. Bovendien heeft meer hardware kopen al helemaal weinig zin als het probleem ‘m vooral blijkt te zitten in de applicatie die de gebruiker toepast.
Tip 3. Kies bij big data-applicaties voor een lifecycle-gerichte aanpak
Big data-projecten zijn behoorlijk complex en vergen – naast alles wat er moet gebeuren op de data-laag – over het algemeen ook een aanzienlijke investering in applicaties. Kies daarom voor een weloverwogen en vooral ook goed gestructureerde manier van werken waarbij de gehele levenscyclus van de big data-applicatie centraal staat. Alle fasen – van ontwikkelen tot testen tot in gebruik name – dienen zodanig op elkaar te zijn afgestemd dat alle betrokken teams precies weten welke beslissingen in andere projectfases zijn genomen en wat hiervan de consequenties zijn. Op die manier kan efficiënt worden gewerkt en kunnen eventuele fouten snel opgelost worden, veelal nog voordat de business-gebruikers hiermee geconfronteerd worden. Een lifecycle-gerichte aanpak werkt ook simpelweg sneller, ook als technische problemen of bijvoorbeeld performance-kwesties moeten worden opgelost.
Tip 4. Big data vereist volledig inzicht in de prestaties van applicaties
Big data-omgevingen kennen per definitie een zeer gedistribueerd karakter. Gegevens uit tal van bronsystemen worden bij elkaar gebracht en dienen via een of meer applicaties door de gebruiker benut te worden. Als er zich in zo’n complexe omgeving een probleem voordoet, kan het weken duren voordat precies duidelijk is waar het nu precies mis gaat. It-afdelingen die op een verantwoorde manier big data aan hun business-organisatie willen aanbieden, doen er daarom goed aan om te zorgen voor een uitstekend inzicht in alle aspecten van hun omgeving. Vanuit de industrie zijn hiervoor inmiddels oplossingen ontwikkeld die een groot deel van het zoeken naar de oorzaken van een probleem automatiseren. Hierdoor wordt in minuten of uren zichtbaar waar handmatig vaak dagen of weken van zoeken voor nodig is. Natuurlijk kost het geld om een dergelijke application performance management (apm)-oplossing aan te schaffen, maar zet die kosten eens af tegen de financiële schade die ontstaat als een big data-omgeving niet goed functioneert. Het mag duidelijk zijn dat die business case snel rond te maken is.
Big Data Forum 2013
De tweede editie van het Big Data Forum vindt op 22 januari plaats in het Van der Valk-hotel Almere. Tijdens het Big Data Forum 2013 vertellen pioniers hoe een succesvolle big data-strategie wordt ontwikkeld en hoe het beste uit business data wordt gehaald. Bekijk het programma en meld je aan. Lezers van Computable bij vermelding van de kortingscode 67483comp 100 euro korting op de toegangsprijs.
Grappig, ik heb een heel andere beeld bij Big Data. Ik zie Big Data niet als Search ding met realtime data. Daar heb ik Google voor of GoogleBox. Waar je over schrijft klinkt mij ook als een standaard datawarehouse in mijn oren en daarvoor zijn gewoon al veel oplossingen.
Ik zie Big Data vooral iets als veel informatie die niet relationeel is of als zodanig opgeslagen is waardoor het moeilijk is om conclusies te trekken of er dingen uit te leren.
Mijn beeld van Big Data en aanverwanten is niet de logistieke oplossing om data te verzamelen en de technische problemen om performance goed te krijgen, dat lijkt mij het makkelijke deel.
De essentie is juist om wijsheid uit die data te halen die je commercieel kunt maken en in die algoritmes zit de werkelijk uitdaging. De analyse dus.
Henri,
Thanks voor je reactie! Ik kan niets anders dan mij volledig bij je aansluiten. Ook ik heb dezelfde kijk op Big Data.
Het nadeel bij Big Data is dat het net als Cloud een kapstokbegrip aan het worden is waar (te) veel aan opgehangen wordt.
@Henri, bedankt voor je reactie.
Het is een definitie kwestie maar het gevaar loert dat Big data als een kapstok begrip gebruikt zal worden. In dit artikel is de definitie van Gartner aangehouden.
Naar mijn mening doet Big data heel simplistisch gezien het volgende: “capture, curation, storage, search, sharing, analysis, and visualization”.
Jou visie op Big data lijkt zich te beperken tot op “analysis, and visualization”. Dit is naar mijn mening slechts een deel, een niet onbelangrijke, van wat Big data is.