Veel bedrijven willen graag gebruikmaken van big data om betere beslissingen te nemen, klantrelaties te versterken en de efficiëntie binnen het bedrijf te vergroten. Hierbij worden ze geconfronteerd met een duizelingwekkende hoeveelheid technologieën – van open source-projecten tot commerciële software – die kunnen helpen om meer grip te krijgen op de grote hoeveelheden data. Zo kunnen diensten als Hadoop, Spark en Redshift gebruikt worden als basis voor het werken met big data.
Uiteindelijk willen de meeste bedrijven gewoon betere data en snellere antwoorden – en niet de rompslomp die komt kijken bij het toepassen van verschillende technologieën. Daar waar Hadoop en andere big data platforms zich langzaam ontwikkeld hebben, is de cloud sneller gegroeid. Daarom kan de cloud nu veel van de problemen oplossen die eerder de vooruitgang van big data in de weg stonden.
Optimale inzet
De belofte van big data werd de afgelopen jaren vooral ingelost door grote bedrijven met uitgebreide engineering- en data science-afdelingen. De systemen die werden gebruikt waren complex, lastig te beheren en aan verandering onderhevig. Dit is haalbaar voor grote enterprise-organisaties in Silicon Valley, maar een Nederlands bedrijf kan zich dergelijke systemen niet veroorloven. Een gemiddeld bedrijf wil zo snel mogelijk de beste data op de juiste plek, zonder tientallen Java-engineers te moeten inhuren omdat zij de technologie van a tot z kennen.
De problemen die klanten ondervinden met het on-premises platform Hadoop zijn vaak dezelfde problemen die ze ervaren bij lokale legacy-systemen: er is simpelweg onvoldoende gekwalificeerd personeel om alles voor elkaar te krijgen. Bedrijven willen geavanceerde mogelijkheden, maar ze willen niet geconfronteerd worden met bugs, mislukte integraties en steeds weer nieuwe versies. Bovendien zijn de consumptiemodellen aan het veranderen – we willen te allen tijde data verbruiken, opslaan en verwerken. We willen niet te veel capaciteit. We willen toegang tot de infrastructuur op elk moment en op iedere manier, en we willen altijd net iets meer dan we nodig hebben.
Kortom, alleen met behulp van cloud kan big data optimaal ingezet worden. De eerste golf van ‘big data via de cloud’ was simpel: bedrijven als Cloudera zette hun software op Amazon. Maar ‘echt cloud’ betekent dat bedrijven Hadoop of Spark niet hoeven te beheren – maar de complexiteit verhuizen naar een gehoste infrastructuur, waarbij iemand anders zorgdraagt voor het beheer. Daartoe leveren Amazon, Microsoft en Google nu ‘managed Hadoop’ en ‘managed Spark’. Bedrijven hoeven hierbij alleen maar na te denken over de data waarover ze beschikken, de vragen die ze hebben en de antwoorden die ze willen. Het is niet nodig om een cluster te draaien, nieuwe producten te onderzoeken of zich zorgen te maken over versiebeheer. Het is een kwestie van data laden en beginnen met de verwerking ervan.
Redenen om big data te beheren
Er zijn drie belangrijke – misschien niet altijd voor de hand liggende – redenen big data in de cloud te beheren:
- Voorspelbaarheid: de zorg voor de infrastructuur en het beheer ervan liggen bij de cloudleverancier. Bedrijven kunnen hierdoor naar eigen inzicht en behoefte schalen, zonder dat ze voor (financiële) verrassingen komen te staan;
- Kostenefficiëntie: in tegenstelling tot on-premises Hadoop, waar rekenkracht en storage op elkaar van invloed zijn, worden deze in de cloud gescheiden. Bedrijven kunnen beiden afzonderlijk naar behoefte inzetten en profiteren van lagere kosten;
- Innovatie: cloudleveranciers implementeren continu de nieuwste software, infrastructuur en best practices. Bedrijven kunnen hierdoor de voordelen van de cloud optimaal benutten zonder investeringen in tijd en geld.
Natuurlijk is er nog veel werk aan de winkel, maar dat is meer gericht op de data en de bedrijfsvoering, en niet op de infrastructuur. Het goede nieuws voor mkb-bedrijven is dat er een ‘nieuwe’ trend gaande is op het gebied van data-integratie en -gebruik, en dat is de overgang naar selfservice. Dankzij nieuwe tools en platforms maakt ‘selfservice-integratie’ het mogelijk om snel en eenvoudig geautomatiseerde datapijplijnen te bouwen maken zonder gebruik van code. ‘Selfservice analytics’ maakt het eenvoudiger voor analisten en zakelijke gebruikers om data te bewerken zonder tussenkomst van it.
Alles bij elkaar zorgen deze trends voor de democratisering van data – en dat is veelbelovend. Dit zal een aanzienlijke impact hebben op horizontale functies en verticale industrieën. Data wordt zo een meer vloeiende, dynamische en toegankelijke bron voor alle organisaties. It bevat niet langer de sleutels tot het koninkrijk en ontwikkelaars bepalen niet langer de workflow. Net op tijd, want het volume en de snelheid van data van digitale en sociale media, mobiele tools en edge-apparaten dreigt ons te overweldigen. Zodra de belofte van het internet of things, ai en machine learning echt uitkomt, worden we namelijk overspoeld door enorme hoeveelheden data.
Neerav Shah, vice president EMEA verkoop bij Snaplogic
Nu ben ik weliswaar geen big data expert, maar wanneer ik mijn data in een managed hadoop in de cloud zet, heb ik toch nog steeds een aantal slimme mensen nodig om daar de informatie uit te halen en dit op de door mij gewenste manier weer te geven?
Je besteed het beheer van de infrastructuur/hardware misschien uit, maar daarmee liggen de specialisten niet ineens voor het oprapen toch?