Wil je als bedrijf mee spelen in de wereld van de big data, dan is het van belang om enkele belangrijke beslissingen te nemen en noodzakelijke investeringen te doen. Een open hybride cloud is volgens mij de manier om op een duurzame en betaalbare manier te investeren in een door big data ondersteunde bedrijfsvoering.
Wat is nu eigenlijk de meerwaarde van big data? Dat is een vraag die steeds meer bedrijven zichzelf stellen. Een ding is zeker: elke organisatie die in zijn bedrijfsvoering veel informatie verzamelt en denkt hier meerwaarde uit te kunnen destilleren, zou nu of op termijn moeten investeren in een systeem dat de grootschalige opslag en analyse van data mogelijk maakt. Daar is een simpele reden voor: traditionele storage-oplossingen voldoen meestal niet aan de noodzakelijke eisen om big data te ondersteunen. Een open hybride cloud is een open source platform met maximale vrijheid en flexibiliteit dat wel eens ideaal zou kunnen zijn om je als organisatie voor te bereiden op big data.
Datarevolutie en OpenStack
Onderzoeksbureau IDC voorspelt in een onderzoek uit december 2012 dat investeringen van bedrijven in big data zullen groeien van 4,5 miljard in 2010 naar 23,8 miljard in 2016. Een van de redenen hiervoor is dat er wereldwijd steeds meer data worden opgeslagen. Dit is duidelijk een trend die het gevolg is van de vraag naar big data-technologie om al deze data op te slaan en er waarde aan te onttrekken. Dit kan op vele manieren, bijvoorbeeld door middel van technieken voor het indexeren van ongestructureerde informatie of het toepassen van statistische analyses op gegevens. Met big data-technologie kunnen bedrijven de data die zij gebruiken inzetten om hun dienstverlening, bedrijfsprocessen en producten te verbeteren.
Open source software wordt veel gebruikt voor het verwerken van big data workloads door hoge mate van flexibiliteit, stabiliteit en de overzichtelijke kosten. Een van de grondleggers van big data is Google. Het bedrijf ontwikkelde MapReduce, een programmeermodel waarmee met honderden of zelfs duizenden gedistribueerde systemen analyses gedaan kunnen worden op enorme datasets, zoals de internetdatabase van Google. Apache Hadoop is een veel gebruikte open source implementatie van MapReduce. De oplossing is volledig opgebouwd met open source software en het Linux besturingssysteem. Meer dan honderdvijftig bedrijven steunen het project, waaronder AMD, Intel, Canonical, Suse linux, Red Hat, Cisco, Dell, HP, IBM, NEC en VMware.
Door de datarevolutie die zich snel over de wereld verspreidt, zal een groot deel van de it-investeringen gedaan worden in opslaginfrastructuur. Big data vereist een opslagplatform dat in principe tot onbeperkte omvang kan doorgroeien en waar op een inzichtelijke manier informatie uit gedestilleerd kan worden die van nut is voor de bedrijfsvoering. De vraag naar big data storage-oplossingen zal de komende jaren alleen maar groeien naarmate bij meer bedrijven de wens ontstaat om meerwaarde te halen uit de enorme hoeveelheden data die zij opslaan, of dit nu verkoopcijfers zijn of social media-berichten.
Vijf eisen voor big data storage
Een opslagsysteem dat geschikt is voor big data verschilt drastisch van traditionele oplossingen als een nas of een san. Big data storage is geen statische bestemming voor data, maar een dynamisch opslagplatform, waarmee zowel de huidige als de toekomstige opslageisen worden ingevuld.
Storage is een erg belangrijk aspect van big data, omdat het zeer specifieke eisen stelt aan de opslag van gegevens. Dit heeft gevolgen voor de it-infrastructuur, omdat er een verenigd opslagplatform nodig is. Big data-technologie is van nature geschikt om in zich in de cloud te bevinden, omdat allerlei verschillende databases overal ter wereld met elkaar moeten kunnen samenwerken. Door cloud-diensten te gebruiken voor big data wordt het bovendien een stuk makkelijker om de infrastructuur uit te breiden of te verkleinen. Daarnaast hoeven bedrijven niet meer hun eigen infrastructuur op te bouwen en kunnen zij kosten besparen als de big data-werklast even wat minder is. Een big data-opslagplatform moet aan de volgende vijf eisen voldoen.
1. Kosteneffectief. Het moet mogelijk zijn om dynamisch en op een kosteneffectieve manier opslag aan het platform toe te voegen. Ofwel, de capaciteit moet zonder al teveel kosten – en in principe tot onbeperkte omvang – uit te breiden zijn. Idealiter wil je hiervoor standaard servers en opslagsystemen gebruiken, die vervolgens flexibel samengevoegd kunnen worden tot één geheel.
2. Schaalbaarheid. Traditionele opslagsystemen moeten op een zeker moment vervangen worden, met een datamigratie tot gevolg. Hier zijn meestal hoge kosten aan verbonden. Bij big data is vervangen of migreren geen optie door de enorme hoeveelheden gegevens. Een dergelijk opslagplatform moet daarom onbeperkt kunnen doorgroeien en de data veilig verdelen over het platform.
3. Data verbinden. Big data storage moet allerlei legacy storage-omgevingen met elkaar kunnen verbinden. In een traditionele situatie zijn deze systemen als datasilo’s niet onderling met elkaar verbonden en vereisen apart beheer. Uit een onderzoek van de Enterprise Strategy Group (ESG) bleek dat in 2010 bijna 30 procent van de enterprises 250 of meer legacy-opslagsystemen moest onderhouden voor de opslag van hun data. Big data opslag maakt een einde aan dit soort datasilo’s.
4. Overal te benaderen. Een big data-opslagplatform moet in staat zijn data te beheren die verspreid over de hele wereld is opgeslagen, zowel in een eigen datacenter als in de cloud, en die als een enkele informatiebron kunnen benaderen. Ook moet het platform multi-tenancy ondersteunen, wat betekent dat meerdere gebruikers of organisaties er op een veilige manier en via een eigen webinterface, gebruik van kunnen maken.
5. High availability. Big data storage moet door het gebruik van intelligente software tegen dataverlies beschermen en er voor zorgen dat het platform altijd beschikbaar is. Automatische datareplicatie, high-availability en snapshotting zijn daarom noodzakelijke technieken die ondersteund moet worden.
Open hybride cloud
Voor de flexibele opslag van big data is de cloud een logische bestemming. Door cloud computing kunnen bedrijven de infrastructuur die zij nodig hebben voor big data outsourcen. Hierdoor kunnen zij profiteren van de voordelen die big data te bieden heeft, zonder dat zij investeringen hoeven te doen in hardware en technologie voor hun eigen datacenter. Big data kan zich zowel in een private of een public cloud bevinden, maar een combinatie van beide is ook mogelijk: een hybride cloud. Een private cloud vereist grotere eigen investeringen in hardware en software evenals de kennis en mankracht om die omgeving te onderhouden. Bij een public cloud wordt de cloud-omgeving afgenomen bij een dienstverlener, die de aanschaf van hardware en het beheer voor zijn rekening neemt.
Bij public clouds ligt echter het risico van vendor lock-in op de loer doordat hier vaak propriëtaire opslagsystemen en api’s worden gebruikt. Het heeft daarom de voorkeur om open standaarden en open api’s te gebruiken om deze lock-in te vermijden. Een oplossing die de verschillende storage-modellen verenigt, zoals on-premise, gevirtualiseerd of cloud-gebaseerd, en daarnaast ook de nodige gestandaardiseerde toegangsmethoden en api’s ondersteunt.
Conclusie
Een open hybride cloud is een veelbelovende technologie voor organisaties die zich nu of op termijn willen gaan bezig houden met big data. Deze technologie kan serieus waarde toevoegen aan organisaties die naar manieren zoeken om hun bedrijfsvoering of klantenservice te verbeteren.
Een ding is zeker: de hoeveelheid data die binnen bedrijven wordt verzameld, zal blijven groeien. De noodzaak voor een flexibel en schaalbaar platform voor dataopslag is daarom eigenlijk voor elke organisatie relevant. Neem je nu als bedrijf geen stappen om over te gaan naar een robuust en schaalbaar dataopslagplatform, dan zullen er op termijn problemen ontstaan. Ook zullen de inspanningen om waarde te halen uit big data in de toekomst waarschijnlijk gehinderd worden door economische en logistieke uitdagingen.
Nu investeren in een dergelijk platform is op een betaalbare en duurzame manier mogelijk door te kiezen voor een open hybride cloud. Daarmee kunnen organisaties hun opslagplatform opbouwen met hun bestaande systemen, en die later op een flexibele manier uitbreiden of vervangen.
Rajiv Sodhi, Country Manager Benelux bij Red Hat
Aan de ene kant een degelijk artikel, goed opgezet en met onderbouwing. Aan de andere kant heb ik wel wat kanttekeningen over de inhoud.
Ik kreeg jeuk bij ‘open hybride cloud’ en deze gaat direct mijn BS Bingo boek in.
Je hebt on-premises of een ‘private cloud’-oplossing aan de ene kant en je gebruikt een ‘public cloud’-dienst aan de andere kant. Waar slaat dan het ‘open’ op? Dat je aan beide kanten open source gebruikt?
“Een private cloud vereist grotere eigen investeringen in hardware en software” — Volgens mij is het concept van private cloud hier niet geheel duidelijk. Hier wordt private vertaald naar “eigendom”, als we de NIST definitie erbij pakken lees ik toch echt dit:
“Private cloud. The cloud infrastructure is provisioned for exclusive use by a single organization
comprising multiple consumers (e.g., business units). It may be owned, managed, and
operated by the organization, a third party, or some combination of them, and it may exist
on or off premises.”
Een private cloud is dus hetzelfde als een public cloud met als enige verschil dat de infrastructuur alleen gebruikt en benaderd wordt door één organisatie en de resources niet gedeeld worden met meerdere tenants.
“Een open hybride cloud is een veelbelovende technologie”, het is dus geen technologie maar een toepassing of methode.
Ook wordt hier ‘open’ misbruikt om het als argument te gebruiken tegen ‘vendor lock-in’, maar zeker als het gaat om big-data zijn er veel meer niveaus waarop een lock-in plaats kan vinden en zeker niet alleen op wat de schrijver schrijf: “Bij public clouds ligt echter het risico van vendor lock-in op de loer doordat hier vaak propriëtaire opslagsystemen en api’s worden gebruikt.”
Juist net public cloud waarbij een bestand aangeduid wordt met een url is het daarmee platform onafhankelijk geworden. Windows, Linux, iOS kunnen allemaal dat bestand consumeren.
Als het gaat om ‘big data’ vaak in de vorm van NoSQL, of minder gestructureerde datavormen zit de lock-in veelal in de code zelf of in de tools die gebruikt worden om de data te consumeren. Wel of niet open-source is hier niet de bepalende factor voor de lock-in, die is nog veel subtieler. En Hadoop cluster kun je overal draaien, maar dat geldt voor de data. Met een gezonde exit strategie is een vendor lock-in niet het probleem en lock-ins zijn er op vele niveaus. Het consumeren van ‘big data’ is bijna per definitie een lock-in. Bij Virtualisatie zit je overigens altijd met een lock-in, je kunt niet zomaar switchen tussen het virtualiseren van VMWare, Microsoft, Citrix of IBM. Dat staat dus los van je keuze voor Linux of bijvoorbeeld Windows.
Ook kan big data hier gewoon vervangen worden voor good old BI.
Het schalen van data in de cloud is overigens een koekje. Wat uitdagend blijft is om kosteneffectief relationele data te schalen vandaar dat de belofte van NoSQL-achtige oplossingen zo aantrekkelijk lijken, maar je moet je beseffen dat we op dit gebied echt nog infantiel zijn en dat er heel veel maatwerk code bij komt kijken, een serieus risico…