Dat big data in de lift zit, mag blijken uit het aantal conferenties dat er tegenwoordig over plaats vindt. Zo waren er vorige week liefst drie grote conferenties waar big data centraal stond: Gartner’s Business Inteligence and Analytics Summit, GigaOm’s Structure: Data en uiteraard ook Hadoop Summit Europe in Amsterdam.
Dat de eerste Europese editie van de Hadoop Summit een goede vijfhonderd man naar de Beurs van Berlage lokte, sterkte de meeste aanwezige leveranciers in de overtuiging dat Europa eindelijk rijp is voor Hadoop. In San Jose vindt in juni al voor de zesde keer een dergelijk summit plaats, dus het is ook wel de hoogste tijd dat Europa aanhaakt.
Het is dan ook geen toeval dat HortonWorks, één van de bekendere Hadoop-leveranciers recent aankondigde dat het een Europees kantoor opent. Nu al telt het bedrijf zo’n 25 klanten in Europa. Hortonworks is samen met MapR en Cloudera een van de ‘veteranen’ in de groeiende Hadoop markt, en elk van deze bedrijven claimt bloedverwantschap met het oorspronkelijke Hadoop-project bij Yahoo en bieden open source distributies van Hadoop, zij het dat er ook soms bedrijfseigen elementen aan toegevoegd worden.
Prestaties en integratie
Tijdens de diverse sessies op de Hadoop Summit bleken de Europese ontwikkelaars twee grote bezorgdheden te hebben: de prestaties van hun Hadoop clusters, en de link tussen Hadoop en de bestaande business intelligence-projecten bij bedrijven. Aan beide tekortkomingen wordt momenteel gewerkt, dus de aanwezigen konden op dat vlak met een redelijk gerust gemoed terug naar huis.
Een van de fraaiste voorbeelden van het gebrek aan prestaties van Hadoop, en hoe die op te lossen, werd gegeven door Mike Brown, cto bij comScore, een Amerikaans bedrijf dat wereldwijd bijhoudt welke sites bezocht worden door wie en wat de bezoekers op de site doen. Maandelijks registreert comScore meer dan 1,5 triljoen interacties op het internet, goed voor ongeveer 40 procent van het totale internetverkeer. De klanten van comScore willen dagelijks weten wat op hun sites en die van concurrenten gebeurt. Alleen: het volume aan data is zo groot, dat het tot voor kort 35 uur duurde eer alle data geanalyseerd waren. Niet ideaal als je snel op de bal wil spelen. Uiteindelijk greep comScore naar DMExpress van SyncSort. Door deze tool te gebruiken, kon de verwerkingstijd tot drie uur gereduceerd worden. SyncSort is in tegenstelling tot veel van de andere bedrijven in de Hadoop-markt een ouder bedrijf, dat veertig jaar geleden opgericht werd om orde te brengen in de grote hoeveelheden data die op mainframes te vinden was. ‘Big data is misschien een nieuwe naam’, zegt Steven Totman van SyncSoft, ‘maar het is eigenlijk een oud probleem.’ Inmiddels heeft SyncSort een ‘sort plug-in’ bijgedragen aan het Hadoop framework.
De koppeling tussen traditionele bi en big data is iets moeilijker op te lossen, want die heeft voor een deel met mentaliteit te maken. BIi-specialisten willen in de eerste plaats met zuivere data werken, terwijl Hadoop alle soorten data verwerkt, bij voorkeur ongestructureerde data. Steeds meer Hadoop-leveranciers proberen alvast op technisch vlak de brug te slaan. Eind vorig jaar bracht Cloudera Impala uit, een technologie die toelaat dat de NoSQL database van Hadoop communiceert met SQL en bestaande drivers kan gebruiken. Tijdens Hadoop Summit Europe was het echter vooral het Stinger initiatief van HortonWorks dat veel aandacht kreeg. Stinger verbetert de prestaties van het Hive datawarehouse in Hadoop, en tegelijk zorgt Stinger voor een betere SQL-integratie dan bijvoorbeeld HiveQL, tot nu toe de standaard SQL-interface voor Hive.
Uitpakken
Een opvallende aanwezige op Hadoop Summit Europe was ook Pivotal, de versmelting van EMC’s big data analytics dochterbedrijf Greenplum, met grote delen van VMware, ook al een EMC-bedrijf. Pivotal pakte direct uit met een eigen Hadoop-distributie, Pivotal HD, die verder bouwt op de Greenplum HD die vorig jaar werd aangekondigd. Voor het nieuwe bedrijf was Hadoop Summit Europe de eerste publieke vertoning in Europa.
Met deze eerste Hadoop Summit Europe in Amsterdam krijgen Hadoop en big data in Europa weer een duwtje in de rug. Op Hadoop Summit waren er in ieder geval voldoende klantencases om de voordelen van de technologie te benadrukken.
José Delameilleure, directeur it-marketing en communications Across Technology
Mooi verslag en toelichting, complimenten José!