In de stroom aan berichten over de ontwikkelingen in de big data wereld wordt de laatste tijd weer veel gesproken over de enorme toevloed van data. In het bedrijfsleven is een groeiende behoefte waarneembaar om zinvolle analyses uit te voeren op al de data die beschikbaar komt. De keuze voor een goed data analyse platform is daarbij cruciaal, maar waar let je dan op als je die keuze maakt? Of: waar moet een goed data analyse platform aan voldoen?
De afgelopen twee jaar heb ik met veel organisaties aan big data projecten gewerkt. Opvallend is dat bij de evaluatie van deze projecten de schaalbaarheid van het data analyseplatform als de overheersende succesfactor wordt genoemd.
Bij Supercell in Finland, een zeer succesvol online gaming-bedrijf, maken ze ‘free-to-play’ spellen. De spellen worden gratis aangeboden, maar het spel genereert op twee manieren geld. De eerste manier is door de spelers van het spel voortdurend te verleiden om iets extra’s te kopen in het spel, bijvoorbeeld om naar een volgend level te komen. De tweede manier om geld te verdienen aan het spel, is door op het juiste moment, en voor de juiste doelgroep, advertentiebanners te plaatsen.
Clash of Clans
Voor Supercell is het spel ‘Clash of Clans’ het succesnummer. Het spel wordt elke dag door miljoenen spelers gespeeld. In de twaalf tot twintigminuten dat ze spelen dienen ze verleid te worden om in het spel stappen naar een volgend niveau te maken. De spelers worden gevolgd door de data die ze genereren, direct te analyseren (real time analytics). Per dag gaat het dan over TB’s aan data. Het analyseplatform om de real time analytics te ondersteunen dient in staat zijn om snel met deze grote hoeveelheden data om te gaan.
Bij de keuze van een nieuw analyseplatform in 2013 was een van de uitgangspunten dat het aantal spelers slechts licht zou groeien de komende drie jaar. Schaalbaarheid was daarbij aanvankelijk geen groot aandachtspunt. Uiteindelijk werd toch voor een schaalbaar analyseplatform gekozen om in te kunnen spelen op onverwachte groeiscenario’s. Dat bleek een schot in de roos. Supercell besloot drie maanden na de keuze van hun platform om hun spel ‘Clash of Clans’ naast het iOS-platform, ook aan te bieden op Android. Binnen enkele dagen groeide het aantal spelers van 8 miljoen naar 24 miljoen per dag en was de explosie van data navenant. Het Supercell-team, dat werkte met het analyse platform, haalde opgelucht adem. Door de schaalbaarheid van hun analyseplatform konden de real time analytics ongestoord doordraaien.
Groei van de organisatie
Supercell is uiteraard een voorbeeld van een start-up waar groeistuipen gewoon zijn. Bij het schrijven van dit artikel deed het me denken aan een artikel in het online magazine Twinkle uit 2014. Daarin stond een interview met Symen Jansma, een van de oprichters van de snel groeiende start-up Travelbird. Voor hen die het gemist hebben: het in 2010 opgerichte online reisbureau groeide de laatste drie jaar keer op keer met 300 procent! Ik vermoed dat deze groei de stoutste verwachtingen van Jansma c.s. heeft overtroffen. Opvallend is dat Travelbird goed kan omgaan met de groei en op de vraag hoe dat komt antwoord Jansma: ‘we hebben goede systemen en we zijn schaalbaar’.
Tot slot het voorbeeld van de Amerikaanse kleding winkelketen Guess. Hoewel beslist geen start-up, kwam de noodzaak voor schaalbaarheid uit onverwachte hoek. Bij Guess werd besloten alle winkelmanagers van tablets te voorzien. Hiermee konden zij klanten in de winkel beter geïnformeerd te woord staan. In de winkel was voortdurend een beeld over de snel lopende kledingstukken, kleding die uit voorraad raakte, en de aanwezigheid van kledingitems in winkels in de nabijheid. Hoewel het systeem aanvankelijk alleen bedoeld was voor de 1600 winkelmanagers, wilden na verloop van tijd ook medewerkers van andere afdelingen de informatie gaan gebruiken. Zo werden in korte tijd logistiek, inkoop en de ontwerpafdeling medegebruikers van de data. Er vond dus geen toename van data plaats, maar er was een explosieve groei van het aantal afnemers van die data. Van 1600 gebruikers ging men naar een veelvoud hiervan. Bij Guess prees men zich gelukkig dat het over een schaalbaar analyseplatform beschikte.
Adviezen bij het kiezen
Schaalbaarheid, echt het is cruciaal. De toevloed aan data, en vooral de toegenomen behoefte om die data te analyseren, zijn niet te stoppen ontwikkelingen. Het is vaak niet te voorspellen welke vorm deze ontwikkelingen aannemen, zoals blijkt uit bovenstaande voorbeelden. Dus waarom zou het bij U niet gebeuren?
Ten eerste, let bij de keuze van een analyseplatform scherp op wat de leverancier bedoelt met schaalbaarheid. Veel van hen claimen dat hun oplossing schaalbaar is, maar zijn toch begrensd. Als die grens wordt overschreven zijn er vaak extra licentie en hardware investeringen gemoeid met het aanpassen daarvan. Gezien het hierboven geschetste karakter van big data omgevingen een zeer ongewenste situatie.
Ten tweede, voer een serieuze evaluatie van de schaalbaarheid van de platformen van bekende leveranciers uit en durf vooral eens verder te kijken. Nieuwe analyseplatformen bieden betere schaalbaarheid, tegen een gunstiger tco, dan de traditionele platformen. Op een recent Heliview congres gaf Rick van der Lans een presentatie van deze nieuwe innovatieve analyseplatformen. Het grootste deel van de deelnemers van het congres had er nog nooit van gehoord en gaf aan te vertrouwen op de mening van hun traditionele leveranciers. Echt, het is de moeite waard om eens verder te kijken.
Ten derde, maak een zorgvuldige afweging tussen de platformen van commerciële leveranciers en de mogelijkheden die open source-oplossingen bieden. De afgelopen twee jaar kwam ik twee bedrijven tegen die de keuze maakten voor een open source-analyseplatform. De één maakte zich grote zorgen over het team aan ontwikkelaars dat nodig was om gebruik te maken van deze oplossing. De andere was net begonnen en ontdekte dat de omgeving slechts tien gebruikers tegelijkertijd kon ondersteunen. Ik denk aan het advies dat de cio van Facebook op een groot internationaal congres gaf: ‘Als je data analyse echt belangrijk vindt dan kies je voor een commerciële leverancier’. De eerlijkheid gebied te zeggen dat Facebook uiteindelijk gekozen heeft voor een combinatie van beide werelden. Een commerciële leverancier voor het schaalbare analyseplatform, open source voor diverse andere doeleinden.
Dat brengt ons tot slot bij Hadoop. Het is open source en het is schaalbaar, dus kan helpen met het opvangen van de enorme toevloed aan data. Realiseert je echter terdege; Hadoop is geen analyseplatform. Vergis je daarom niet in de waarde van het inrichten van een Hadoop-cluster. Maar ja, dit wist je natuurlijk al.