De hoeveelheid digitaal opgeslagen data groeit exponentieel. Voornaamste oorzaak hiervan is dat een groot gedeelte van het leven zich online afspeelt. De groei van het aantal internetgebruikers is in Nederland met 86 procent toegenomen (onderzoek STIR). Er zijn dus bijna twaalf miljoen mensen dagelijks online.
De dienstverlening is ook voor een groot deel naar het web verhuisd: online winkelen, online gemeentezaken regelen, online treinkaartjes kopen en online vakanties boeken is inmiddels de normaalste zaak van de wereld. Al die muisklikken, zoekopdrachten op en contactmomenten via al die websites worden ergens vastgelegd en bewaard, en dat heeft die exponentiële groei van opgeslagen data tot gevolg. Precies die data kan worden gebruikt om de online en offline dienstverlening naar een hoger niveau te tillen. Dit gebeurt echter bij de meeste organisaties niet. Voornamelijk niet, omdat veel organisaties niet overweg kunnen met de grote hoeveelheid data van nu, zo blijkt uit onderzoek van het IBM Institute for Business Value (www.ibm.com/cmostudy).
De lat in online dienstverlening ligt hoog. Partijen als Google, LinkedIn en Facebook bepalen de norm en de consument verwacht van andere spelers hetzelfde: altijd de juiste informatie binnen de huidige context, in real-time en het liefst een website die is gepersonaliseerd. Enkel het hebben van een website is allang niet meer voldoende. Consumenten hebben weinig tijd. Als zij niet meteen kunnen vinden wat gewenst is, wordt het elders geprobeerd. Om te voldoen aan de huidige norm van customer experience is data onmisbaar. Rich customer profiles kunnen enkel worden opgebouwd door alle data uit de organisatie bij elkaar te brengen.
We zien de beginselen van deze nieuwe manier van denken al opdoemen. Bijvoorbeeld bol.com verhoogt de relevantie van zoeksuggesties en -resultaten op de website door historische click stream data en andere bronnen bij elkaar te brengen in de dagelijkse processen. Over de grens is men al veel verder: Bank of America beschikt over een big data-afdeling, GE Capital gebruikt big data voor het bepalen van onder andere risicoprofielen, WalMart heeft big data-oplossingen waarmee in real-time de hele keten inzichtelijk wordt gemaakt. Deze oplossingen hebben allemaal één aspect gemeen: ze zijn niet gebouwd met traditionele oplossingen, zoals relationele databases (Oracle) en standaard bi-tools. big data oplossingen zijn veelal gebouwd op basis van open source en in het bijzonder de cluster computing technologie van Apache Hadoop. Winnen met big data doe je door traditionele oplossingen los te laten en voorop te lopen bij het investeren in werkelijk vernieuwende oplossingen die ‘big data ready’ zijn.
Grote, en soms terechte, zorg bij cutting edge- en open source-oplossingen is vaak de stabiliteit en volwassenheid van dergelijke software. Ik vind dat we momenteel op het punt staan dat die zorg omtrent big data oplossingen en Apache Hadoop niet meer terecht is. Hadoop slaat niet alleen al het berichtenverkeer van 750 miljoen Facebook gebruikers op, maar is ook de kracht achter de big data bi-oplossing van Bank of America. De belangen in de technologie zijn te groot geworden om zaken aan het toeval over te laten. Deze software is dan ook pas na serieuze testen ingezet en productierijp gebleken.
In de Nederlandse markt is nu winst te behalen door één van de eersten te zijn die big data inzet. Denk aan het opmaken van rich customer profiles, het verbeteren van de online-dienstverlening met betere zoekresultaten of productaanbevelingen of het verbeteren van risicoanalyses. Mijn klanten hebben steeds vaker dit soort vragen. Door nu te investeren in big data is het mogelijk om voorop te lopen en concurrentievoordeel te halen.
Dit soort platformen (Hadoop van Apache, Openstack van Rackspace & NASA, EC2 van Amazon en HPCC van LexisNexis) dienen wel in de juiste context geplaatst te worden. Gegeven het feit dat deze architecturen gemaakt en gebouwd worden voor grote, gedistribueerde opslag en processing methodieken zijn ze niet geschikt voor real-time transactie georienteerde applicaties. Hiernaast dienen de applicaties geschikt te zijn voor dit soort omgevingen. Voor Hadoop zit je al snel vast aan Hbase of Casandra als database met PIG als gedistribueerde processing applicatie.
Datawarehousing en lange-termijn trend analyses alsmede sub-archivering is wel degelijk een geijkt doel voor Hadoop-achtige omgevingen. Met sub-archivering bedoel ik data opslaan waarvoor nog geen doel is gevonden. Dit komt vooral voor in geologische en astronomische analyse omgevingen.
Op ieder potje past een dekseltje, neem wel de goeie.
Begrijpt me niet verkeerd. Ben zelf zeer enthousiast over dit soort platformen. Mogelijkheden zijn zeer divers maar wel erg gericht op een bepaalde doelstelling.
Vr.gr.
Erwin van Londen