De storagebranche heeft steeds vaker te maken enorme data, bekend als 'big data'. Het analyseren hiervan wordt steeds lastiger voor cio’s en ict-managers. Nieuwe informatiemanagementoplossingen zijn nodig. Wat voor technologieën komen hierbij om de hoek kijken? Volgens Computable-experts spelen onder andere taaltechnologie, open source en Hadoop een belangrijke rol bij big data.
Kees Groeneveld, directeur van Xperts-4U, zegt dat ongestructureerde data toeneemt door het gebruik van e-mail en social media. Taaltechnologie gaat volgens hem bij big data een grotere rol spelen. ‘Gartner meldt dat de hoeveelheid ongestructureerde data de komende vijf jaren zelfs zal stijgen naar 650 procent van wat er nu reeds geproduceerd wordt. De nieuwe vormen van communicatie, waarbij gebruik wordt gemaakt van (vrije) tekst(velden), vragen nieuwe vormen van het analyseren van de enorme hoeveelheden aan gegevens. Taaltechnologie gebaseerd op natuurlijke taal biedt hiervoor een oplossing. Een voorbeeld is het geautomatiseerd kunnen analyseren van tekstberichten. Hierdoor kun je als bedrijf of instelling zien hoe er over jouw merk, product of dienst gedacht wordt en kun je op basis van deze gegevens voorspellen in welke richting deze meningen zich verder ontwikkelen.'
Hadoop
Johan van der Kooij, senior consultant bij Incentro, zegt dat big data een containerbegrip is: een verzameling van technieken en vaardigheden om specifieke, complexe data, uitdagingen op te lossen. Hij ziet een grote rol weggelegd voor de Hadoop-technologie. ‘Inzet van een gedistribueerd opslag- en verwerkingsplatform, waarbij data in ruwe vorm wordt opgeslagen, biedt interessante mogelijkheden, door de datacompressie en rekenkracht. Een voorbeeld van zo'n platform is Hadoop, dat door steeds meer softwareleveranciers wordt omarmd en zich daardoor lijkt te ontwikkelen als de standaard voor gedistribueerde opslag en verwerking van ruwe (onbewerkte) data.'
Ict/bicc (business intelligence competency center) krijgt volgens Van der Kooij hiermee de beschikking over een relatief goedkope data-infrastructuur, die eenvoudig kan worden opgeschaald zodra er nieuwe complexe databronnen ontsloten moeten worden. ‘De kostenbesparing wordt gerealiseerd doordat Hadoop op relatief lichte hardware draait en vooral bestaat uit open source-componenten. De mogelijkheid om al die complexe data gecomprimeerd op te slaan, biedt interessante aanvullingen op de bestaande business intelligence-voorzieningen, zoals het bieden van opslag voor archivering van historische data of voor delen van de staging area. Middels deze archivering/staging kan op ieder moment het datawarehouse en/of de datamart gevuld worden met informatie conform de dan geldende business rules en informatiebehoefte. Etl (extract, transform & load)-functionaliteit richting het datawarehouse wordt deels verplaatst naar de gedistribueerde omgeving, waarmee een zeer goede performance kan worden verkregen. Hiermee is een zeer flexibele business intelligence-omgeving haalbaar en dient Hadoop als ‘voorportaal' voor de business intelligence-omgeving.'
Open source als basis
Friso van Vollenhoven, senior consultant bij Xebia, verwacht dat grote bedrijven steeds vaker big data omarmen en hierbij gebruik gaan maken van de Hadoop-technolgie. ‘Bank of America beschikt over een big data-afdeling, GE Capital gebruikt big data voor het bepalen van onder andere risicoprofielen, WalMart heeft big data-oplossingen waarmee real-time de hele keten inzichtelijk wordt gemaakt. Deze oplossingen hebben allemaal één aspect gemeen: ze zijn niet gebouwd met traditionele oplossingen, zoals relationele databases (Oracle) en standaard bi-tools. Big data-oplossingen zijn veelal gebouwd op basis van open source en in het bijzonder de cluster computing-technologie van Apache Hadoop. Winnen met big data doe je door traditionele oplossingen los te laten en voorop te lopen bij het investeren in werkelijk vernieuwende oplossingen die ‘big data ready' zijn.'
Grote, en soms terechte, zorg bij cutting edge- en open source-oplossingen is vaak de stabiliteit en volwassenheid van dergelijke software, aldus Van Vollenhoven: ‘Ik vind dat we momenteel op het punt staan dat die zorg omtrent big data-oplossingen en Apache Hadoop niet meer terecht is. Hadoop slaat niet alleen al het berichtenverkeer van 750 miljoen Facebook-gebruikers op, maar is ook de kracht achter de big data bi-oplossing van Bank of America. De belangen in de technologie zijn te groot geworden om zaken aan het toeval over te laten. Deze software is dan ook pas na serieuze testen ingezet en productierijp gebleken.'
Rondetafelfdiscussie Big data
Computable-experts discussiëren woensdag 2 november op de InfoSecurity (Jaarbeurs Utrecht) om 14.00 uur over ‘big data'. Bezoekers zijn van harte welkom op de Computable stand E095 om de rondetafeldiscussie te volgen. Sprekers zijn Kees Groeneveld (Xperts-4U), Johan van der Kooij (VLC), Friso van Vollenhoven (Xebia) en Bart Sjerps (EMC).