Organisaties worden van alle kanten overspoeld met enorme hoeveelheden data, oftewel ‘big data’. De hoeveelheid data is de laatste tijd enorm gegroeid van gigabytes naar peta- en zelfs zettabytes. ‘Big data’ is een verzameling van een enorme hoeveelheid ongestructureerde data die opgeslagen, beheerd en geanalyseerd moet worden. Daardoor kunnen verbanden worden gelegd, zoals klantengedrag, trends, fraudeopsporing en nieuwe zakelijke kansen. 'Big data', een soort datamining op zeer grote schaal, is de nieuwe belofte na cloud computing en virtualisatie. Grote it-leveranciers maken hun portfolio inmiddels geschikt voor het opvangen van ‘big data’.
Big data bestaan onder andere uit tekstdocumenten, klantgegevens afkomstig van (mobiel) internetverkeer, scans, foto's, video's, tweets en updates vanuit speciale websites zoals Facebook en Hyves. Deze data kunnen functioneren als een real-time crm-systeem, dat continu nieuwe trends en mogelijkheden spot. Bedrijven kunnen met big data-oplossingen ongestructureerde gegevens integreren en analyseren waar deze zich ook bevinden, zoals op dataopslagsysteem of op het internet, zonder de datawarehouses van bedrijven worden overbelast.
Volgens onderzoeksbureau McKinsey gaan big data de economie radicaal veranderen. Dit soort bergen data wordt een belangrijke basis voor innovatie en competitie. Volgens het onderzoek van McKinsey-onderzoek ‘Big Data The Next Frontier for Innovation' leveren big data nieuwe groeimogelijkheden voor organisaties. Ook worden kosten bespaard doordat data sneller in relevante informatie worden omgezet .
Grote bedrijven zoals Yahoo, Google en Bank of America hebben big data-toepassingen al omarmd. In Nederland zijn bedrijven zoals Hyves en KPN bezig met het analyseren van grote hoeveelheden gegevens.
IT-beslisser, CIO en IT-manager
Volgens Scott Yara, medeoprichter van datawarehousespecialist Greenplum, dat eind 2010 in handen kwam van dataopslaggigant EMC, komen big data' ofwel ‘data computing' de komende jaren steeds vaker op de agenda van de it-beslisser, cio en it-manager te staan. Yara zegt dat EMC Greenplum en de rest van de industrie met steeds meer slimme en snelle datawarehousing-toepassingen, die op standaarden gebaseerd zijn, grote hoeveelheden data kunnen analyseren tegen lage kosten. ‘Deze nieuwe big data-appliances helpen klanten welke data ze moeten bewaren en welke ‘dode data' ze kunnen weggooien. De eerste klanten zijn grote organisaties, zoals winkelbedrijven en energieleveranciers, die veel klanten bedienen.'
Volgens Yara is het belangrijk om data te scheiden in 'belangrijk' en 'onbelangrijk', teneinde grip op de gegevens te blijven houden. ‘EMC verwacht zelf dat er wereldwijd in 2010 voor 35 zettabytes aan data is opgeslagen. Data die bewaard worden, moet geanalyseerd worden ten behoeve van de strategie van een organisatie. Zo kan met het toepassen van business intelligence (bi) op big data meer informatie worden gehaald, waarmee bijvoorbeeld klantgedrag valt te voorspellen.'
Yara voorspelt dat zijn onderdeel verder zal groeien, omdat klanten steeds meer data moeten opslaan en analyseren. Big data worden niet alleen gebruikt door grote overheidsinstellingen, maar tegenwoordig ook door het bedrijfsleven en belangenorganisaties, aldus Yara.
EMC, IBM, Teradata, Oracle, Echo, Cloudera, Informatica, Xebia
Steeds meer leveranciers springen in de markt van big data door het ontwikkelen van technologie of door overnames. IBM nam Netezza over, Teradata haalde Aster Data binnen en Greenplum werd opgeslokt door EMC. Andere big data-specialisten zijn onder andere Oracle, Echo en Cloudera. In Nederland zijn de eerste ict-dienstverleners al actief met big data, zoals Xebia.
De trend Big Data gaat over meer dan volume alleen. Het heeft volgens leverancier Informatica ook te maken met de snelheid waarmee data worden gegenereerd en met de variëteit in en complexiteit van de data. Wanneer om een snelle manier betrouwbare data worden verzameld kan dat ten goede komen aan de besluitvorming en de bedrijfsvoering van een organisatie. Er kan volgens Informatica concurrentievoordeel worden behaald door conventionele en niet-conventionele bronnen met elkaar te combineren. Verder worden er risico's verkleind en compliance-eisen geoptimaliseerd dankzij direct te gebruiken actuele informatie. De leverancier heeft recentelijk de softwareoplossing Informatica 9.1 uitgerold die geschikt is voor ‘big data' uit traditionele databases zoals van Oracle of van analytische databases, zoals van Teradata.
IBM verwacht dat organisaties snel aan de slag gaan met het opvangen van ‘big data'. IBM investeert daarvoor honderd miljoen dollar in onderzoek voor de ontwikkeling van analysetools voor het verwerken van grote hoeveelheden ongestructureerde data (tachting procent van alle opgeslagen data). IBM zegt dat de huidige business intelligence (bi)tools en analysesoftware niet goed genoeg zijn in het analyseren van big data die meerdere petabytes bevatten. Vandaar de grote investering. IBM biedt op dit moment voor het verwerken van big data zijn InfoSphere-software en het supercomputersysteem Watson. Het Watson-systeem, vernoemd naar de oprichter van IBM, heeft 2880 processorkernen en vijftien terabyte aan geheugen, draaiend op het IBM Power 750-serversysteem.
Datawarehousingtspecialist Teradata heeft het laatste jaar aantal vernieuwde producten geïntroduceerd, onder andere voor het analyseren van big data die afkomstig zijn uit sociale netwerken zoals Facebook en Twitter. Bedrijven kunnen hiermee grote hoeveelheden data afkomstig van sociale netwerken, smartphones en mobiele sensoren, zoals rfid, beter verzamelen en analyseren, aldus Teradata.
IT-Managers, Data Scientists en Big Data
Volgens it-managers van 24 verschillende grote bedrijven, die meededen aan een rondetafelgesprek op de eindgebruikersconferentie EMC World 2011 (met als thema Cloud Meets Big Data) in Las Vegas, leidt de komst van 'big data' tot veranderingen in hoe it-medewerkers moeten worden opgeleid en werken. Zo moeten ze goed voorbereid zijn op de enorme groei van data die soms per jaar wel met vijftig procent toeneemt. EMC zegt hier tegemoet te komen door it-medewerkers op te leiden tot ‘datawetenschappers', die het kaf van het koren moeten scheiden. Welke data zijn strategisch belangrijk en welke niet? Dat doen ze met analytische en statische toepassingen.
Open source en Apache Hadoop voor Big Data
Veel datawarehouse leveranciers zoals Terradata, EMC Greenplum, IBM, Cloudera en Informatica gebruiken technologie van Apache Hadoop om snel data te verwerken en te analyseren. Apache Hadoop is een open-source technologie die geïnspireerd is op Google MapReduce en Google File System. Zo levert Teradata een plug-in voor het opensource framework Eclipse Foundation, dat integreert met bestaande applicatie- en ontwikkelomgevingen voor Teradata databasediensten. Hierbij werkt Teradata met Karmasphere-software, waarbij een ontwikkelingsplatform wordt geleverd dat Hadoop-bestanden (een Apache-opensourceproject dat Java programmering gebruikt) en Teradata-database intelligentie combineert. Programmeurs kunnen daardoor met MapReduce applicaties, via een simple ‘drag-and-drop interface', data tussen Teradata systemen en Hadoop verplaatsen. Hierdoor kunnen sneller analytische diensten worden uitgerold.
De volgende IT hype na Cloud-Computing?
Geen hype hoor, organisaties als Dink Intelligence leveren al oplossingen hiervoor sinds enkele jaren. Wel iets enorm in opkomst waar nog geen echte leaders in zijn.