In 1999 doorbrak de wereldbevolking de grens van zes miljard. Het zou nog twaalf jaar duren voordat de mijlpaal van zeven miljard werd bereikt. Stel je nu eens voor dat dit aantal in 2013 in plaats van zeven naar zeventig miljard mensen zou stijgen. Zou de wereld dat aankunnen? Dit geeft een idee van hoe snel de hoeveelheid data de afgelopen twee jaar is toegenomen.
Niet alleen creëren we ongeveer 2,5 triljoen bytes aan data per dag; 90 procent van alle gegevens ter wereld is in de afgelopen twee jaar geproduceerd. Deze explosie aan gegevens wordt veroorzaakt door sociale media, gps-systemen, medische gegevens, downloads en uploads van digitale- en videobestanden, mobiele telefoons en financiële transacties. Daarnaast zijn er ook nog gegevens van de overheid en militaire informatie, creditcardbedrijven, online transacties, klimaatgegevens, telecomproviders, e-mails, sms-berichten, Google en Facebook.
Big data omvat al deze gegevens en meer. Bedrijven proberen door het gebruik van big data baanbrekende inzichten en analyses te bereiken. Ze lopen echter vaak tegen de vraag aan hoe ze enorme massa’s aan ruwe, ongestructureerde gegevens kunnen opslaan en daar zo veel mogelijk waarde uit putten. Vandaag de dag moeten veel organisaties gigantische hoeveelheden aan data bewaren om hun bedrijf in stand te houden of te laten groeien, of om te voldoen aan de uiteenlopende eisen van de wet- en regelgeving.
Bedrijven die terabytes, of zelfs petabytes aan bedrijfskritische informatie verzamelen moeten zich methoden eigen maken om deze gegevens op slimme wijze op te slaan. Traditionele opslagmedia en -architecturen zijn in technisch en kostentechnisch opzicht mogelijk niet langer geschikt om ondersteuning op een dergelijke schaal te bieden. Oplossingen die gegevens in afzonderlijke silo’s opslaan, zullen over het algemeen niet kunnen voldoen aan de zakelijke eisen op het gebied van flexibiliteit en schaalbaarheid.
Omdat gegevens steeds belangrijker worden voor bedrijven, is het van cruciaal belang dat alle verzamelde informatie goed wordt opgeslagen en in hoge mate beschikbaar en toegankelijk is voor alle gebruikers, ongeacht hun locatie. Gegevensintegriteit is eveneens van groot belang, omdat opgeslagen informatie na verloop van tijd aan kwaliteit kan verliezen (bit-rot oftewel een digitaal rottingsproces). Veel leveranciers gebruiken back-endprocessen om gegevens op te schonen, te controleren op fouten en waar mogelijk te verbeteren. Maar als er voor de opschoning van gegevens gigantische hoeveelheden data moeten worden onderzocht, kan dit funeste gevolgen hebben voor de systeemprestaties en de beschikbaarheid van gegevens.
Oplossingen die hierdoor niet in staat zijn om gegevenscorruptie op te sporen en herstellen, kunnen op de lange termijn een bedreiging vormen voor de levensvatbaarheid van een bedrijf. Bovendien kunnen traditionele storage-oplossingen die slechts vanaf één locatie kunnen worden ingezet, niet voorzien in de directe gegevensvereisten en al evenmin een optimaal niveau van informatiebeveiliging bieden.
Opslag als basis voor big data
Bedrijven staan onder druk om de explosie aan bedrijfskritische gegevens op een veilige en toegankelijke manier te verwerken. Het is duidelijk dat het beheer van big data voor bedrijven grote uitdagingen oplevert. Het aantal bestanden loopt op tot in de miljarden. Dit vraagt om efficiënter opslagbeheer, replicatie, disaster recovery en het vermogen om interne hardware in te zetten om de kosten in te dammen. Downtime moet tot een minimum worden beperkt en gegevens moeten makkelijk toegankelijk zijn. Daarnaast moet de gegevensintegriteit op lange termijn in stand worden gehouden en moet het systeem schaalbaarheid bieden in stappen van terabytes of zelfs petabytes.
Het probleem is dat traditionele storage-oplossingen die ondersteuning bieden voor slechts één locatie, niet kunnen voldoen aan de directe vereisten van big data. Evenmin kunnen ze optimale informatiebeveiliging bieden. Maar er is een alternatieve oplossing beschikbaar.
Open storage-oplossingen bieden organisaties de mogelijkheid om gebruik te maken van zowel krachtig presterende als kostenefficiënte opslagsystemen. Daartoe bieden ze mogelijkheden zoals inline deduplicatie, onbeperkte snapshots en cloning, agnostische hardware-oplossingen en ondersteuning voor high availability. In veel gevallen kunnen ondernemingen hun opslagkosten met wel 70 tot 80procent reduceren.
Het is niet makkelijk om met deze gegevensexplosie om te gaan en het zal alleen nog maar moeilijker worden. Bedrijven die er niet in slagen om in alle eisen te voldoen, zullen niet in staat zijn om te profiteren van de zakelijke kansen die big data hun onderneming te bieden heeft. Een open aanpak is een van de manieren waarop bedrijven dit op een veilige en betrouwbare wijze kunnen doen, en ondertussen ook nog geld kunnen besparen.
Ik kan mij maar een paar bedrijven voorstellen die petabytes aan bedrijfskritische gegevens hebben, Google, Facebook, Twitter, etc. Maar wat de achterliggende gedachte is om gegevens voor eeuwig vast te leggen, daar ben ik nog niet achter.
Aanbieders van storage hebben “big data” bedacht en komen nu met “Open” oplossingen. Voor veel bedrijven, ik schat zelfs in de meeste, zal er geen gegevensexplosie als de data huishouding op orde is. Je hebt een data lifecycle en als je die goed beheert zijn er geen petabytes noodzakelijk.
Alle “technologie op een stokje”, deduplicatie, compressie si natuurlijk nuttig, maar het is vooral noodzakelijk om te bepalen welke data bedrijfskritisch is en welke niet. Er zijn nog maar weinig storage vendors die integraal datamanagement meeleveren om data te beheren.