Alle analisten praten over een gigantische toename van data, met als gevolg meer storage. Dit is op zich waar, maar welke soort data groeit nu werkelijk, wat zijn de problemen, waar ligt de groei qua hardware en software. Schrijf mee, denk mee, deel je mening en natuurlijk je ervaring(en)
In 2014 zal er ongeveer vijfmaal zoveel data zijn opgeslagen als in 2011 (6000 PB), althans dat zeggen de analisten. Als je naar de markt kijkt, klopt dit aardig; mensen slaan echt alles op. Door toename van het mobiele dataverkeer, neemt de berg storage ook toe. De groei zit hem voornamelijk in de un-structured storage oplossingen. Problemen doen zich voor in de vorm van:
– kosten van de opslag systemen zelf
– management
– back-up (vaak spreken we van back-up, maar hoe zit het met restore?)
– performance
– schaalbaarheid
– power en koeling
– datacenterruimte
– (on-line) vervanging i.v.m. technology update (b.v. na 3 of 5 jaar)
De hoeveelheid structured data groeit ook, maar niet zo snel als unstructured data. Door deze groei zien we dezelfde problemen als voor un-structured data, echter in een mindere mate.
Hoe kijkt IT Nederland tegen dit probleem aan?
Dat blijft inderdaad een interessante vraag en stelling, Hugh. Zelf spreek ik tegenwoordig meer van een data eruptie in plaats van een data explosie. Bij een explosie zou al die data eigenlijk ook als het ware kapot klappen, wat niet gebeurt. Maar net als bij een werkende vulkaan, borrelt alle data maar op en blijft ongebreideld stromen. En wat doet de mens!? Die gaat dank zij nieuwe technologieën al die lava/data ook nog repliceren. Denk ook eens aan dropbox. Als ik een PowerPoint van een GigaByte met drie collega’s deel in een dropbox, neemt ie opeens 5 GB in beslag. En dat is misschien niet eens (want lokaal op de laptop) te dedupliceren ook! Er zal de komende jaren dus nog wel wat storage verkocht worden…
Beste Hugh,
Structured data groeit ook wel degelijk, en ook “explosief”, alleen wordt daar minder de aandacht op gevestigd en vindt die groei op een andere manier plaats. Steeds meer ongestructureerde data wordt opgeslagen in een database structuur. Denk aan Sharepoint, Documentum, etc. Binnen deze database structuren wordt de ongestructureerde data ook nog eens geindexeerd, wat voor extra data zorgt. Kortom, hoe meer ongestructureerde data gestructureerd opgeslagen wordt, des te meer zal de datagroei toenemen.
De groei van gestructureerde data probeert men op centrale storage systemen in te dammen door toepassing van deduplicatie en compressie. Maar compressie, deduplicatie en dergelijke zijn lapmiddelen, pleisters op de wonden. Deduplicatie, met name op primaire opslag, heeft een beperkt positief effect. Doordat de meeste ongestructureerde data vergelijkbaar is en niet identiek, heeft dit minder effect dan dat de marketingboodschappen doen geloven. Deduplicatie is met name geschikt voor backup doeleinden waar wel sprake is van veel identieke data.
Ontwikkelaars van applicaties die ongestructureerde data genereren zouden initiatieven moeten ontplooien om de data die hun applicaties genereren efficiënter in te richten. Zolang dat niet of niet voldoende gebeurt is bestandsoptimalisatie een oplossing die stukken dichter bij de bron van alle ellende ligt. Met bestandsoptimalisatie ben je in staat ongestructureerde data 50 tot 98% in omvang te doen reduceren door de ongestructureerde bestanden zelf te optimaliseren. Als van 1TB aan ongestructureerde data 20% overblijft door de bestanden opnieuw en efficiënt in te richten, levert dat al een winst van 800GB op. De 200GB die overblijft wordt vervolgens gededupliceerd en gecomprimeerd en blijft er nog 65GB over. Tel uit je winst. Dit is een winst van 935GB op primaire storage, repliceer deze data, maak er een backup van en de winst is al 2,8TB!
Kortom, ja, er is sprake van data “explosie”, eruptie, maar deze explosie/eruptie hoeft veel minder grote impact te hebben op storage omgevingen en ICT budgetten dan in de huidige situatie.
De toenemende behoefte aan opslag is gewoon ordinaire groei als gevolg van de verdergaande digitalisering. Of die nu gestructureerd of ongestructureerd is maakt niet veel uit omdat het resultaat in capaciteit (PB’s) hetzelfde is.
Datamanagement kan wel helpen om deze groei wat af te remmen. Zodat bijvoorbeeld hetzelfde bestand niet 30 keer opgeslagen wordt in bijvoorbeeld verschillende home directories. Maar Enterprise Content Management is soms als ‘dweilen met de kraan open’. De opslag van data beperkt zich tenslotte niet alleen meer tot het eigen datacentrum.
Diensten als ‘online’ backup maken het de consument makkelijk om gegevens op te slaan. Maar deze consumenten zijn ook vaak de werknemers zodat de grens tussen bedrijfs- en privegegevens minder hard wordt.
Een niet genoemd, maar steeds groter wordend probleem zit dus niet in de opslag maar controle en beveiliging van de data.
Explosie of eruptie, uiteindelijk eindigen we met een berg bitjes waarin het alleen maar moeilijker wordt de essentiele gegevens terug te vinden. Dat kunnen we oplossen door nog meer “ijzer”, maar waar is de grens?
Ik zie een nieuw beroep: data-archivaris. Iemand (of iets?) die data kan beoordelen. En daarmee ook echte data life cycle: echt verwijderen van gegevens!
De beste oplossing ligt in het inperken van de groei, niet in het faciliteren ervan. Voorkomen is altijd al beter geweest dan genezen.
@Herman Mol,
Die functie van “Data-archivaris” bestaat of bestond natuurlijk eigenlijk al, Herman. Dat heet of heette vroeger een documentalist en had een soortgelijke functie als een bibliothecaris. Die documentalist bepaalde hoe, of en waar data moest worden bewaard en raadpleegde daarvoor ter zake-kundigen. Complexiteit ontstond toen ook kennis management systemen moesten worden ingericht en duidelijk werd dat het moeilijk is om van gegevens te bepalen of iets informatie is, of kennis, of gewoon maar ‘data’. Een hele mooie taak dus voor jouw digitale data-archivaris!