We weten allemaal wel dat onze informatie zich eigenlijk gedraagt als een virus; het heeft namelijk de merkwaardige eigenschap zich ongemerkt te vermenigvuldigen. Ook kleine mutaties zijn veel voorkomend. Om een voorbeeld te geven: een powerpoint presentatie wordt vaak meermalen opgeslagen in diverse systemen en formaten, alleen al door het feit dat het doorgaans naar vele personen wordt rondgestuurd en vervolgens door de ontvanger op diverse manieren wordt opgeslagen: zowel in de mailbox, als in het lokale mail archief, alsook als los bestand (saved attachment) op de home directory. De eigenschap zich te muteren toont zich in dit voorbeeld doordat mensen vaak de presentatie even openen en – wellicht zonder wijzigingen – weer opslaan. Het bestand is nu echter wel (zij het minimaal) gewijzigd (denk alleen al aan het veld “last modified” en “last accessed” in de properties). Ook als alleen de titel wordt aangepast of wat extra tekst wordt ingevoegd zijn de wijzigingen minimaal – maar er ontstaat wel een heel nieuw, uniek bestand.
Als we de powerpoint in zijn vele hoedanigheden dagelijks moeten backuppen, blijkt al snel dat de totale opslag capaciteit die nodig is vele malen groter is dan het oorspronkelijke bestand zelf. Overigens blijkt ook nog eens dat binnen het bestand herhaalde patronen van data voorkomen – compressie algoritmes (zoals ZIP) maken hier al enigszins gebruik van en vervangen herhalende patronen die vlak bij elkaar liggen door een verkorte code (naast andere slimme trucs om de omvang te verkleinen). Dubbele data aan het begin en eind van het bestand is lastiger voor compressie – vandaar dat de compressie factor vaak niet hoger is dan zo’n 50 à 80% onder gunstige omstandigheden (platte tekst). Dubbele brokken data in verschillende bestanden – of zelfs in verschillende applicaties – zijn al helemaal niet door compressie algorithmes te herkennen.
Echter sinds enige tijd zijn er verschillende algorithmes ontwikkeld die in staat zijn gedupliceerde brokjes data te identificeren en te reduceren tot één. In ons voorbeeld met de veelvuldig gekopieerde powerpoint kun je al aanvoelen dat dit enorm scheelt in de hoeveelheid benodigde capaciteit. De slimste algorithmes zijn ook in staat dubbele data op verschillende fysieke of virtuele servers te herkennen – bijvoorbeeld door ze te vergelijken tegen een centrale de-duplicatie database – en onafhankelijk van het formaat van de data (zoals powerpoint bestand, exchange database of PST file).
Wel is deze techniek vooralsnog het meest geschikt voor backup- en restore toepassingen, omdat de reconstructie van een origineel bestand uit stukjes unieke data nu eenmaal tijd kost en zich dus minder goed leent voor online bestanden of objecten waarbij snelle toegang nodig is – hoewel ook op dat vlak volop onderzoek en ontwikkeling wordt gedaan. Met name de combinatie met "thin provisioning" biedt veel toekomstige nieuwe mogelijkheden.
Van data die is verwijderd vanuit een applicatie blijft namelijk vaak de bestandsstructuur fysiek ergens op disk achterwege en kan derhalve niet zomaar worden teruggegeven aan een vrije data pool (een storage systeem is immers niet in staat te weten of de flarden van een bestand zijn gewist of nog ergens bij het bestand horen). Denk maar aan de mogelijkheid van "undelete" of de "forensic" tools die rechercheurs tot hun beschikking hebben om gewiste data van een PC terug te toveren.
De-duplicatie heeft de potentie dit probleem op te lossen: je kunt bijvoorbeeld alle vrijgekomen ruimte in een bestandssysteem overschrijven met bijvoorbeeld alleen maar nullen – waarna de-duplicatie software alle identieke blokken reduceert tot één en de vrijgekomen disk ruimte weer beschikbaar stelt voor andere toepassingen. Aanpassingen van Unix- Linux- en Windows bestandssystemen om hier slimmer mee om te gaan zullen niet uitblijven en hetzelfde geldt wellicht voor relationele database systemen.
Mijn verwachting is dat de-duplicatie één van de meest interessante storage gerelateerde onderwerpen wordt van dit jaar en de komende jaren; de potentiele kosten reductie in een backup omgeving is nu al enorm, en het volwassen worden van de software tezamen met integratie van andere nieuwe technologie maken dat we nog slechts het tipje van de sluier hebben opgelicht.
Het is inderdaad zo dat deduplicatie een frisse technologie is in de storagemarkt. Tot voor kort was innovatie vooral gericht op het vergroten van schaalbaarheid en het op kunnen vangen van datagroei, zonder dat er kritisch werd gekeken naar de data die eigenlijk wordt opgeslagen. Deduplicatie is een eerste serieuze stap om data-opslag terug te dringen. Organisaties die deduplicatie willen inzetten om hun back-up volumes te verkleinen, doen er goed aan om hun eigenlijke probleem goed te onderzoeken. Dit omdat er verschillende manieren zijn om deduplicatie toe te passen; er zijn oplossingen die de data al op de host ontdubbelen, zodat er minder data over het netwerk wordt verstuurd. Zeker in netwerken die te maken hebben met forse netwerkbelasting kan dat een groot voordeel opleveren. Andere oplossingen verzamelen data op een appliance, alwaar de deduplicatie plaatsvindt. Appliance deduplicatie wordt door veel leveranciers gezien als een technologie die een hogere compressie mogelijk maakt, maar vermindert de data die over het locale netwerk wordt verstuurd niet. Zo hebben beide oplossingen hun voors en tegens. Voor organisaties die deduplicatie overwegen geldt dus dat ze goed moeten afwegen wat het hoofddoel is.
Inmiddels zijn er wel al de eerste oplossingen die vrijgekomen ruimte teruggeven aan de vrije pool. HP StorageWorks EVA Dynamic Capacity Management software incombinatie met de HP StorageWorks EVA en Windows 2008 en/of HP-UX 11.23 biedt deze functionaliteit.
Een paar jaar geleden wat online expansion ook nog niet mogelijk en dat is tegenwoordig in vrijwel alle operating systems aanwezig. Nu de HP EVA’s dat kunnen met Windows en HP-UX zullen de andere operating systems op termijn wel volgen.
Remko Westrik
Manager HP StorageWork
Hewlett-Packard Nederland
Online expansion bestaat al vele jaren op linux, aix, sun solaris.
Windows kan dat sinds XP ook al.
Die denkrichting is niet interessant. Het gaat erom dat op slimmere manier (en dus technieken) met opslag wordt omgegaan.
Daar is dit artikel maar een kleine stap in.
Geldt dit “aangroeien” van data ook voor afbeeldingen? Bij scannen zie ik vele vele keren dezelfde afbeeldingen voorbij flitsen, wat een ruimte kost dat niet.
Is er iets tegen te doen?