De-duplicatie blijkt de laatste tijd een bijna magisch woord. Iedereen is er mee bezig. Daarnaast zijn er verschillende overnames aan de gang, zoals de overnamestrijd rond Data Domain door NetApp en EMC.
De-duplicatie van data wordt momenteel meestal geassocieerd met back-up. Daar heeft de-duplicatie ook het meeste effect, aangezien er binnen een back-upcyclus veel identieke informatie zit. Een klein voorbeeld, een klant die zijn backups drie maanden wil bewaren beschikt over dertien kopieën van zijn data. Stel dat zijn omgeving uit vijf terabyte bestaat, dan bewaart hij totaal 65 terabyte aan data (zonder compressie). Indien dit een op tape gebaseerde back-up is, is dit geen probleem. Als dit een disk gebaseerde back-up is, wordt het geheel erg prijzig. Gaan we ervan uit dat binnen elke back-up 95 procent van de informatie identiek is, zal de klant maar 10 terabyte nodig hebben.
Met andere woorden, data de-duplicatie op een back-up target bespaart de aanschaf van disk, waardoor de investering betaalbaar wordt. Het lost echter niet het back-upprobleem op. Data gaat wel naar disk, maar de-duplicatie versnelt de back-up niet.
Het werkelijke probleem is dat we nog steeds alle data een keer per week back-uppen, omdat de back-upapplicaties niet gebouwd zijn om alleen maar de veranderingen te back-uppen. In het bovengenoemde voorbeeld zullen we tijdens de full back-up nog steeds vijf terabyte over het netwerk verplaatsen. Als een back-upserver ongeveer 200GB per uur verplaatst, zal deze er 25 uur nodig hebben voor een full back-up. De enige manier om de back-up te versnellen is dan om gebruik te maken van meerdere back-upservers, waardoor je de load verdeeld. Dit kan erg kostbaar zijn. Voor een klant met 25 terabyte aan data met een back-up window van acht uur betekent dit zestien back-upservers, waarbij het achterliggende disk device zo'n 500MB aan moet kunnen. Over het totaal gezien een leuke oplossing om te verkopen, maar erg prijzig. Daarnaast is de vraag hoever dit schaalt indien de klant groeit met 70 procent per jaar.
Indien we de back-up-,en uiteraard restore-, problematiek effectief willen bestrijden, is het dus efficiënter om minder data over het netwerk te verplaatsen tijdens de back-up. De-duplicatie is hier ook een oplossing, maar dan praten we over source based de-duplicatie. Met andere woorden: we back-uppen en verplaatsen alleen maar data die nooit geback-upped is. Klassieke back-upapplicaties ondersteunen dit niet, maar de nieuwe genereratie oplossingen wel. Denk hierbij aan EMC Avamar, Symantec Puredisk, NetApp SnapVault en OSSV. De-duplicatie wordt hier dus niet ingezet om de kosten van de disk back-up te verminderen, maar om data sneller en efficiënter te back-uppen.
In mijn ogen is met name voor omgevingen met veel data de laatst genoemde oplossing een strategische oplossing die het back-up en restore-probleem voor een langere tijd oplost dan de-duplicatie aan de back-up target zijde.
Aangezien NetApp al zeer geruime tijd beschikt over een zeer mooie en efficiënte oplossing om back-ups op deze manier te adresseren, vraag je je af waarom ze zoveel willen betalen voor Data Domain. Wellicht zijn ze vergeten wat ze in huis hebben.
De reden waarom NetApp DataDomain wil overnemen, is heel simpel. Je vergeet dat veel bedrijven al geld en tijd geinvesteerd hebben in hun huidige back-up omgeving.
Hier staan reeds back-up servers te zoemen, vaak met dure software licenties erop. De beheerders kunnen makkelijker overschakelen op een deduplicatie oplossing als deze integreert in de bestaande omgeving.
Hoewel EMC hier een goede oplossing voor heeft gevonden door Avamar te integreren in Networker, is dat voor de NetApp oplossing niet zo eenvoudig.
Door nu ook een back-end oplossing in huis te hebben, kan NetApp zowel zijn bestaande klantenkring bedienen met SnapVault, als zijn klantenkring uitbreiden met hardware oplossingen.
@Iks: ik denk dat je de strekking van het verhaal mist; het gaat hem niet over de backend, de problemen ontstaan juist bij het backuppen van data; we kunnen dezelfde data wel op minder ruimte kwijt, maar de backup zelf is nog steeds volledig. Alle data gaat over de lijn, waardoor het backupwindow wordt overschreden.
En juist de backend heeft NetApp: NetApp storage systemen zijn standaard voorzien met de mogelijkheid om te dedupliceren. En ook het backup probleem is met NetApp te adresseren, met SnapVault en OSSV.
Een niet genoemde back-upapplicatie die ook ‘source based de-duplicatie’ toepast is CrashPlan. De-duplicatie werkt in de praktijk ook bijzonder effectief voor de meeste soorten data. Een uitzondering daarop zijn images van virtuele machines. Daar groeit een schijf van 8GB in 10 maanden naar circa 800GB opslag bij het bewaren van alle versies en verwijderde bestanden.
Het hebben van een full backup is vooral gewenst om snel een full system restore te kunnen doen en dan niet een grote hoeveelheid backup files te moeten doorspitten met alle wijzigingen zodat dit meer tijd kost dan noodzakelijk. Elke seconde winst is meegenomen als een restore nodig is. Incremental backup is een standaard functionaliteit van vrijwel alle standaard backup applicaties. Er zijn er zelfs die off-line (zonder impact op de backups en servers) een nieuwe full backup genereren uit de vorige full en de incrementals zoals bijvoorbeeld HP Data Protector. Waardoor de ?wekelijkse? full backup overbodig is.
Ook de genoemde source based deduplicatie backupapplicaties (hoezo een mond vol) hebben met ditzelfde fenomeen te maken. Hoe zorg je ervoor dat de full system restore efficient kan plaatsvinden als je alleen verschillen hebt. Immers hoe verschillend is een incremental backup ten opzichte van een deduplicated full backup?
Overigens is source based deduplicatie wel belangrijk als de verbinding langzaam is. Denk aan laptops via een VPN verbinding van buiten het bedrijf.
De waarde van deduplicatie waar we in het geval van Data Domain over praten is dus ook vooral dat je de backups langer op de virtual library kunt laten staan. Dus inplaats van voor maar een maand kost het weinig extra om een jaar of meer in de virtual library te houden. Dan is dus vrijwel elke restore direct vanaf het virtual library systeem te doen en dus snel en zonder handmatige acties.
Voor EMC en NetApp reden om flink in de buidel te tasten. EMC had geen eigen technologie maar heeft deze in OEM van een andere leverancier. NetApp heeft wel eigen technologie maar blijkbaar niet goed genoeg bevonden. De andere belangrijke leveranciers HP en IBM hebben ook de technologie in huis. Aangezien het geen monopoly geld is zullen ze daar toch wel heel goed over nagedacht hebben. De toekomst zal het leren.
Remco, je hebt volledig gelijk dat bestaande applicaties een incremental backup strategie kunnen hanteren. Een groot probleem is echter dat je dit maar een beperkt aantal keren kan uitvoeren. Eens in de maand zal je echt weer een full backup moeten maken. De huidige generatie backup software is niet geschikt voor incremental for ever behalve TSM die weer andere problemen kent. Daarnaast is een incremental niet te vergelijken met global source based dedup. Een incremental zal gauw 10% van de data opnieuw backuppen terwijl global source based onder de 1% blijft. Hetzelfde geld voor de de functionaliteit die uit incremental backups een full genereert, de zogenaamde synthetic full backup. Dit kan je ook slechts een beperkt aantal keren uitvoeren terwijl dit een enorme overhead op de server plaatst.
Ik zit met een groot probleem en hoop dat jullie daar voor mij een oplossing voor hebben! Ik heb Norton 360.3 en die slaat ook veilig????online! Nu ben ik een student aan het Leidse Universiteit en maak braaf backup’s op dvd van mijn studie. Ik ben een tas met mijn dvd in de trein kwijt geraakt. En wat gebeurt er nu! Ik kan niet veel meer terug vinden van dat veilig online van Norton. Dus ik ben een groot deel van mijn studie matriaal kwijt. Weten of hebben jullie enige idee hoe ik toch mijn bestanden terug zou kunnen krijgen? Want ik mijn pc al een aantal keren moeten herinstaleren omdat de technische dienst van Norton mij dat vroeg. Door de problemen die ik ondervond met Norton. Ik heb als ik naar de veilig online kijk nog alle namen van mijn pc en de datum’s. Kunnen jullie mij misschien adviseren of helpen. Want anders zijn er voor mij een paar jaartjes over te doen! Ik ben jullie alvast zeer erkentelijk voor de tijd die jullie willen nemen om mij eventueel te kunnen helpen in deze kwestie.
Met Vriendelijke Groeten,
Denzel
In mijn ogen is voor back-up een incremental for ever met de-duplicatie oplossing de meest efficente. Ik snap ook niet waarom niet meer back-up oplossingen dit ondersteunen.
Ik verwacht dat er in de storagewereld zoals SAN nog veel valt te halen betreffende de-duplicatie.