We hebben het er al vaker over gehad: bij de huidige data opslag van bedrijven is het duidelijk dat tot 90 procent van de data die aangemaakt is, daarna niet meer gebruikt wordt. Van de resterende 10 procent wordt de data na aanmaak gemiddeld in 65 procent van de gevallen één keer herbruikt. Zeker met de steeds toenemende digitalisering van het bedrijfsleven worden data hoeveelheden een noodzakelijk punt voor it-management.
Een manier om dit vraagstuk het hoofd te bieden is door een passende deduplicatie procedure op te starten. Zoals bij zoveel technische oplossingen zijn hier verschillende varianten van en is de techniek ook al enige tijd beschikbaar. Vroeger was deze techniek nog relatief duur en werd er eerder gekozen voor het aankopen van extra hardware om maar genoeg ruimte te creëren. Daarnaast werden er dan ook nog procedures opgesteld voor gebruikers binnen de organisatie, zoals het automatisch deleten van data die niet binnen de gestelde termijn werd gebruikt of die naar een archief verwijzen. Een ander mooi voorbeeld is het limiteren van de toegestane inhoud van de mailbox en storage ruimte.
Data tsunami
De data tsunami waar ieder bedrijf tegenwoordig mee wordt geconfronteerd, heeft er echter voor gezorgd dat de oude oplossingen niet meer toereikend zijn. Er moet constructiever worden gewerkt. Deduplicatie voldoet aan diverse behoeften uit de markt. Iedere organisatie moet zich in eerste instantie afvragen welke data issues voor de bedrijfsvoering cruciaal zijn. Op basis daarvan kan men dan namelijk tot de juiste oplossing komen. Bedrijven die een te grote back-up window krijgen door een te grote hoeveelheid aan data, kunnen enorm profijt hebben van deduplicatie, maar zeker ook bedrijven die een steeds grotere hoeveelheid aan ongestructuurde data hebben. Denk vooral aan organisaties die steeds meer (intern) met videos, foto's of vblogs werken.
Vier niveaus
Het tij wordt dus gekeerd met de juiste oplossing. De behoefte van de klant staat daarbij centraal. Wil een organisatie alleen deduplicatie van data of wellicht ook compressie van files? En waar in de infrastructuur moet de oplossing zich gaan bevinden? Via workshop-, assessment- en designfases kan de juiste oplossing voor de klant gedefinieerd worden.
Uiteindelijk zijn er vier mogelijke niveaus waar de oplossingen hun werk kunnen doen, te weten op server-niveau, op san-niveau, op back-up-niveau en op archief-niveau
Er zijn vele oplossingen. Uiteindelijk zijn de meest voorkomende wensen die wij zien als volgt:
– de oplossing dient transparant te zijn, dus geen zichtbare impact te hebben op eindgebruikers en applicaties
– goede perfomance, dus de oplossing dient de lopende processen en workloads niet te vertragen
– geen verlies van data, dus optimalisatie die bit voor bit terug te halen is.
– sterke content awareness: wat is er mooier dan bepaalde filetypes die automatisch herkent worden?
– aanpassing van de omgeving naar de behoefte en zeker de flexibiliteit daarbij.
Dus wil je alleen deduplicatie of compressie of toch allebei? Uiteindelijk biedt deduplicatie een return on investment op basis van ruimte, bandbreedte en stroombesparingen.
Ik zie vooral voor backup oplossingen de grootste toegevoegde waarde.
Vooral in virtuele server omgevingen is een hoop (tijds)winst te behalen. Hoe minder data je hoeft veilig te stellen hoe minder data je terug moet zetten in geval van een escalatie.
Natuurlijk is deduplicatie of compressie op SAN-niveau ook zeker geen overbodige luxe. Alleen dienen vooraf dan wel de voor en nadelen ( performantie verlies ) duidelijk tegen elkaar afgewogen te worden.
En mijn advies zou zijn om dat niet op alle types data te doen. Dit kan nl nog wel eens wat vertraging opleveren.