We hebben het er al vaker over gehad; tot negentig procent van alle data wordt na het opslaan ervan nooit meer gebruikt. Van de overige data wordt rond de 65 procent nog maar één keer aangeroepen na aanmaak. Met de groeiende digitalisering van de maatschappij in het achterhoofd wordt de groeiende databerg een steeds belangrijker punt voor het it-management.
Een manier om dit vraagstuk het hoofd te bieden is door een passende procedure voor deduplicatie op te zetten. Vroeger was deze techniek nog relatief duur en werd er eerder gekozen voor de aanschaf van extra (storage)hardware voor de vereiste capaciteitsuitbreiding. Daarnaast werden er dan ook nog procedures opgesteld voor gebruikers binnen de organisatie, zoals bijvoorbeeld het automatisch verwijderen van data die niet binnen de gestelde termijn worden gebruikt of naar een archief worden verwezen. Een ander mooi voorbeeld is het beperken van de toegestane inhoud van de mailbox en van de ‘persoonlijke’ ruimte voor dataopslag.
Data overvloed
Door de overvloed aan data waarmee ieder bedrijf wordt geconfronteerd, kunnen dergelijke oplossingen echter naar de prullenbak. Er moet constructief worden gewerkt aan structurele oplossingen die enerzijds minder op de budgetten drukken en anderzijds de gebruikers niet teveel beperken in hun databehoefte. Deduplicatie speelt daarmee in op een grote diversiteit aan marktbehoeften. Bedrijven waar een grote back-up window ontstaat door een snelgroeiende hoeveelheid data kunnen enorm profijt hebben van deduplicatie, evenals bedrijven waar met name de ongestructureerde data sterk groeit. Denk hierbij ook aan organisaties die steeds meer (intern) met video’s, foto’s of vlogs werken. Het belangrijkste voor iedere organisatie is zich eerst af te vragen welke data issues voor haar bedrijfsvoering cruciaal zijn, op basis daarvan kan men dan tot de juiste oplossing komen.
Drie niveaus van deduplicatie
Het tij is dus te keren met de juiste oplossing. Bepalend voor de juiste oplossing is de behoefte van de klant. Wil een organisatie alleen deduplicatie van data of wellicht ook bestandscompressie? En waar binnen de infrastructuur is de oplossing gewenst? Via workshops, assessments en ontwerpfases kan de juiste oplossing voor de klant gedefinieerd worden. Daarbij zien wij vier mogelijke niveaus waar de oplossingen hun werk kunnen doen, te weten op serverniveau , san-niveau, back-upniveau en archiefniveau.
Er zijn vele oplossingen. Vanuit de praktijk kunnen we stellen dat deze in elk geval aan de volgende criteria dienen te voldoen. De oplossing dient transparant te zijn, dus geen zichtbare impact voor eindgebruikers en applicaties. Performance; de oplossing dient de lopende processen en workloads niet te vertragen. Geen dataverlies, dus optimalisatie die bit voor bit terug te halen is. Content aware, wat is er mooier als bepaalde bestandstypes al automatisch herkend worden? Aanpassen van de omgeving naar behoefte en ook flexibiliteit hierin, wil je alleen deduplicatie of compressie of toch beide? Uiteindelijk zal de oplossing een return on investment dienen te bieden op basis van ruimte, bandbreedte en stroombesparingen.