'Content adressed storage' claimt betrouwbaarheid, snelheid en betaalbaarheid

Organisaties worstelen met exponentieel groeiende hoeveelheden data. Voor het veilig opslaan en kunnen terugvinden van al die gegevens zonder dat de kosten uit de hand lopen volstaan traditionele opslagsystemen niet meer. ‘Content adressed strorage’ lijkt een betrouwbaar en betaalbaar alternatief te bieden.

De wereldwijde groei van data is exponentieel. Opslag-analisten van Taneja Group schatten dat ‘referentiedata’ (ongestructureerde gegevens die organisaties bewaren voor mogelijk later hergebruik) groeit van 180 petabytes in 2003 naar 2450 petabytes in 2007 (een jaarlijkse groei van 76 procent). Deze informatie wordt niet meer opgeslagen op centrale mainframes of databanken. Het merendeel vermenigvuldigt zich op netwerkcomputers, met elkaar verbonden door lan’s, wan’s en internet.
Traditionele opslagsystemen als tape hebben hun grenzen bereikt. Het terugvinden van verloren data is een nachtmerrie. Ook het terugzetten met tape-backups is geen sinecure. Daarnaast zijn tapes onbetrouwbaar, en vereist kopiëren dure robots en is het arbeidsintensief.
Alternatieven die gebruik maken van op standaard harde schijven gebaseerde opslagsystemen zijn niet geoptimaliseerd om de vele terabytes aan data (inclusief mailboxen en im’s, instant messages) te beveiligen. Al deze gegevens moeten over het toch al drukbezette netwerk lopen. Automatisch en betrouwbaar herstel van een verloren systeem na een calamiteit is bijna onmogelijk. Hetzelfde geldt voor het opslaan van grotere hoeveelheden data voor een langere periode.

Data-eilanden

We nemen aan dat de opslagindustrie zich zal ontwikkelen op dezelfde manier als de netwerkindustrie (zie tabel). Opslag staat nu nog in de kinderschoenen. De meeste opslag staat nog in direct contact met de server. In een gemiddelde onderneming is informatie over verschillende locaties en op ‘data-eilanden’ verspreid. Data-eilanden kunnen verschillende vormen hebben: bestandsserver, harde schijven in pc’s en notebooks, nas (network attached storage) enzovoort. Elk eiland heeft een beperkte capaciteit.
Data-eilanden zijn verspreid over het hele bedrijfsnetwerk. Kopieën van bestanden bestaan op vele plaatsen: een bestand staat opgeslagen op iemands laptop en op de afdelingserver, is als attachment via mail verstuurd en ontvangen, en is door de ontvanger opgeslagen in een map. Dit alledaagse voorbeeld geeft al vijf gevallen voor één bestand, terwijl een persoon het slechts naar één andere persoon stuurde. Veel van deze data-eilanden zijn ook niet ontworpen om cruciale informatie op te slaan, terwijl dat wel gebeurt (denk aan laptopgebruikers die vergeten een back-up te maken van hun waardevolle documenten). Vanwege de natuurlijke eigenschap van data zichzelf te vermenigvuldigen, is de informatie moeilijk terug te vinden. Daarbij is de toegang tot gegevens nog steeds traag (100 Mbit/s netwerkconnecties) en is het bijna niet mogelijk om ze efficiënt te ordenen.

NETWERKEN	OPSLAG
losstaande pc	das (direct attached storage)
terminals en mainframe	san (eerste leverancierspecifieke opslagnetwerken) servers leveren opslagdiensten
eerste netwerken uitgeprobeerd	netwerken uitgeprobeerd (Infiniband, san, iscsi) opslag ‘appliances’ (software en opslag)
ethernet als standaard	ethernet en tcp-ip als standaard
tcp-ip als standaard	content gescheiden van representatie
servers en netwerkdiensten netwerk ‘appliances’	iscsi als standaard?
netwerkdiensten in het net	opslagbeheer in het netwerk?
virtualisatie

De evolutie van de opslagindustrie verloopt analoog
aan die van de netwerkindustrie.

De data-eilanden zijn meestal verbonden via 100 Mbit/s ethernet-links. Deze links zijn voldoende voor normale datatoegang, maar schieten tekort voor regelmatige backup (100 gigabyte over een 100 Mbit/s link vraagt uren). Dit leidt tot backup-tijden van enkele dagen voor een compleet netwerk.

Onbeveiligd

De backup-procedure die meeste bedrijven hanteren, is zelden grondig getest. Analisten menen dat meer dan 70 procent van de informatie onbeveiligd is. De meeste herstelwerkzaamheden mislukken door diverse oorzaken: onbetrouwbare tape-opslagsystemen, administratieve fouten, tapehaperingen en incomplete backups.
Traditionele backup-bedrijven als Legato en Veritas proberen het backup-proces te optimaliseren met incrementele en differentiële algoritmes. Hoewel deze het backup-proces enigszins versnellen, bemoeilijken ze het herstelproces. Om de snelheid te verhogen, wordt data op tijd gedistribueerd over verschillende tapes. Bij herstel kost het dan veel meer tijd om de puzzel weer compleet te maken; een dag is eerder regel dan uitzondering. Erger nog is dat deze systemen vaak falen in het automatisch, snel en betrouwbaar herstellen van door een calamiteit (schijfcrash, beschadigde systeembestanden, brand en dergelijke) verloren gegevens.
Bedrijven die hun data op een andere plaats willen bewaren, transporteren fysiek hun tapes naar een andere veilige locatie. Dat vereist veel middelen en is foutgevoelig. De meeste organisaties realiseren zich ook niet dat een tape niet het veiligste medium is om data op te slaan. Bovendien worden veel dezelfde gegevens keer op keer opgeslagen als een bedrijf een volledige backup van het netwerk maakt. Dit leidt tot grote opslag- en netwerkvereisten.
Door dit alles hebben de bedrijven de neiging alleen een backup te maken van die informatie die zij als ‘belangrijk’ zien. Administrators gaan fouten maken en eindgebruikers plaatsen data op onvoorziene locaties. Het gevolg is dat waardevol bedrijfskapitaal onbeveiligd blijft. De oorzaak van de meeste van deze kwesties ligt in het niet gescheiden zijn van data en representatie, iets wat wel gebeurt in andere it-gebieden. Hierin moet verandering komen.

Revolutie

Metadata omvat de representatie van data. Metagegevens bestaan uit de bestandsnaam, de directory van het bestand, en beveiligings- en bestandsattributen. De data zelf is niet meer dan een collectie van bits en bytes. Wanneer een technologie ontwikkeld zou worden die het gebruikers mogelijk maakt gemakkelijk te werken met gegevens zonder dat zij daarvoor een fysieke kopie moeten maken en data moeten doorsturen of opslaan, is 90 procent van de problemen opgelost. In dat geval zou je werkelijk kunnen spreken van op beleid gebaseerde opslag.
Dit is te zien als de nieuwe revolutie in opslag. In de toekomst zal data niet zozeer geadresseerd zijn met behulp van een bestandsnaam en toegangspad, maar op basis van de inhoud zelf (cas, content adressed storage). Het eerste opslagbedrijf dat deze trend vorm gaf was EMC. Het heeft een toepassing ontwikkeld die gebruikers gemakkelijke toegang biedt tot een ongelimiteerde hoeveelheid data. Het heeft een technologie ontwikkeld om data te distribueren over goedkope opslagknoooppunten die betrouwbare opslag en snelle toegang garanderen.
Implementatie van deze technologie is echter niet eenvoudig. Bij cas onderscheiden we vijf processen: gegevens verzamelen, gegevens afleveren, indexeren, toegang verkrijgen en onderhoud (data capture, data delivery, indexing, accessing, maintenance). Elk proces kent zijn eigen problemen. In een content-geadresseerd opslagsysteem hoeven alleen de unieke bestanden opgeslagen te worden als apart bestand. Bij een grotere onderneming betreft dit nog steeds miljoenen bestanden. De enige aanpak is implementatie van een werkelijk gedistribueerde opslagoplossing.

Compatibel

Elk bestand op een beveiligd systeem moet een unieke vingerafdruk krijgen. Deze moet vergeleken worden met alle andere afdrukken in de database om te controleren of hij uniek is. Er bestaat nog geen database die zo snel en groot is dat hij al deze vingerafdrukken en de link naar hun bestand kan opslaan en beheren. Dit kan namelijk gemakkelijk over meer dan een miljard ingevoerde data gaan. Iedere beveiligde computer krijgt verder een eigen backup-agent die verantwoordelijk is voor het complexe proces van vingerafdrukken aanmaken, coderen en betrouwbare levering aan het backup-systeem. Naarmate de technologie verder ontwikkeld wordt, kan dit steeds sneller gebeuren.
Je kunt niet vertrouwen op commerciële backup-agents omdat het hier om een nieuwe aanpak gaat. Een agent moet alle besturingssystemen (Windows, Unix, Linux) en diverse applicaties (MS Exchange, SQL enzovoort) ondersteunen. Het is moeilijk om een lichtgewicht agent te ontwikkelen die toch compatibel is met al deze systemen en die het complexe proces aankan.
Verder zou herstel van data na een calamiteit mogelijk moeten zijn zonder de pc of server opnieuw te installeren, een proces genaamd ‘bare-metal disaster recovery’. Het ontwikkelen van software hiervoor en voor al die combinaties van hardware, componenten, drivers en softwareconfiguraties is een enorme uitdaging.
Nu deze technische problemen overwonnen zijn, neemt de acceptatie van cas snel toe, vooral omdat er naast de explosieve groei van data er nog drie andere factoren zijn die op schijven gebaseerde oplossingen in de kaart spelen. De prijs van schijfcapaciteit daalt snel, vooral wanneer ook naar de algemene beheerskosten van tape wordt gekeken. Daarnaast komt er steeds meer regelgeving met betrekking tot het opslaan, bewaren en terugvinden van data. Ten slotte groeit het inzicht dat het mogelijk is om data ‘gelaagd’ (tiered) op te slaan; voor elke soort gegevens het eigen opslagmedium. Cas lijkt de enige manier om grote hoeveelheden verspreid aanwezige data snel en efficiënt op te slaan zonder dat de capaciteit van het netwerk en de systemen onder druk komt te staan.< BR>

Tom Leyden, Datacenter Technologies