De meest recente ontwikkeling op het gebied van dataopslag is het Storage Area Network (SAN), een zeer snel specifiek voor opslag bedoeld glasvezelnetwerk. Maar ook de meer traditionele benadering, de Network Attached Storage (NAS), is volop in ontwikkeling. Hoewel deze materie al vaker aan de orde is geweest in Computable, schetst Wouter Kolff nogmaals de verschillen tussen SAN en NAS, en hoe – en in welke gevallen – deze technologieën het beste kunnen worden ingezet. Is het overigens wel terecht dat SAN en NAS als concurrenten worden gepositioneerd?
De mensheid zal de komende drie jaar meer oorspronkelijke informatie genereren dan in de voorgaande 300.000 jaren, zo blijkt uit een recent onderzoek van de School of Information Management and Systems (SIMS) van de Universiteit van Californië in Berkeley. In 1999 creëerde de wereld ongeveer 1,5 exabyte aan unieke informatie, dit is 1,5 miljard gigabyte ofwel het equivalent van 250 megabyte voor elke man, vrouw en kind ter wereld. Volgens het onderzoek verdubbelt de komende tijd deze hoeveelheid jaarlijks, zelfs zonder de kopieën mee te rekenen die van de meeste informatie worden gemaakt. De meeste nieuwe informatie die bedrijven en personen op dit moment genereren is digitaal. En het merendeel van deze informatie wordt opgeslagen op harde schijf, vanwege de eenvoudige toegang en de voortdurend dalende kosten, signaleert het onderzoek.
Nu vele huishoudens moeten omgaan met terabytes aan informatie – van medische gegevens van de gezinsleden tot allerlei financiële documenten, foto’s en videofragmenten – zal de groei in de toekomst alleen nog maar toenemen. Gecombineerd met een reeds snelle groei van zakelijke en organisatorische informatie, onderstreept deze gepersonaliseerde informatie-explosie het belang van betrouwbare informatie-beheertechnologie en van de informatiediensten. De gegevensexplosie zal ertoe leiden dat zogeheten ‘storage providers’ opslag naar behoefte zullen gaan leveren, op dezelfde wijze als een nutsbedrijf dat doet. Inmiddels zijn er op Internet een aantal van deze leveranciers actief. Met het toenemen van de bandbreedte zal dit concept ongetwijfeld meer ingang vinden.
Maar net als voor de andere ICT-aspecten geldt voor dataopslag, dat de bedrijfsvoering uiteindelijk de specificaties moet bepalen. De mate van beschikbaarheid en de prestaties hebben een belangrijke invloed op de werking van de applicaties, terwijl de complexiteit van het beheer een negatief effect heeft op de kosten. Deze eisen hebben ertoe geleid dat de ’traditionele’ opslagmethode – Server Attached Storage (SAS), of in IBM-jargon Direct Access Storage Device (DASD) – niet meer volstaat. Bij SAS is de disk direct via de controller aan de systeembus gekoppeld. Hierdoor moet de toegang tot de gegevens op de schijf steeds via het besturingssysteem lopen. Het datapad is weliswaar snel, maar de gegevenstoegang gaat ten koste van de andere taken die de server moet vervullen, en omgekeerd. Als het aantal gebruikers of de belasting door applicaties toeneemt, gaan de responstijden onherroepelijk achteruit.
Problemen
De gegevensexplosie die zich inmiddels heeft voorgedaan brengt vanzelfsprekend aanzienlijke beheerproblemen met zich mee. Naar verwachting zullen organisaties jaarlijks hun behoefte aan opslagcapaciteit zien verdubbelen. Per dag wordt via een gemiddeld bedrijfsnetwerk tussen 10 en 100 terabyte aan ‘messaging’-informatie verplaatst. Dit verplaatsen kost tot dertig procent van de CPU-capaciteit van de netwerkservers. Bovendien moeten er back-ups worden gemaakt en moeten er gegevenspakhuizen gevuld worden, moeten applicatie-ontwikkelaars toegang hebben tot de gegevens – en zonder dat dit alles de normale datastroom onderbreekt of vertraagt. Immers, ontwikkelingen als elektronisch zakendoen vereisen een real-time beschikbaarheid van gegevens. Deze eisen hebben geleid tot een sterke behoefte aan een centrale dataopslag die toegankelijk is voor de aanwezige IT-systemen, ongeacht het besturingssysteem waar deze onder draaien. Voor deze zogeheten consolidatie zijn inmiddels verschillende oplossingen beschikbaar, elk met de eigen karakteristieken en toepassingsgebieden. Die verschillende oplossingen zijn ook nodig omdat verschillende soorten applicaties ook het beste functioneren als zij van een specifieke opslagmethode gebruik kunnen maken.
SAN en NAS
Een voor de hand liggende oplossing is het onderlinge verbinden van de diverse opslagsystemen tot één geheel via een speciaal daarvoor ontworpen netwerk, het Storage Area Network (SAN). De belofte van een SAN is het verbinden van geïsoleerde ‘opslageilanden’ waardoor een heterogene opslaginfrastructuur ontstaat. Hierdoor wordt het beheer veel eenvoudiger en krijgen applicaties via dit speciale netwerk snelle toegang tot de bedrijfsgegevens, ongeacht op welk voormalig opslageiland deze zich bevinden. Verder is het mogelijk om opslag dynamisch toe te wijzen, al naar gelang de behoefte en zijn veel dataverplaatsingen tussen de opslagsystemen niet meer nodig. Het zal duidelijk zijn dat het reguliere netwerk veel minder wordt belast.
SAN werkt met glasvezelkabel waardoor grote afstanden te overbruggen zijn (momenteel 100 kilometer). Hierdoor kunnen zelfs opslagsystemen bij verschillende vestigingen toch geconsolideerd worden, zonder dat dit ten koste gaat van de prestaties. De capaciteit van een SAN-glasvezelverbinding – Fibre Channel – is 100 megabyte per seconde.
Een andere oplossing is het inrichten van een speciale server voor opslag, die vanuit het gehele netwerk toegankelijk is. Deze servers worden rechtstreeks op het reguliere bedrijfsnetwerk aangesloten, vandaar de naam: Network Attached Storage (NAS). Net als bij een SAN-oplossing is gesprake van gecentraliseerde gegevensopslag, die toegankelijk is vanuit verschillende systemen onder bijvoorbeeld Unix of Windows 2000. Een NAS-server is in feite een gespecialiseerde file server, waaraan eenvoudig extra opslagcapaciteit is toe te voegen, zonder dat de server gestopt hoeft te worden. Net als SAN biedt ook NAS de voordelen van gecentraliseerd opslagbeheer. De keerzijde is dat alle gegevenstransport nog steeds over het reguliere netwerk plaatsvindt.
Applicatieafhankelijk
Een Storage Area Network is bij uitstek geschikt voor applicaties als databases en transactieverwerkende systemen die met een zeer hoog datavolume werken. Dit soort applicaties verzorgen ook het beheer van hun ‘eigen’ gegevens. Waar het om draait is een zo snel mogelijke toegang tot een specifiek record. Daar komt bij dat de gegevens waar dit soort applicaties mee werken niet toegankelijk hoeven zijn voor andere applicaties of systemen. Verder wordt er meestal gewerkt met enorme hoeveelheden gegevens, in de orde van terabytes, wat bijzondere eisen stelt aan de prestaties van de opslagsystemen en de onderlinge verbindingen, alsook aan de back-upvoorzieningen en de betrouwbaarheid. Behalve voor databases zelf, is SAN ook een goede oplossing voor applicaties die nauw met databases zijn verweven, zoals software voor ‘enterprise resource planning’ (erp) en ‘customer relationship management’ (crm).
Een belangrijk punt verder is de wijze waarop in een TCP/IP-netwerk – het protocol waaronder veel grote bedrijfsnetwerken draaien – de aflevering van datapakketten is geregeld. Eerst moet gewacht worden tot alle pakketten binnen zijn gekomen en vervolgens moeten de pakketten in de juiste volgorde worden gezet, dan pas kan de server gegevens naar de schijf sturen, bijvoorbeeld via SCSI (small computer system interface). En omgekeerd moeten de opgevraagde gegevens eerst langs de TCP/IP-stack die voor de omzetting naar IP-pakketjes zorgt. Dit proces levert flinke vertragingen op en kost bovendien processorvermogen. Voor dit soort toepassingen is het duidelijk waarom Network Attached Storage niet de beste oplossing is en dus beter een SAN kan worden gebruikt.
Maar aan een SAN kleven ook nadelen. Hoewel er door leveranciers hard aan wordt gewerkt, hebben SAN’s nog server-specifieke eigenschappen. De onderlinge samenwerking tussen verschillende serverplatforms en besturingssystemen is daardoor beperkt en in heterogene omgevingen levert een SAN dan nog niet de geclaimde voordelen op. In dat geval kan een SAN zelfs contraproductief zijn, omdat het beheer juist complexer wordt in plaats van eenvoudiger. Verder zijn er ondanks standaardisatie toch nog problemen met het gebruik van SAN-componenten van verschillende leveranciers. De vereiste compatibiliteit is – nog – niet voldoende gerealiseerd.
Network Attached Storage
Naast database-applicaties bestaan er natuurlijk veel andere die geen – of veel minder – gebruik maken van databases. Een belangrijke categorie bestaat uit de Internet-applicaties die met steeds dezelfde webpagina’s werken. Hier is in feite sprake van het delen van informatie zonder dat deze, zoals bij databases, voortdurend verandert. Andere toepassingen zijn bijvoorbeeld ‘streaming’ van audio en video, waar ook steeds dezelfde fragmenten worden opgevraagd. Die verzoeken kunnen afkomstig zijn van verschillende servers en de informatie zal via het reguliere (TCP/IP) netwerk moeten lopen. Daarom is voor dit soort toepassingen Network Attached Storage een betere oplossing dan een SAN.
Een NAS-apparaat is in de kern een geoptimaliseerde fileserver, die weliswaar rechtstreeks via het netwerk toegankelijk is, maar toch nog – in tegenstelling tot SAN – een vertaalslag moet uitvoeren van TCP/IP-pakketten naar een formaat op de schijf. De disks zijn dus niet rechtstreeks op het netwerk aangesloten, er zit altijd een vorm van een server tussen. Deze kan onder een ‘general purpose’ besturingssysteem werken (Linux, Windows 2000) draaien, maar de beste prestaties worden bereikt als er met een speciaal voor dit doel geoptimaliseerd besturingssysteem wordt gewerkt.
Bij NAS leggen gegevens de volgende weg af: van disk naar server, van server naar netwerk en van netwerk naar de uiteindelijke gebruik. Deze weg biedt ook plaats voor de noodzakelijke ‘locking’, zodat dezelfde data niet door twee of meer applicaties tegelijk kan worden aangepast. Bij SAN ligt rechtstreeks tussen de disks van de verschillende opslagsystemen een snelle verbinding en vindt er geen ‘locking’ plaats.
Het SAN-concept is een datacentrisch concept, dat ervan uitgaat dat de essentiële informatie zich op de disk bevindt. De informatie wordt door het SAN ter beschikking gesteld aan applicaties op de verschillende servers en werkstations van de gebruikers.
De opslag staat centraal en de computers zijn de randapparatuur. Het opslagsysteem voert binnen dit concept de essentiële taken uit, zoals gegevensdistributie, beveiliging en back-up. Deze centralisatie vormt echter zowel bij SAN als bij NAS het uitgangspunt. Maar het kan heel goed zijn dat een bedrijf beide nodig heeft om een optimale opslagoplossing te realiseren. Toch blijft de kern overeind: een centraal te beheren en voor alle systemen toegankelijke opslaginfrastructuur.
Gezien de verschillende toepassingsgebieden van SAN en NAS zijn de meeste leveranciers van opslagsystemen de mening toegaan dat beide elkaar aanvullen. Nu betreft dat vooral leveranciers die beide systemen kunnen leveren, want er zijn ‘NAS-only’ leveranciers die NAS – wat niemand zal verbazen – in alle gevallen als de beste oplossing presenteren.
Markt en ontwikkeling
De ontwikkelingen op opslaggebied zijn ook de marktonderzoekers niet ontgaan en er zijn inmiddels diverse marktonderzoeken gepubliceerd over dit onderwerp. Hoewel de cijfers verschillen is de trend overduidelijk: de markt voor zowel SAN als NAS zal zeer sterk groeien. IDC meldt bijvoorbeeld dat alleen al de NAS-markt in 2003 een omvang zal hebben van ruim 5 miljard dollar, vergeleken met ruim een half miljard in 1998, wat neerkomt op een vertienvoudiging in vijf jaar. De verwachtingen van Dataquest liggen zelfs nog hoger en gaan uit van een NAS-markt die in 2003 een omvang heeft van meer dan 10 miljard dollar. Voor SAN worden vergelijkbare groeipercentages verwacht.
Een van de ontwikkelingen op het gebied van opslag is het splitsen van protocol (dat onder meer voor de ‘locking’ zorgdraagt) en transport. Dit bestaat bijvoorbeeld al voor back-ups. De splitsing betekent dat bijvoorbeeld Unix- en Windows 2000-servers rechtstreeks via het SAN gegevens van een mainframe kunnen lezen, terwijl het schrijven via het reguliere netwerk plaatsvindt.
Maar ook het reguliere netwerk krijgt steeds meer capaciteit. Met de komst van gigabit Ethernet en het vooruitzicht van 10-gigabit Ethernet zijn de verschillen in doorvoersnelheid met SAN verdwenen. SAN blijft natuurlijk niet achter. Met behulp van SAN-specifieke hubs en switches zullen de flexibiliteit en de prestaties van SAN verder worden verbeterd.
Het ‘enterprise storage network’
De algemene verwachting is toch dat SAN en NAS op zullen gaan in, of zelfs zullen convergeren, tot een enkele opslaginfrastructuur: een ‘Enterprise Storage Network’, of een ESN. Zo’n netwerk gaat uit van de organisatiestructuur van het bedrijf, in tegenstelling tot een SAN dat is ontworpen als een manier om alleen gedistribueerde servers met de daaraan gekoppelde schijven met elkaar te verbinden. Het ‘enterprise storage network’ moet in staat zijn uiteenlopende systemen te verbinden (van mainframes tot Windows-servers) en uiteraard met verschillende opslagtechnologieën uit de voeten kunnen, zodat elke applicatie van de meest effectieve opslag gebruik kan maken. Bovendien wordt ook hier aan de belangrijkste eis voldaan: een centraal te beheren en voor alle systemen toegankelijke opslag.
De voordelen van een ‘enterprise storage network’ zijn duidelijk: er is één enkele opslaginfrastrcutuur waarin heterogene servers kunnen worden opgenomen. Het beheer kan centraal plaatsvinden en het netwerk ondersteunt diverse opslagtechnologieën en verbindingen (IP, Fibre Channel, Escon, SCSI).
Dit zorgt ervoor dat aan de belangrijkste eisen voor dataopslag wordt voldaan: veiligheid, schaalbaarheid en flexibiliteit, alsmede een optimale aanpassing van de opslag aan de applicatie.
Hoewel die indruk nogal eens wordt gewekt kan een compleet ‘enterprise storage network’ niet bestaan uit alleen hardware en software. De complexiteit van een heterogene opslagomgeving is dusdanig toegenomen dat het voor steeds meer organisaties een probleem wordt om op eigen kracht te beheren. Dat betekent dat zij moeten kunnen terugvallen op aanbieders van professionele services op dit gebied. Inmiddels worden deze diensten ook aangeboden, van planning en ontwerp tot realisatie en onderhoud van een bedrijfsbrede opslaginfrastructuur. Van groot belang is tevens dat organisaties grondig nagaan of leveranciers hun claims van interoperabiliteit in de praktijk kunnen waarmaken.
Een ‘enterprise storage network’ is waar de meeste IT-managers met hun SAN en NAS-implementaties op uit willen komen. Zo’n netwerk biedt immers wat zowel SAN als NAS beloven. Veel beter dan het implementeren van ‘eilanden’ van leverancierseigen SAN- of NAS-producten in de vorm van een interim-oplossing – en die vervolgens langzaam laten evolueren naar een toekomstig ‘enterprise storage network’ – kunnen zij nu direct beginnen met het realiseren daarvan. Met als resultaat één enkele bedrijfsbrede standaard opslaginfrastructuur.
Wouter Kolff Business Consultant, Emc Computer Systems (benelux)