De Koninklijke Bibliotheek archiveert ieder in Nederland verschenen boek in zijn e-Depot. Het lijkt vanzelfsprekend dat het daarvoor optische schijven gebruikt. De vraag is echter wel welk type schijf het meest geschikt is en hoe de toegangstijden acceptabel kunnen blijven.
Het e-Depot is een ambitieus project waar de Koninklijke Bibliotheek al een aantal jaren aan werkt. Het legt daarmee een digitaal archief aan van ieder boek en iedere elektronische publicatie die in Nederland wordt uitgegeven. Het project ging in het jaar 2000 van start, vertelt Henk Heuvink, it-specialist van de Koninklijke Bibliotheek in Den Haag. "Inmiddels omvat het archief zo’n zeshonderdduizend publicaties. Het groeit jaarlijks met enkele honderdduizenden titels. Wat opslagcapaciteit betreft zitten we daardoor inmiddels op circa 10 terabyte en dat neemt snel toe."
De bibliotheek ging zeven jaar geleden in zee met IBM, dat voorstelde om optische opslagsystemen te gebruiken. "Een jaar of twee geleden zijn we begonnen met het vervangen van die eerste generatie opslagapparatuur. IBM had op dat moment geen optische opslagsystemen meer in het leveringsprogramma, dus moesten we uitkijken naar een andere leverancier."
Om die keuze goed te onderbouwen, deed de Koninklijke Bibliotheek een beroep op Inter Access. Dit bedrijf heeft de nodige ervaring opgedaan met optisch archiveren bij gemeenten. "Bij eerdere projecten hebben we heel goed kunnen vaststellen dat het kiezen van het juiste mediumtype van groot belang is", vertelt Simon Bes van Inter Access. "Zo is cd niet geschikt voor dit soort projecten. Bij het e-Depot gaat het om archivering voor een onbeperkte tijd. Pilot-projecten die we hebben uitgevoerd, lieten zien dat data die weggeschreven wordt op cd’s al na korte tijd niet goed meer leesbaar is. Bij een test met negenhonderdduizend bestanden bleek na een jaar zelfs veertig procent al niet meer te reproduceren."
Keuzefactoren
Er speelt bij dit soort grote archiveringsprojecten een aantal factoren die de technische oplossing grotendeels bepalen. Bes: "Dat is allereerst de periode waarin de gearchiveerde informatie nog steeds gereproduceerd moet kunnen worden. De opdracht van de KB is om dit – in principe – tot in eeuwigheid te doen. Disk en tape vallen dan eigenlijk al direct af, omdat beide met enige regelmaat vervangen moet worden. Als we dan bedenken dat het KB straks enkele honderden terabytes aan info in het e-Depot heeft zitten, dan zijn dat soort migratie- en conversieslagen te groot en te duur."
Binnen optische media bestaan maar een paar alternatieven. "Cd valt dus af, net als dvd. Die laatste is toch vooral een huis-tuin-en-keuken oplossing en niet geschikt voor langjarige opslag. Dan blijft in onze optiek eigenlijk alleen UDO over", vertelt Bes. "Plasmon is daar een belangrijke aanbieder van, die bovendien vijftig jaar garantie geeft voor de reproduceerbaarheid van informatie die op dit type schijf is opgeslagen. Bij Plasmon hoor ik zelfs wel geluiden over een periode van honderdzestig jaar, maar daar heb ik geen goed zicht op en dat is in ieder geval ook niet hun officiële standpunt. Van UDO is duidelijk dat zolang de hiervoor gebruikte lasers beschikbaar zijn, Plasmon stelt dat de data gelezen kan worden."
Energieverbruik
Een tweede factor is energieverbruik. "Daar moeten we bij ieder it-project tegenwoordig goed op letten. Disk valt dan af, aangezien alleen bij tape en optische media de data kan worden vastgelegd op een opslagmedium dat geen energie verbruikt als het niet wordt gebruikt."
"Eigenlijk is er bij dit soort projecten maar één punt dat in het voordeel van disk spreekt: snelheid. Tegelijkertijd is honderden TB’s op disk opslaan natuurlijk uiterst kostbaar. Tape is goedkoop, maar kent een slechte toegangstijd. Een relatief goede toegangstijd was echter wel onze derde eis. Bij de Koninklijke Bibliotheek is het gemiddelde bestand kleiner dan een halve MB. Het duurt tien tot vijftien seconden voordat de robot de juiste cartridge heeft geladen, waarna het nog eens drie tot vier minuten kost voordat daadwerkelijk naar de juiste locatie op tape kan worden gespoeld. Kijk ik dan naar de optische systemen van Plasmon, dan duurt het laden en mounten van een schijf gemiddeld vier seconden, terwijl in milliseconden toegang tot de data zelf is verkregen."
"Natuurlijk hebben we het over archivering en mogen we er dus vanuit gaan dat iedere gebruiker snapt dat het ophalen van informatie even tijd kost. Maar we zijn allemaal ongeduldig, dus hoe korter de toegangstijden zijn hoe beter."
Backups
De pilot met opslag op cd’s gaf ook goed de noodzaak aan voor het maken van backups van het archief. Leveranciers van archiveringssystemen constateren nog wel eens dat archieven, uitwijk en backup met elkaar verward worden. Een archief is uitsluitend bedoeld voor het voor langere tijd vastleggen van informatie, waar uitwijk vooral is gericht op het garanderen van de beschikbaarheid van productiedata.
"Bij beide omgevingen is echter een aparte backup noodzakelijk. Dus ook bij een archief", licht Bes toe. In dit geval is gekozen voor het gebruik van LTO-tape. "We hadden ook voor enterprise-tape kunnen gaan, maar dat zou de kosten flink hebben opgedreven. Bovendien kennen we bij dit project eigenlijk alleen maar restores waarbij grote stukken van het archief worden teruggeplaatst. Het is dus niet zo dat individuele bestanden teruggehaald moeten kunnen worden. LTO is dan een prima alternatief dat bovendien goed betaalbaar is."