Bij informaticaonderzoek denkt men al snel aan bètawetenschappen, waar onderzoekers enorme rekenmonsters nodig hebben om meetresultaten te verwerken of simulaties te draaien. Ook alfa’s en gamma’s zijn echter steeds afhankelijker van computers. Om hun noden te dienen is DANS opgericht, Data Archiving and Networked Services.
DANS is in juli 2005 ontstaan als initiatief van onderzoeksorganisatie NWO en de Koninklijke Nederlandse Academie van Wetenschappen”, zegt dr. René van Horik, die als themamanager bij DANS werkzaam is. “De besturen van beide organisaties vonden dat de data-infrastructuur van alfa- en gammawetenschappen verbeterd moest worden. Daarbij gaat het om langetermijnbewaring, authenticiteit en duurzaamheid van gegevens, en om de toepassing van informatietechnologie in het wetenschapsbedrijf.”
Niet dat er tot nu toe in alfa- en gammawetenschappen totaal niet nagedacht werd over de gevolgen van digitalisering voor de vakgebieden. Alleen gebeurde dat nogal versnipperd. Iedere archeoloog bedacht bij wijze van spreken bij elke nieuwe opgraving een andere methode om de verzamelde gegevens vast te leggen. Na de publicatie van de onderzoeksresultaten verdwenen de diskettes met originele gegevens in een la, onbereikbaar voor collega’s. Een nationale aanpak kan dan een grote aanwinst voor het vakgebied zijn.
DANS legt nieuwe archieven aan. Een aantal bestaande digitale archieven, zoals het Steinmetzarchief dat veel maatschappijwetenschappelijke onderzoeksgegevens bevat, zijn hier al in opgegaan. Ook vervult DANS een rol als scharnier tussen wetenschappers en instituten als het Centraal Bureau voor de Statistiek, het SCP en de Topografische Dienst/Kadaster, voor de aanlevering van grote databestanden.
Opslag
“Een van de specifieke uitdagingen is ervoor te zorgen dat wetenschappelijke data voor de lange termijn bewaard blijven en verrijkt worden, om zo hergebruik mogelijk te maken”, zegt drs. Laurens Sesink, die zich bij DANS bezighoudt met de technische aspecten van het archiveren van wetenschappelijke data. “Ook over twintig tot dertig jaar moeten de gegevens nog toegankelijk zijn.”
De hergebruikfunctie is een aspect waarop alfa- en gamma-wetenschappen intrinsiek verschillen van bètawetenschappen. Bij laatstgenoemde werkt men meestal met speciaal voor het onderzoek gegenereerde datasets, die hoogstens bewaard worden om later nog eens te verifiëren. Meetgegevens van twintig jaar geleden zijn voor de bètawetenschappelijke praktijk zelden nog interessant. Alfa’s en gamma’s brengen veel vaker historische bronnen bij elkaar om daaruit nieuwe datasets te vormen. Een econoom die bijvoorbeeld een nieuwe inflatietheorie heeft opgesteld, wil consumentenprijzen uit de jaren zeventig snel kunnen opvragen om zijn theorie te toetsen. Dat vraagt om een directere toegang tot oude datasets. Een ander duidelijk voorbeeld zijn gegevens van opgravingen uit de 19e eeuw, waar nieuwe meettechnieken op moeten worden losgelaten, om de archeologie weer te noemen.
Hiertoe heeft DANS inmiddels een tweetrapsmethode voor dataopslag ontwikkeld. De ‘Easy Store’ is een laagdrempelige opslagmethode, waarbij een onderzoeker maar beperkt metadata hoeft aan te leveren. De datasets zijn dan niet optimaal toegankelijk, maar gaan in elk geval niet verloren. DANS gebruikt een grootschalig, gedistribueerd opslagsysteem volgens het aan Stanford ontwikkelde Lockss-principe (Lots of copies keeps stuff safe). Nu is er nog sprake van centrale servers die zich op voldoende afstand van elkaar bevinden, zodat er in geval van bijvoorbeeld brand niks verloren gaat. Op een gegeven moment wil DANS echter overschakelen naar een grid-omgeving, waarin de informatie helemaal decentraal is opgeslagen.
De ‘Deep Store’ bevat datasets die regelmatig gebruikt zullen worden, vaak in combinatie met andere datasets. Dat stelt eisen aan de metadata. Een arbeidsintensieve extra bewerkingsslag is dan ook nodig. “De datasets slaan we in het originele formaat op, de metadata in xml”, vertelt Sesinks collega ir. Rutger Kramer. “Daarvoor gebruiken we geen bestaand standaard dms (document management systeem). Dat doen we in de eerste plaats omdat zo’n dms onnodige afhankelijkheid van een leverancier met zich meebrengt, zelfs als het open source is, zoals het Fedora digital respository system. In de tweede plaats ondersteunen dit soort pakketten vaak niet de principes volgens welke wij willen werken. Zelfs als we Fedora zouden gebruiken, zouden we nog zestig tot tachtig procent van de code zelf moeten schrijven – en herschrijven bij iedere nieuwe versie van Fedora. Daarom hebben we ervoor gekozen het helemaal in eigen hand te houden.”
Het door DANS ontwikkelde dms, op dit moment nog een prototype, is een index op een kaal bestandssysteem. Iedere bewerkingsstap op de data brengt immers risico’s met zich mee. In geval van een crash van het dms, dan gaat geen data verloren, alleen de index zelf. Kramer: “En die kunnen we dan vanuit de bestanden weer eenvoudig opbouwen.”
Hoewel een veilige opslagtechniek de basis vormt om datatoegang te kunnen garanderen, hangt de daadwerkelijke toegankelijkheid af van de kwaliteit van de metadata. Zeker als die data geen doorzoekbare tekst betreffen, maar bestaan uit beeldmateriaal, video of audio. Als wetenschappers elkaars gegevens goed willen kunnen vinden en kunnen gebruiken, dan moeten de metadata tot op zekere hoogte gestandaardiseerd zijn. DANS sluit zich daarom aan bij bestaande gestandaardiseerde dataformats voor de verschillende vakgebieden die ze onder haar hoede heeft.
“We stellen nu nog nauwelijks eisen aan de gedeponeerde data”, zegt Sesink. “Maar DANS is bezig met de ontwikkeling van een keurmerk voor de kwaliteit van data, datagebruik en digitale bewaarplaatsen, zogeheten trusted digital repositories.”
“Voor de criteria die bij zo’n keurmerk horen, gaan we uiteraard te rade bij de wetenschappers zelf”, vult themamanager Van Horik aan. “Bovendien hebben die waarschijnlijk nog kasten vol floppy’s en tapes die we ook nog graag willen archiveren.”
Internationaal
Bij de ontwikkeling van formats voor metadata staat DANS overigens niet alleen. Nederland is niet het enige land waar digitale duurzaamheid van wetenschappelijke data hoog op de agenda staat. Bovendien internationaliseren ook de alfa- en gammawetenschappen steeds sneller, wat toegang tot informatie over de grenzen wenselijker maakt. Een groot aantal instituten wereldwijd heeft dan ook zijn handtekening gezet onder de ‘Verklaring van Berlijn’, waarin onderzoekers wordt opgeroepen om hun data vrijelijk beschikbaar te stellen aan collega’s.
Onder andere (en vooral) de sociale wetenschappers vormen al een internationaal netwerk, waarin ook standaarden ontwikkeld worden. Van Horik: “Voor geschiedenis geldt dat bijvoorbeeld veel minder. Daar worden formats meer bepaald door individuele onderzoekers – wat niet wegneemt dat we zullen proberen overlap te vinden, om iets van standaardisatie tot stand te brengen.”
Tiff duurzamer dan jpg
Twintig jaar geleden was WordStar het populairste tekstverwerkingsprogramma van Nederland. Zo populair zelfs dat het vergat te innoveren en weggevaagd werd door WordPerfect, dat op zijn beurt door Word uit de markt werd gedrukt. Word kan wel oude WordPerfect-bestanden inlezen, maar wie nog teksten in WordStar heeft staan, zal zelf een conversieprogramma moeten schrijven. Gelukkig hanteert WordStar een bestandsformaat dat dichtbij Ascii ligt, zodat het redelijk toegankelijk blijft. Oude WordPerfect-bestanden zijn vanwege allerlei ingebouwde codes veel minder toegankelijk als je de oorspronkelijke software niet hebt.
Dit soort problemen waren uiteraard bekend toen digitale archivering tien jaar geleden op grote schaal opkwam. Er waren indertijd ook allerlei ideeën over de beste aanpak. Globaal zijn er twee uitersten, migratie en emulatie. De eerste is een arbeidsintensieve aanpak waarbij alle data consequent omgezet wordt naar de nieuwste formats of apparatuur. De tweede betekent werkelijk alles bewaren om het op de originele apparatuur met de originele software in te kunnen zien (met het risico dat die 5,25 inch floppy’s door het vocht in de kelder toch onleesbaar zijn geworden).
René van Horik keek voor zijn promotieonderzoek, dat hij onlangs afrondde, wat er terecht is gekomen van de beloften uit die tijd. “Dan blijkt dat de kwaliteit van de documentatie en de metadata erg belangrijk is”, stelt hij. “Je kunt wel een heleboel waardevolle foto’s scannen, maar als je niet aangeeft wat er te zien is, is het nut daarvan beperkt. Als je de volledige werken van Shakespeare in hun oorspronkelijke versie opslaat, ga je er vanuit dat mensen in de toekomst zeventiende-eeuws Engels kunnen lezen. Moet je dan misschien ook een woordenboek erbij opslaan?”
Het is niet altijd even gemakkelijk om te bepalen welke documentatie er bij de data bewaard moet worden.Het duurzaam opslaan van digitale bestanden is bovendien een arbeidsintensieve klus. “Dus worden zelfs de simpelste metadata vaak niet toegepast”, constateerde van Horik.
Van Horik koos er voor om te onderzoeken wat de beste manier is om beeldbestanden op te slaan. Het originele baseline Tiff-formaat kwam daar als beste uit. Al werd die standaard eigenlijk al tien jaar geleden afgeschreven.
“Tiff is een open standaard die nog altijd door veel systemen ondersteund wordt”, legt Van Horik uit. “Maar bovenal is tiff niet gecomprimeerd, zoals jpg. Als in tiff een bit beschadigd raakt, ben je een pixel kwijt. Als in jpg een bit beschadigd raakt, loop je het risico dat het hele beeld onbruikbaar is.”
Informatiedepot archeologen
Op de tijdschaal van de archeologie is een paar decennia natuurlijk helemaal niets. Misschien dat archeologen daarom traditioneel weinig oog hebben voor het bewaren van digitale informatie: hun belangstelling ligt bij informatie die van millennia geleden tot ons spreekt. Het gaat hierbij echter wel om unieke digitale informatie, want een opgraving doe je maar één keer.
“Een opgraving levert veel verschillende data op”, vertelt Laurens Sesink van DANS. “Veel geografische gegevens uiteraard, veel foto’s, tekeningen, teksten en cad-bestanden. Alles is minutieus beschreven en heeft een sterke onderlinge samenhang. Die samenhang moet je digitaal vastleggen.”
Momenteel worden veel archeologische data wel digitaal opgeslagen. Dit gebeurt echter niet op een samenhangende en toegankelijke wijze. Daarom heeft DANS de archeologie als vakgebied uitgekozen om een pilot te starten voor digitale duurzaamheid. Het Verenigd Koninkrijk, waar al enige jaren een Archaeology Data Service (ADS) bestaat, dient hierbij als voorbeeld. ADS is beschikbaar op internet (http://ads.ahds.ac.uk). Iedereen kan daar zoeken naar de miljoen opgravingen die hebben plaatsgevonden in het Verenigd Koninkrijk en, indien beschikbaar, nadere informatie erover opvragen.
Volkstellingen
De eerste volkstelling vond in Nederland plaats in 1795, de laatste in 1971. Daarna was de bevolkingsadministratie zo gedigitaliseerd dat continu allerlei overzichten gemaakt konden worden. In die twee eeuwen waarin papier het dominante medium was, werden zo’n 42.000 bladzijden vol met tabellen met informatie over de bevolking gearchiveerd. Dit is uiteraard een schatkamer voor sociaalwetenschappers en historici.
Het digitaal ontsluiten van tabellen is relatief eenvoudig, omdat deze per definitie gestandaardiseerde informatie bevatten. Een groot deel van de tabellen is inmiddels omgezet naar Excel en beschikbaar gesteld via www.volkstelling.nl. DANS beheert dit project.
De volgende uitdaging is het relateren van deze statistische data over de bevolking aan de levensloop van individuen. Hiervoor is in 2003 het project ‘Life courses in context’ van start gegaan. Uit onder andere bevolkingsregisters worden de levensloop van zo’n 40.000 individuen uit de periode 1863-1922 in kaart gebracht. Die worden vervolgens gerelateerd aan de uitkomst van de volkstellingen. De combinatie van deze gegevens, enkel mogelijk dankzij de computer en gestandaardiseerde dataformats, moet meer inzicht geven in hoe de Nederlandse bevolking zich ontwikkelde in de periode van snelle industrialisering en verstedelijking.