Het begrip metagegevens wordt meestal gedefinieerd als gegevens over gegevens. Soms maken we hierbij een onderscheid tussen technische en niet-technische metagegevens. De formaatbeschrijvingen van variabelen en databasekolommen zijn voorbeelden van technische metagegevens. De kwaliteit van de gegevens en de telefoonnummers van de eigenaars van de gegevens zijn voorbeelden van de tweede groep.
Iedereen realiseert zich het belang van metagegevens. Zeker diegenen die bewust het millenniumprobleem meegemaakt hebben, kennen de praktische voordelen van metagegevens. De bedrijven die toen al hun metagegevens keurig op een rijtje hadden staan, hadden weinig moeite om te achterhalen waar programmacode of databasestructuren aangepast moesten worden. Eén simpele zoekopdracht op het systeem waarin de metagegevens opgeslagen lagen, zou de lijst zo moeten kunnen uitdraaien.
Maar hoeveel bedrijven hadden deze metagegevens correct en compleet tot hun beschikking? Bijna geen enkele. Vele saaie uren (lees maanden) werden besteed aan het regel voor regel doorspitten van code om de te krap gedefinieerde datumvelden te lokaliseren.
Kijken we naar de historie van informatiesystemen waarmee we metagegevens kunnen registreren, dan is dat een zielig en teleurstellend verhaal. Het lijkt wel alsof metagegevens het stiefkind van de it zijn.
De eerste generatie systemen waren de zogenaamde ‘data dictionary/directory systemen’ (dd/ds). Zij waren voornamelijk gericht op het eenmalig en centraal vastleggen van technische gegevensstructuren. Analisten, ontwerpers en programmeurs waren zelf de gebruikers van dd/ds’en. In de jaren zeventig werd hiermee al gewerkt. Dergelijke systemen zijn nooit een groot commercieel succes geworden. Bij een handjevol organisaties draaien deze systemen nog wel, maar de metagegevens zijn dan vaak bij lange na niet meer compleet.
In de jaren tachtig werd de taak van het dd/ds overgenomen door de case-tools (computer aided software engineering) en later de icase-tools. De intrigerende letter i stond voor ‘integrated’. In hun eigen directories konden case-tools metagegevens registreren. Tevens konden ze gebruikt worden bij het maken van diverse analyse- en ontwerpmodellen. Sommige case-tools gingen zelfs zover dat vanuit die metagegevens programmacode gegenereerd kon worden.
De doelgroep van de case-tools was gelijk aan die van de dd/ds’en. Met de komst van client/server- en internettechnologie is de markt van case-tools naar de achtergrond gedrukt en is een voortijdig einde gekomen aan een potentieel succesverhaal.
In het kielzog van de gegevenspakhuis-trend ontstond een nieuwe generatie systemen voor de registratie van metagegevens, de zogenaamde ‘information directories’ (id). Het grote verschil tussen enerzijds de dd/ds’en en de case-tools en anderzijds de id’s was het soort gebruiker. Een ‘information directory’ was niet alleen bedoeld voor technici om metagegevens te manipuleren, maar ook voor eindgebruikers. Ook zij hebben behoefte aan toegang tot metagegevens, zoals hoe betrouwbaar zijn de gegevens waar ik naar kijk, en wat is de gehanteerde formule voor het berekenen van dit omzetcijfer?
In elke lezing werd geroepen dat een id inderdaad een onmisbare component was van elke gegevenspakhuisarchitectuur. Maar hoeveel organisaties hebben er werkelijk één gebouwd? Wederom is het antwoord: bijna geen enkele.
Een recenter voorbeeld is het speeltje van een van de grondleggers van internet, Tim Berners-Lee, genaamd het ‘resource description framework’ (rdf). Rdf is kort gezegd een taal waarmee we onze website zeer gestructureerd kunnen documenteren. Hiermee wordt de kwaliteit van het zoekproces op internet verbeterd. Is dit nu eindelijk het eerste succesvolle initiatief waar metagegevens centraal zijn? Misschien is het nog te vroeg om een uitspraak te doen, maar tot nu toe ziet het er niet gunstig uit. De rdf-standaard dateert namelijk al weer van 1999. Komen we het vaak tegen? Gebruiken we het vaak? Nee! Dit lijkt al weer het volgende mislukte experiment waarbij metagegevens betrokken zijn.
Wat is dit toch? Waarom roept iedereen binnen de ict-wereld dat metagegevens belangrijk zijn, terwijl – als puntje bij paaltje komt – we er niets mee doen? Het belang van metagegevens is groot, dat ontkent niemand. Aan de verschillende systemen die we gehad hebben, zal het ook niet gelegen hebben. Maar waarom lukt het dan niet? Omdat metagegevens op lange termijn pas een rendement opleveren, terwijl wij altijd nog op korte termijn denken? We kunnen er slechts naar raden. Voor mij blijft het een mysterie, want het lijkt alsof we niets van het dure millenniumprobleem geleerd hebben.