Metadata was lange tijd een hulpmiddel dat vooral voor technische doeleinden werd toegepast. Met dank aan Basel II en bijvoorbeeld de Amerikaanse Sarbanes-Oxley Act is het voor veel bedrijven inmiddels van belang om precies te kunnen aangeven hoe bepaalde gegevens tot stand zijn gekomen. Gebruik van ‘data over data’ maakt het onder andere mogelijk om de ontstaansgeschiedenis van aan belastingdienst of ministerie van Financiën verschafte gegevens vast te leggen en inzichtelijk te maken. De belangstelling voor metadata management groeit daarom.
‘De informatie over een pakket is even belangrijk als de aflevering ervan.’ Zonder het te weten gaf Fred Smith, de vermaarde oprichter van de internationale pakkettenvervoerder Federal Express, al in 1970 de essentie aan van metadata. Softwarebedrijf Informatica gebruikte dit citaat vorig jaar bij de introductie van Superglue, een softwareproduct voor metadata management. De vrije vertaling die deze firma vervolgens aan die opmerking meegaf, luidde: informatie over een gegeven is even belangrijk als het gegeven zelf.
Verwarring
Metadata is een fenomeen dat zelfs binnen de ict-sector af en toe tot verwarring leidt. In feite gaat het over niet meer (maar zeker ook niet minder) dan data over data. Daarmee is direct duidelijk dat het belang van metadata nauwelijks kan worden overschat. Data over data wordt al heel lang vastgelegd. Tot nu toe gebeurde dit echter vooral voor interne ict-technische doeleinden. Veelal werd – en wordt – per applicatie vastgelegd welke datadefinities en andere gegevens over data belangrijk zijn. Deze gegevens worden vastgelegd in een repository die tot doel heeft een verzamelplaats te zijn van gegevens die te gebruiken zijn voor het beoordelen en sturen van ict-processen.
De laatste tijd groeit de belangstelling voor metadata tot buiten de ict-afdeling. Onder druk van internationale afspraken en wetgeving als Basel II en de Amerikaanse Sarbanes-Oxley Act moeten bedrijven steeds vaker kunnen aangeven hoe cijfers die zij bijvoorbeeld bij de belastingdienst of andere controlerende instanties inleveren tot stand zijn gekomen. Veel voorkomende vragen zijn: ‘uit welke bronsystemen zijn deze gegevens afkomstig’, ‘wat waren de oorspronkelijke definities van de data’, ‘aan de hand van welke rekenregels (business rules) zijn de gegevens bewerkt’, ‘hoe is de data geconsolideerd’ en ‘welke bewerkingen hebben zij hierbij ondergaan’.
Om dit soort vragen te kunnen beantwoorden, is een duidelijk overzicht van en inzicht in de betrokken ‘data over data’ nodig. Een probleem hierbij is de vraag wat er gebeurt met de betrokken metadata wanneer gegevens uit bijvoorbeeld Oracle Financials, JD Edwards en MFG-Pro worden verzameld en aan de hand van bepaalde rekenregels worden samengevoegd tot een nieuwe reeks van gegevens? Er is dus een systeem nodig dat alle betrokken metadata vastlegt op een zodanige manier dat deze data over data in de tijd te volgen valt, zodat stap voor stap alle bewerkingen die de betrokken gegevens ondergaan te bekijken en zonodig terug te volgen zijn vanaf een geconsolideerd gegeven tot de oorspronkelijke basisdata.
Definitiekwesties
Sinds enige tijd verschijnen er softwareproducten die deze functionaliteit proberen aan te bieden. Voorbeelden zijn Metacenter van Data Advantage Group, Superglue van Informatica, Metadata Manager van Information Builders, Meta Integration Works van Meta Integration Technology en Metabase van Metamatrix. Hoewel al deze producten zich op een of andere manier richten op het beheren van metadata, is het verschil in functionaliteit vaak aanzienlijk.
Niet alleen externe factoren hebben tot de komst van software voor metadata management geleid. Ook het management van de eigen organisatie heeft steeds meer behoefte aan betere informatie om tot verantwoorde beslissingen te komen. Neem een eenvoudig voorbeeld als de volgende vraag: wat zijn onze zes winstgevendste klanten? Hoewel dit op zich een eenvoudige vraag lijkt, blijkt de beantwoording ervan in de praktijk vaak behoorlijk tegen te vallen. Vooral definitiekwesties kunnen het beantwoorden van deze vraag aanzienlijk bemoeilijken. Wat is bijvoorbeeld ‘winstgevend’? Minstens zo lastig is de vraag welke definitie de organisatie hanteert voor ‘klant’. Is een prospect ook een klant? Is een bedrijf aan wie producten zijn geleverd, maar die de factuur nog niet heeft voldaan een klant? Waarschijnlijk wel, maar kan die klant bij gebrek aan betaling als winstgevend worden aangemerkt? Hoe zit het dan met een klant die in termijnen betaalt? Zo zijn er tal van definitiekwesties die de kwaliteit van de intern beschikbare informatie – en dus de beslissingen die daarop worden gebaseerd – kunnen beïnvloeden.
Op papier is dit probleem eenvoudig op te lossen. Stel voor alle relevante kreten en begrippen een definitie op en leg deze voor de gehele organisatie vast – als metadata in een repository dus. Het beantwoorden van bovenstaande vraag vereist dan alleen het ophalen van de betrokken definities, zodat de manager die de vraag stelt weet wat het antwoord dat gegeven wordt eigenlijk betekent.
Ontsluiten
De praktijk is echter weerbarstiger. Veel metadata is tot nu toe per applicatie vastgelegd. Dat levert nogal wat risico’s op ten aanzien van kleine of grote verschillen in definities. Bovendien is het bij de hiervoor gestelde vraag waarschijnlijk nodig dat metadata uit meerdere repositories wordt opgehaald. Het kan dus gebeuren dat een ‘klant’ in Siebel net iets anders betekent dan in bijvoorbeeld SAP.
Aanbieders van software voor het beheren van metadata denken dat het mogelijk is om data over data zodanig te ontsluiten dat deze gegevens toch voor zakelijke doeleinden kunnen worden ontsloten. Hiervoor is het allereerst nodig dat alle relevante metadata wordt verzameld op één centrale plaats, veelal de metarepository genoemd. Bovendien is het nodig dat de aldus verzamelde informatie te ontsluiten en liefst ook te analyseren valt.
In feite praten we dus over een combinatie van etl- en bi-tools (extraction, translation, load; business intelligence). Dat verklaart de komst van aanbieders als Information Builders in deze markt. Een bedrijf als Informatica heeft voor dit doel het product Superglue ontwikkeld, dat is gebaseerd op de functionaliteit die reeds in bestaande producten als Powercenter voor etl en Poweranalyzer voor de analytische functies aanwezig is.
Tweerichtingsverkeer
Standaard is Powercenter echter niet bruikbaar voor het koppelen van repositories. Daarom wordt de ‘integratieserver’ van dit product voorzien van ‘Xconnects’ waardoor toch een interface naar repositories valt te creëren. Deze adapters zorgen voor zowel de link naar de repository als het mechanisme waarmee de metadata uit de oorspronkelijke repositories is over te zetten naar de metarepository. Met Xconnects zijn zowel de nodige databases als ‘flat files’, XML en op het CWM/XMI (Common Warehouse Metamodel/XML Metadata Interchange) gebaseerde bronnen te bereiken. Verder kan metadata worden opgehaald uit bijvoorbeeld Business Objects. Met behulp van een sdk (software development kit) kunnen ict-afdelingen of aanbieders van andere producten bovendien in eigen beheer interfaces ontwikkelen.
De Xconnects – bij andere aanbieders luisteren deze adapters uiteraard naar andere benamingen – spelen een hoofdrol binnen metadata management. Het zijn immers deze interfaces die het mogelijk maken dat metadata uit de individuele repositories zijn op te halen. Deze interfaces mogen dus onder geen beding ‘black box’-achtige koppelingen zijn. Sterker nog, juist de kwaliteit van de documentatie van deze adapters bepaalt in hoeverre duidelijkheid valt te geven over hoe samengestelde data tot stand is gekomen. Het is dus niet ondenkbaar dat aanbieders van beheerproducten voor metadata er op termijn voor kiezen de interne functionaliteit door bijvoorbeeld edp-auditors te keuren en wellicht zelfs te certificeren.
In de praktijk werkt een systeem voor het beheren van een metarepository in grote lijnen als volgt. Uit tal van systemen, van erp tot bi, wordt metadata opgehaald uit de onderliggende repositories. Al deze data wordt bijeengebracht in een metarepository. Dit zal veelal een standaard database zijn, bijvoorbeeld Oracle, DB2 of SQL Server. In deze database kan de verzamelde informatie worden bewerkt, bijvoorbeeld om definitieverschillen op te lossen. Bij veel metadata management producten is het vooralsnog niet mogelijk om de aldus aangepaste metadata hierop weer terug te sturen naar de oorspronkelijke repository, terwijl dit voor een volwaardige vorm van metadata management wel wenselijk is. Dit tweerichtingsverkeer wordt waarschijnlijk pas mogelijk wanneer de ontwikkelaars van de onderliggende systemen zelf eveneens besluiten om de XMI-standaard te ondersteunen.
Visualiseren
De metadata die nu vastligt in de metarepository is met de analytische functies van het beheerproduct te doorzoeken en te analyseren. Wanneer gewerkt wordt op basis van het CWM-model is het in principe ook mogelijk om deze analyseslag uit te voeren met analytische producten die door andere leveranciers zijn ontwikkeld. Bij vrijwel alle producten voor metadata management is het mogelijk om de resultaten van de analyses grafisch weer te geven.
‘Lineage’ is één van de mogelijkheden die beheersystemen voor metadata bieden. Deze faciliteit is niet zo vreselijk veel anders dan het in de vorm van een stroomschema visualiseren hoe een bepaald gegeven uit andere gegevens is opgebouwd. Daarnaast is een metarepository dankzij de beschikbaarheid van bi-tools te analyseren. Het resultaat is in de vorm van een rapport vast te leggen. Dat kan een papieren rapport zijn, of een ‘dashboard’ dat voorzien wordt van alarmeringen en andere typische bi-functies.
Metadata kan met de hulp van metadata management systemen uitgroeien van een puur intern gerichte ict-voorziening tot een zakelijk hulpmiddel waarmee managers betere beslissingen kunnen nemen en bovendien kunnen voldoen aan almaar strenger wordende eisen die overheden stellen. Belangrijk hierbij is echter wel dat in principe alle repositories van belangrijke bedrijfsinformatiesystemen gekoppeld en ontsloten worden. Gebeurt dat niet, dan is de kans groot dat beslissingen alsnog genomen worden op basis van incomplete gegevens.< BR>