Integratie van metagegevens vereist

We hebben metadatasystemen, we hebben producten voor data profiling en producten waarmee we gegevens kunnen opschonen. Daarnaast zijn er speciale producten voor het vastleggen en beheren van business rules. Nu krijgen we er ook nog MDM-producten (master data management) bij. Dit zijn vijf zeer nuttige productcategorieën. Het zou echter handig zijn wanneer al deze producten tot één geïntegreerd zouden worden.

Wat al deze categorieën overeenkomstig hebben is dat ze ons assisteren bij het beheren van onze metagegevens. Klassieke metadatasystemen bieden mogelijkheden om datamodellen en specificaties over gegevenselementen vast te leggen, zoals de definitie, maximale waarde en lengte, en de verzameling toegestane waarden. Producten die zich toeleggen op data profiling zijn zeer nuttig bij het ontdekken van vervuilde gegevens. Of het nu gaat om gegevens die qua waarde onacceptabel hoog zijn of een patroon hebben dat niet mogelijk is, of dat er dubbele sleutelwaarden in een bestand voorkomen, profiling-producten geven keurig aan waar waarschijnlijk de fouten zitten. Met cleaning-producten kunnen we de gegevens opschonen. Verkeerde spellingen van adresgegevens kunnen we corrigeren en klanten die per ongeluk meerdere malen in bestanden voorkomen, kunnen we ontdubbelen. Voor het vastleggen van business rules zijn de business rules engines onmisbaar. Indien een werknemer in de salarisschaal X valt, dan behoort zijn salaris te liggen tussen de grenzen 1000 en 2000 euro. En dan nu master data management. Simpel gesteld, hiermee kunnen we vastleggen wat door de tijd heen de toegestane waarden van zogenaamde referentietabellen zijn geweest.

Bij al deze productcategorieën registreren we metadataspecificaties. Stel dat een organisatie van alle vijf categorieën één product inzet, dan ontstaat er een grote hoeveelheid overlappende metadataspecificatie. Veel specificaties zullen in meerdere systemen geregistreerd worden. Sommige dataprofiling-producten kunnen gegevens verifiëren op basis van ingevoerde business rules. We kunnen bijvoorbeeld vastleggen dat de maximale waarde van een maandsalaris 5000 euro bruto hoort te zijn. Diezelfde business rules willen we misschien ook in ons MDM- en cleaning-product gebruiken. In dat geval zal de regel wel opnieuw gedefinieerd moeten worden; gekopieerd als het ware. Een ander voorbeeld betreft het patroon van het gegevenselement postcode. Wederom, aan een dataprofiling-product kunnen we uitleggen dat deze moet bestaan uit vier cijfers en gevolgd door twee letters. Maar we leggen dit ook vast in een metadatasysteem en het MDM-systeem wil het ook weten.

We griezelen zelf altijd als gewone gegevens dubbel opgeslagen worden. Het dubbel opslaan van metagegevens is natuurlijk geheel uit den boze.

De specificatietalen van de producten verschillen momenteel sterk. Hierdoor ontstaat er automatisch veel duplicatie. Ook functioneel verschillen de producten fors. De een kan omgaan met de historie van specificaties en de ander niet. Bepaalde business rules kunnen bijvoorbeeld van kracht zijn geweest in een bepaalde periode, terwijl nu een andere regel geldt. Ook verzamelingen met toegestane waarden kunnen door de tijd heen veranderen.

Het is noodzakelijk dat al deze producten die op metadataspecificatie gericht zijn, zo snel mogelijk samengevoegd worden. Er moet één productcategorie ontwikkeld worden waarmee we business rules, definities, verzamelingen met toegestane waarden, enzovoorts, kunnen vastleggen. Eén product voor alle metadataspecificaties.

Zitten we dus te wachten op die nieuwe categorie MDM-systemen? We zitten er wel op te wachten, want ze versterken onze mogelijkheden voor het beheren van metagegevens. Maar ze zouden eigenlijk de mogelijkheden van de andere vier moeten overnemen. Laten we hopen dat dit gaat gebeuren. Integratie van data is belangrijk, integratie van metadata is belangrijker.

Rick van der Lans