Zolang ik in het werkveld enterprise content management (ecm) vertoef, zijn er altijd discussies geweest over metadata van documenten. Metadata toekennen is het middel om documenten te zoeken en te vinden. Het is een belangrijk hulpmiddel om een zaak of een proces met een document te starten. Maar steeds komt de discussie naar boven welke en hoeveel metadata er nodig zijn. Met daarop volgend de vraag door wie en wanneer deze metadata moeten worden vastgelegd.
Voordat we kunnen bepalen door wie en wanneer metadata vastgelegd moeten worden, zullen we eerst even wat dieper in het fenomeen metadata duiken. De term metadata betekent niets anders dan gegevens over documenten. Het Rotterdamse stadsarchief onderscheid drie groepen van metadata die aan documenten toegekend kunnen worden. Er zijn ook andere indelingen mogelijk, maar voor het gemak neem ik die van het archiefover. Zij onderkennen:
1. Beschrijvende metadata (identificatie, interpretatie, authenticatie, vinden);
2. Administratieve of beheermetadata (autorisatie, logistieke gegevens, eigendom, formele herkomst, verantwoording van beheersactiviteiten) en;
3. Technische metadata (software, hardware, opslagformaat).
De eerste groep bestaat hoofdzakelijk uit gegevens over de ontstaanscontext van de documenten; de tweede groep bestaat uit gegevens ten behoeve van het archiefsysteem, de derde groep uit technische gegevens van het systeem waarmee de informatie is gecreëerd en beheerd wordt.
De laatste groep metadata, de technische, levert over het algemeen weinig problemen op. Deze wordt binnen ecm-systemen automatisch gevuld door het systeem zelf. Over de eerste twee groepen is wel vaak discussie. Niet alleen onder experts, maar ook bij gebruikers van ecm-systemen. Bij de gebruikers is het onderwerp van gesprek vaak over het nut en de noodzaak van metadata. Met daaraan gekoppeld de vraag hoeveel invulwerk nodig is. Meer in het bijzonder: gebruikers vragen zich af hoe praktisch de metadata is en hoeveel werk het kost om de juiste metadata aan de documenten toe te voegen. En of de gebruikers er zelf het nut van inzien binnen hun dagelijkse werk. De discussie spitst zich dan niet toe op het nut van bepaalde metagegevens, maar vooral op de hoeveelheid werk dat het kost om deze metagegevens correct en volledig in te vullen.
Ik wil hier niet beschrijven welke metadata wel of niet noodzakelijk zijn. Dit is sterk afhankelijk van de organisatie, de standaarden die gekozen zijn en van de processen die de documenten doorlopen. Waar ik wel op in wil gaan is de hoeveelheid metagegevens die gebruikt worden en die door medewerkers gevuld moeten worden.
Kenniswerkers
Traditioneel worden binnengekomen documenten verwerkt door een postkamer. Hier vindt de eerste toekenning van waarden van metadata plaats. De medewerkers zorgen ervoor dat de beschrijvende en administratieve metagegevens gevuld worden. Maar in voorkomende gevallen heeft de postkamermedewerker onvoldoende kennis om documenten volledig te beschrijven. Een kennismedewerker, bijvoorbeeld de eerste behandelaar van het document, moet dan deze gegevens aanvullen.
Tegenwoordig komen documenten vaker direct bij de kennismedewerkers binnen. Bijvoorbeeld in het geval van e-mails die direct aan medewerkers worden gestuurd. Of medewerkers stellen zelf documenten op, die ook met behulp van metagegevens moeten worden beschreven.
Administratieve metagegevens kunnen ook zorgen voor grote hoeveelheden gegevensvelden. Met deze metadata wordt onder andere het gebruik van documenten vastgelegd. In het papieren tijdperk werden deze gegevens bijgehouden in de archiefmap of een speciaal formulier (de minuut). Nu worden ze vastgehouden als metadata. Zo schrijven bijvoorbeeld metadatamodellen voor overheidsarchieven tientallen velden voor die allemaal ingevuld moeten worden. Sommige kunnen automatisch ingevuld worden, omdat het systeemvelden zijn. Maar andere moeten handmatig worden ingevuld.
De discussie over nut en noodzaak van metadata speelt vooral bij kenniswerkers als hen gevraagd wordt om documenten te voorzien van allerlei metagegevens. Het is niet de primaire taak van deze medewerkers om documenten te beschrijven in metadata. Het beschrijven van documenten wordt gezien als een extra last, zeker wanneer de medewerkers gegevens moeten toevoegen die voor hun eigen werk niet direct van belang zijn. Laat ik wat voorbeelden geven:
- Bij een verzekeraar werd aan het medisch team rondom de verzekeringartsen gevraagd documenten te voorzien van vijf verplichte en tien optionele kenmerken. Dit werd in het begin gezien als het minimaal noodzakelijke. Maar een paar jaar later bleek dat de optionele velden amper werden ingevuld en gebruikt. Met de vijf verplichte velden kon men goed werken: de optionele velden werden als overbodig uit het systeem verwijderd.
- Bij een ministerie kwamen de projectmanagers erachter dat behandelaars geen zin hadden in het invullen van allerlei metadatavelden. Ze gingen om het systeem heen werken door gebruik te blijven maken van netwerkschijven. Bij de nieuwbouw van het systeem werd daarom besloten de metadatavelden te minimaliseren tot één: de naam van het document.
- Bij een ander ministerie mislukte een ecm-project, omdat de gebruikers eigenlijk niet bereid waren allerlei archiefgerelateerde documentkenmerken in te vullen: te veel werk. Terwijl het de archiefmedewerkers de kennis en tijd ontbrak om het zelf te doen. De stortvloed aan documenten en achterstand in verwerking van de documenten was gewoonweg te groot.
In het algemeen kan gesteld worden dat maximaal vijf gegevensvelden door gebruikers ingevuld worden wanneer zij een nieuw document opvoeren in een systeem. Minder is beter, meer leidt tot een grotere kans op acceptatieproblemen.
Automatisch vullen van metagegevens
Wanneer veel metagegevens om welke reden dan ook nodig zijn en het is niet mogelijk deze handmatig in te vullen, wat dan? We kunnen besluiten om het aantal gegevensvelden drastisch te verkleinen, maar we kunnen er ook voor kiezen om velden automatisch te gaan vullen. De techniek is er, maar soms ontbreekt het aan vertrouwen in de werking van dergelijke systemen. ‘Auto-classification’ wordt in de markt gezet als de enige methode om metagegevens te vullen, omdat de stortvloed aan documenten en andere ongestructureerde data te groot is om nog handmatig te verwerken. Maar hoeveel documenten dienen er per dag verwerkt te worden? Misschien helemaal niet zo veel.
Wanneer het niet lukt, om wat voor reden dan ook, metagegevens gevuld te krijgen, is het automatisch vullen misschien wel de enige oplossing. Want vroeger of later, zijn die gegevens nodig om: documenten terug te kunnen zoeken, het gebruik ervan te kunnen reconstrueren of om ze te beheren en gecontroleerd te kunnen verwijderen om de omvang van het archief te beheersen.
Wat ook belangrijk is te realiseren, dat bij handmatig invullen van gegevens fouten gemaakt kunnen worden. Het blijft natuurlijk mensenwerk. Mensen kunnen per ongeluk fouten maken, zoals tikfouten, leesfouten of anderszins. Maar fouten kunnen ook ontstaan omdat gebruikers geen zin hebben alles nauwkeurig te doen: ze vullen maar wat in, nemen geen tijd om het document inhoudelijk te begrijpen, voelen zich onder tijdsdruk gezet, enzovoort.
Een oude methode om fouten te vermijden is om hetzelfde metagegeven meerdere keren te laten invullen. Het systeem vergelijkt de resultaten en signaleert verschillen. Maar dat betekent wel een verdubbeling van de inspanning van de medewerkers. Deze methode heb ik dus maar weinig toegepast gezien. Ook, omdat het bedrijfseconomisch niet rond te krijgen is: loont het de moeite om het risico op foute metagegevens op deze manier te verkleinen? En hoe meet ik dat dan?
Het doel van automatische classificatie is niet om een allerlei kleine menselijke foutjes uit veldinhouden te halen. Want ook bij machineherkenning van tekst kunnen fouten optreden. Het voornaamste doel van automatisch classificeren is om de grote bulk aan documenten met hun grote hoeveelheid kenmerken automatisch te verwerken. De menselijke inspanning om dit allemaal handmatig te doen, kan gewoon te groot zijn. Machines kunnen het werk doen dat anders niet gedaan wordt. Automatische classificatie kan documenten van die kenmerken voorzien die wel nuttig zijn, maar in een handmatige situatie gewoon niet ingevuld (kunnen) worden.
Om metadata van documenten automatisch te kunnen bepalen, zijn er verschillende methoden mogelijk. Hieronder worden er enkele beschreven, in volgorde van oplopende technische complexiteit.
Formulierherkenning
Formulierherkenning is het automatisch uitlezen van formulieren. Daarvoor moet eerst het formulier herkend worden, waarna aan de hand van de door de machine herkende en bekende opmaak de gegevensvelden kunnen worden uitgelezen. Gek genoeg geldt dit voor zowel elektronische als papieren documenten. Bij papieren documenten moet natuurlijk wel eerst het formulier gedigitaliseerd worden door bijvoorbeeld scanning. Daarna kunnen de tekstvelden omgezet worden.
De tekstvelden kunnen weer gebruikt worden om de metagegevens van het document te vullen. Dit kan soms direct en soms moet er een controle of bewerking plaatsvinden voordat de waarden als metadata kunnen worden gebruikt. Formulierherkenning is (bijna) standaard aanwezig in documentinvoersystemen. Deze systemen zijn lerend, dat wil zeggen dat ze aan de hand van een verzameling voorbeeldformulieren de verschillende formulieren zelf leren herkennen.
Koppelingen met externe systemen
Vaak kan metadata van documenten worden opgezocht in andere systemen. Bijvoorbeeld ordergegevens, zoals het bestelnummer, kunnen uit een bestelsysteem worden gehaald en als metagegeven bij het document worden opgeslagen. Op die manier kan het bestelnummer, ten tijde van de binnenkomst van het besteldocument, worden bewaard. Dit kan belangrijk zijn wanneer de externe systemen zelf geen historie van bestelgegevens bijhouden en bijvoorbeeld alleen lopende bestellingen ‘kennen’. Documentarchieven zijn meestal niet het bronsysteem voor allerlei gegevens. We gaan er dan vanuit dat het bronsysteem wel de ‘waarheid’ bevat, op zijn Engels: ‘single source of thruth’. Daarom kunnen we in de voorkomende gevallen gewoon de waardes uit bronsystemen kopiëren naar ons documentenarchief. Immers in een archief zijn de documenten met hun metagegevens onveranderbaar opgeslagen.
Gebruik in zaaksystemen
Metadata omtrent het gebruik van documenten, die vaak onderdeel vormen van de set van metadata voor archiveren, kunnen op meerdere manieren automatisch worden bepaald. Wanneer het strikt gaat om wie welk document heeft gezien of bewerkt, is de logging van het documentmanagementsysteem een goede bron van informatie. Door de loggevens over te nemen in de metadata, kan deze worden vastgehouden.
Als echt de context van het gebruik worden vastgelegd dan is het meestal nodig om de afhandeling van documenten met informatietechnologie te ondersteunen. Dat kan een zaaksysteem zijn, maar ook procesbesturing: ‘workflow’, een crm-systeem en dergelijke. Deze systemen bevatten dan de context van het gebruik, de zaak of het proces. De context beschrijft wie, waar en wanneer, bijvoorbeeld in welke processen, documenten hebben gebruikt. De context kan ook een dossier zijn: alle documenten in het dossier behoren dan tot dezelfde context. Het handmatig invullen van contextgegevens bij documenten wordt vaak door medewerkers als te bewerkelijk gezien. Door medewerkers te laten werken met procesbesturing, is de context bekend en kan automatisch aan de documenten worden toegevoegd en daarmee de ‘last’ voor de werknemer wegnemen.
Tekstanalyse
Formulieren hebben een structuur. Deze structuur uit zich in de opmaak van het formulier, zoals in een invulformulier of in een xml-bestand. Deze structuur maakt het mogelijk metagegevens uit het document af te leiden. Maar wat moet je doen als je alleen tekst hebt en je op basis van lezen en interpreteren metadata van waarde moet voorzien?
Postkamermedewerkers of kenniswerkers lezen een tekst en interpreteren die. Ze interpreteren de tekst op basis van de inhoud, maar ook op basis van eerder verworven kennis omtrent het onderwerp van de tekst. Deze interpretatie stelt ze in staat de juiste metagegevens bij een document te bepalen.
Op dit moment beginnen computers te leren om teksten te intrepreteren. Hierdoor zijn ze in staat grote hoeveelheden documenten automatisch van metagegevens te voorzien.
Classificeren op basis van tekstanalyse kan op verschillende niveaus. Het gemakkelijkste is, dat tekstelementen worden herkend op basis van formele criteria. Zo kan een Iban-nummer herkend worden aan de opbouw van het bankrekeningnummer. Of kan een documentkenmerk worden gevonden, omdat het direct volgt op de tekst: ‘Ons kenmerk:’.
Maar het kan ook geavanceerder. In de zeer nabije toekomst is het mogelijk om tekstinhoud te interpreteren, zodat de betekenis automatisch bepaald kan worden. En op basis van die interpretatie te classificeren. De uitkomst van een dergelijke interpretatie zou kunnen zijn: ‘Deze e-mail gaat met een 90 procent-waarschijnlijkheid over een klacht over product xyz’. Op basis van deze uitkomst kan een klachtprocedure over een product worden gestart. De uitkomst kan weer worden gebruikt om het e-maildocument te classificeren als een ‘productklacht’, enzovoorts.
Doet een machine dit nou kwalitatief beter dan een mens? Zo ver zijn we nog niet. Maar, zoals aan het begin geschreven, deze hulpmiddelen zijn vooral handig wanneer er grote hoeveelheden documenten en metagegevens moeten worden verwerkt. Het gaat niet zozeer om mensen te verbeteren, het gaat er om het werk voor mensen te verlichten door computers het werk te laten doen, door computers metagegevens te laten vullen, die allemaal nuttig en noodzakelijk zijn, waarvoor geen mensen zijn te vinden.
Door de komst van geavanceerde hulpmiddelen om documenten automatisch te classificeren, is het mogelijk geworden grote hoeveelheden documenten en metagegevens te verwerken. Hierdoor wordt de discussie over nut en noodzaak van metagegevens eenvoudiger. Als het classificeren automatisch kan, kunnen metagegevens beter worden gebruikt. De acceptatie van ecm-systemen wordt ook beter, omdat de noodzaak tot handmatig werk sterk kan verminderen. En zo wordt ook de kwaliteit van de metadata beter. De techniek van automatisch classificeren is volwassen geworden. Het is tijd om te kijken hoe automatische classificatie kan helpen ecm-systemen te verbeteren.
Deze opinie is geschreven in samenwerking met John Christiaanse, senior consultant op het gebied van ecm en information lifecycle governance bij Capgemini.