Omdat er zoveel verschillende soorten documenten en zoveel verschillende applicaties zijn, is het logisch dat er veel systemen voor documentbeheer op de markt zijn. Verschillende mensen hebben verschillende opvattingen over de functionaliteit die zo’n systeem zou moeten bieden. Er zijn wel pogingen gedaan om standaarden te definiëren, vergelijkbaar met XML voor het aanmaken en beschikbaarstellen van documenten, maar er zit niet veel schot in. Gezien de diversiteit is dit niet verrassend.
De volledige cyclus in het model voor documentbeheer dat door de standaardisatie-organen wordt gebruikt bestaat uit de fasen conception (aanmaak), process management (procesbeheer) en disposal (verwijdering). De cyclus kan worden gesloten door reuse (hergebruik) te definiëren in plaats van disposal.
Onder procesbeheer zijn de belangrijkste technische elementen gesplitst in drie categorieën: create (creatie), publish (publicatie) en store (opslag).
Onder create vallen activiteiten als initiëren, samenvoegen, bladeren, converteren, herzien en discussiëren. Publish omvat zaken als eigendom (handtekening), verspreiding, conversie (automatisch) en koppelingen met andere applicaties, zoals workflow. Store omvat functies als indiceren, archiveren, comprimeren, controleren en het aansturen van de conversie. Hieraan moeten functies worden toegevoegd voor het opsporen, ophalen en verspreiden van documenten.
Systemen voor documentbeheer komen voort uit eisen die vanuit verschillende vakgebieden worden gesteld. Voorbeelden hiervan zijn uitgave, ‘document image processing’ (dip), bibliotheeksystemen, bedrijfsprocedures en regels, handboeken en tegenwoordig ook e-mail en bestanden voor tekstverwerkers. De beschikbaarheid van web-servers heeft ervoor gezorgd dat simpele hypertext-technieken gemeengoed geworden zijn om door tekstbestanden in een gedistribueerde omgeving heen te bladeren, terwijl de eerste systemen meer gericht waren op centrale servers.
Dip-systemen worden al jaren met succes toegepast. Deze systemen zijn bedoeld voor het opslaan van afbeeldingen die niet met de computer zijn aangemaakt, zoals handgeschreven brieven of diagrammen. In een dip-systeem wordt een papieren document gedigitaliseerd en als een bitmap opgeslagen. De bitmaps worden opgeslagen in een sequentieel opslagsysteem met zeer hoge opslagcapaciteit. Elke bitmap wordt voorzien van een index; indices worden in een database bijgehouden. Gebruikers kunnen de bitmaps opvragen door de index op te geven (een conventioneel relationeel database-managementsysteem). De index verwijst naar een sequentieel opslagmedium.
Deze systemen worden gebruikt in commerciële toepassingen voor het afhandelen van claims, het opslaan van patenten enzovoort. Uit deze systemen zijn belangrijke technieken voortgekomen op het gebied van compressie en decompressie, geavanceerde, semi-automatische indicering, en met name workflow management. Veel workflow-systemen zijn in feite spin-offs van dip-systemen.
Vergelijkbare technieken worden gebruikt in systemen voor geformatteerde invoer die wel door de computer gegenereerd is; zoeken en verwerken kunnen in dat geval geavanceerder zijn. Cad-systemen en geofysische systemen zijn hier goede voorbeelden van.
Systemen voor het opvragen van informatie zijn doorgaans gericht op bibliotheekapplicaties; zij maken het opvragen van informatie zeer eenvoudig door sleutelwoorden voor elke samenvatting, elk artikel of elk boek te definiëren. Deze systemen maken gebruik van nieuwe technieken om snel in ongeformatteerde tekst te kunnen zoeken. Die technieken kunnen direct op de opgeslagen gegevens worden toegepast, maar kosten meer verwerkingscapaciteit dan indextechnieken. Spelling checkers zijn een goed voorbeeld van toepassingen die baat hebben gehad bij deze nieuwe zoektechnieken. Er wordt hard gewerkt aan nieuwe zoektechnieken voor digitale afbeeldingen, vooral voor geofysische applicaties. Het is opvallend dat nieuwe technieken eerst worden ontwikkeld voor complexe, specifieke applicaties, waarbij de ontwikkelkosten gerechtvaardigd zijn; daarna worden die technieken tegen lage kosten overgenomen in gewone kantoorapplicaties. Een goed voorbeeld van het adopteren van nieuwe teksttechnologie is Lotus Notes. Notes is groupware waarmee mensen echt kunnen samenwerken en is daardoor veel geavanceerder dan concurrerende producten van Microsoft en Novell. Dit is mogelijk omdat Notes niet is gebaseerd op lineaire, ongestructureerde bestanden, maar op een tekstdatabase (ik dacht onder licentie van Verity).
Documentbeheer staat nog in de kinderschoenen. De dominantie van PC-tekstverwerkers voor het aanmaken van documenten leidt tot enorme problemen. Alle structuur is ingebed in het document zelf; het document wordt opgeslagen als een simpel, ongestructureerd bestand. In tegenstelling tot een bitmap kan zo’n bestand gewijzigd worden, maar alleen met behulp van een dikke client-tool op de PC. Uiteindelijk zullen documenten worden aangemaakt als eenvoudige elementen die pas worden samengesteld als ze door een documentserver worden vormgegeven, maar we zullen nog lange tijd met tekstverwerkers en hun bestanden moeten werken. Tekstverwerkers worden voor te veel toepassingen gebruikt; het zal zeker tien jaar duren voordat we de schade ongedaan gemaakt hebben. (Tekstverwerkers zijn prima voor simpele brieven, e-mail en dergelijke. We zullen in de toekomst behoefte hebben aan bestandsgeoriënteerde documentsystemen én aan servers voor documentbeheer op basis van XML.)
Met uitzondering van Notes en Web Html-servers zijn de huidige documentsystemen gebaseerd op tekstverwerkersbestanden. Deze systemen kunnen en moeten veel beter; met versiebeheer, distributie, beveiliging en verbeterde toegang voor zoekmachines. Op dit moment zijn Exchange en Groupwise de belangrijkste systemen voor het beheer van tekstverwerkersbestanden.