Ik weet zeker dat XML de grootste IT-ontwikkeling sinds SQL is. XML biedt een standaard waarmee goedkoop interactieve informatiesystemen te ontwikkelen, waarbij meerdere auteurs aan één document werken. Omdat het een officiële WWW-standaard is, zal XML een sterke commerciële steun krijgen.
Minstens zo belangrijk is dat Microsoft ook heeft ingezien hoe krachtig XML is; voor de eerste keer in het bestaan proberen ze nu het voortouw te nemen in plaats van een bestaande standaard te kapen en achteraf aan te passen. Omdat XML het meest waard is in kantooromgevingen, is de ondersteuning door Microsoft zeer belangrijk. Microsoft lijkt zich als geen ander bedrijf bewust van de potentie van XML.
Nu de nadruk in de IT-wereld steeds meer op informatie komt te liggen, ontstaat een soort tweedeling. De reden hiervoor is dat formele gegevens anders worden behandeld dan tekst en beeld. Het is een feit dat we de komende jaren niet hoeven te rekenen op een echte integratie van gegevens, tekst en plaatjes, al is XML een stap in de goede richting. Hieruit volgt dat veel nieuwe producten ontwikkeld zullen worden voor het importeren en exporteren van gegevens door middel van ‘gateways’.
Om de kern van het probleem te kunnen begrijpen, moeten we eerst een classificatie van informatie maken. Dit is een ondankbare taak, maar het legt de omvang van het probleem duidelijk bloot.
Informatie ontstaat door menselijk handelen, zoals handgeschreven briefjes, of in elektronische vorm, zoals elektronische betaalgegevens die worden gegenereerd door een scanner. Een conversie van elektronisch formaat naar ‘menselijk’ formaat is eenvoudig – denk aan het printen van een brief die met een tekstverwerker is opgesteld – maar het omgekeerde is veel moeilijker; een voorbeeld is optische karakterherkenning (ocr).
De meest voor de hand liggende tweedeling is die tussen gegevens en documenten. Gegevens worden van oudsher op een formele wijze gerepresenteerd: records met vaste lengte, die weer zijn onderverdeeld in velden, waardoor repetitieve gegevens eenvoudig te verwerken zijn. Deze applicaties hebben echter problemen met tekstvelden, zoals adressen die variabel in lengte kunnen zijn. Documenten zijn veel complexer.
De eerste onderverdeling in het rijk der documenten is die tussen documenten die wel door een computer gegenereerd zijn en documenten die op een andere wijze totstandgekomen zijn.
Als een document in geformatteerde vorm beschikbaar is, zoals een bestand voor een tekstverwerker, kan het document bewerkt worden. Is dat niet zo, dan moet het gescand worden, waarbij het wordt geconverteerd naar elektronisch formaat. In deze gevallen is de elektronische vorm veel moeilijker te bewerken, omdat de informatie die nodig is voor de formattering ontbreekt.
In de tweede plaats kan onderscheid worden gemaakt tussen gestructureerde en ongestructureerde documenten. Formulieren zijn voorbeelden van gestructureerde documenten; variabele gegevens kunnen in specifieke velden worden ingevuld. Een brief is een voorbeeld van een ongestructureerd document. Handgeschreven brieven leveren in een geïntegreerd documentsysteem altijd de meeste problemen op, omdat het erg moeilijk is de handgeschreven karakters om te zetten in een formaat dat door een tekstverwerker kan worden gelezen. Merk op dat de meeste succesvolle ocr-systemen gebaseerd zijn op speciale lettertypen, zoals bij betaalkaarten; getypte tekst is iets moeilijker, gevolgd door hoofdletters in vakjes en tenslotte handgeschreven tekst.
Eén manier om met handgeschreven documenten om te gaan is ze gewoon als bitmaps te behandelen; deze techniek wordt toegepast in een aantal bestaande ‘document image processing’-systemen (dip). Deze techniek kan worden toegepast op elk document, zowel plaatjes als tekst. Het verwerken van documenten bestaat hierbij uit scannen, opslaan, ophalen en weer afbeelden. De belangstelling voor het automatisch verwerken van fotomateriaal heeft geleid tot een efficiënte implementatie van software voor het scannen, bewerken en aanpassen van foto’s en videobeelden. Merk op dat het intact blijven van een brief van kritisch belang kan zijn, bijvoorbeeld bij het afhandelen van schadeclaims.
Het echte legacy-probleem is gerelateerd aan tekstverwerkers. De tekstverwerker produceert weliswaar een geformatteerd bestand dat door een andere tekstverwerker kan worden bewerkt, maar het resulterende bestand kent geen vaste structuur. Dit is prima voor eenvoudige brieven en memo’s, maar niet voor documenten. En hiermee bedoel ik een document dat bestaat uit meerdere pagina’s en waar meerdere auteurs aan werken. Zulke documenten zijn ‘levend’, terwijl een brief statisch is. Handboeken, standaarden, offertes en dergelijke, zijn voorbeelden van documenten waar gewone tekstverwerkers eigenlijk niet goed mee kunnen omgaan.
Bedrijven en instellingen gebruiken tekstverwerkers voor zowel brieven als documenten. Deze sequentiële bestanden kunnen dan worden opgeslagen in folders, maar alleen als gehele entiteiten – net als gescande beelden in een dip-systeem, maar dan simpeler. De uitgeverswereld gebruikt daarentegen al jaren de Standard Generalised Markup Language (Sgml) om de inhoud van een document te kunnen scheiden van de uiteindelijke vorm en afbeelding. XML is een vereenvoudigde afgeleide van Sgml, waaraan het hypertext-concept van Html is toegevoegd. Hierover later meer.