Gert van der Steen is onlangs benoemd tot bijzonder hoogleraar Uitwisselingstalen aan de universiteit van Utrecht, ingesteld door de Sgml/XML gebruikersgroep. Wat is dat voor een vak en waarom wordt dat zo belangrijk? ‘Met uitwisselingstalen kan meer met de op het Web beschikbare informatie worden gedaan.’
Van der Steen is al heel lang werkzaam op het raakvlak van taal en informatica. Hij studeerde in 1971 af in Delft en werkte vervolgens aan de universiteiten van Leiden, Rotterdam en Amsterdam. In 1987 promoveerde hij op de ontwikkeling van een universele programmagenerator voor toepassing in de taal- en letterkunde. Van 1988 tot 1990 werkte hij bij de Maatschappij voor Informatica Diensten, een broeinest van Sgml-activiteiten voor de uitgeverswereld; van 1990-1992 bij Vleermuis Software Research. Bij Cap Volmac tot 1998, als consultant voor Sgml en als projectleider en ontwikkelaar van een editor ten behoeve van vereenvoudigd natuurlijk taalgebruik. Sinds 1991 heeft hij een eigen adviesbureau Palstar in Uffelte. Kortom een rijkgeschakeerde ervaring in taaltechnologie.
Gecompliceerd
Het begrip ‘uitwisselingstaal’ is nog niet ingeburgerd. Wat betekent het precies?
"Het begrip opmaaktaal (markup language) bestaat al vele jaren. Het heeft als Sgml (Standard General Markup Language) een nogal onopgemerkt bestaan gehad. In het begin heeft het ingang gevonden in de uitgeverswereld. Tot de opkomst van het Web, toen eerst de subset Html (Hypertext Markup Language) en nu XML (eXtensible Markup Language) algemeen bekend raakten. In deze ontwikkeling ging het in eerste instantie om opmaak, maar met XML komt de nadruk meer te liggen op de uitwisseling van informatie tussen mensen en systemen, of zelfs systemen onderling. Vandaar de term uitwisselingstalen. Sgml en XML zijn in wezen meta-talen, bedoeld voor het beschrijven van uitwisselingstalen voor specifieke doeleinden."
Sgml heeft de naam erg gecompliceerd te zijn. Waarom? Waarvoor wordt de taal gebruikt?
"De taal is afkomstig uit de stal van IBM, waar Charles Goldfarb zich er sterk voor heeft gemaakt. IBM gaf heel veel verschillende soorten documentatie uit. Vanwege hergebruik wilde men de structuur scheiden van de opmaak. Goldfarb zelf was geïnteresseerd in het hergebruik van juridische documenten. Hij probeerde te voorzien in alle situaties waarin documenten gebruikt worden, vandaar de ingewikkeldheid. De codes die de structuur aangeven (tags) staan in het document. In een aparte DTD (Document Type Definition) wordt bepaald wat de toegestane structuren zijn. Met behulp van andere standaarden kun je transformaties op de documenten uitvoeren en stylesheets (opmaakprofielen) en hyperlinks toevoegen. Er zijn veel goede redenen om Sgml te gaan gebruiken. Veel grote organisaties en bedrijven weten dat. Bij Wolters-Kluwer bijvoorbeeld toen het oude zetsysteem aan vervanging toe was; men wilde onafhankelijk worden van elkaar opvolgende publicatiesystemen en profijt trekken van de strenge structuur van wetsteksten. Later is ook daar de mogelijkheid van hergebruik ontdekt."
Sgml is sinds 1985 een ISO-norm. Html is één van de uitwisselingstalen die je met Sgml kunt maken, waarbij de tags alleen aangeven hoe de opmaak moet gebeuren.
"Dat was nodig om de informatie in verschillende browsers te kunnen weergeven. XML is een vorm daartussen, die op dit moment veel aandacht trekt vanwege de mogelijkheden voor gegevensuitwisseling, bijvoorbeeld voor e-commerce. Onlangs was ik op een XML-congres in Philadelphia en daar klonk de kreet ‘Liberate the content’ (Ontsluit de inhoud). Er is zoveel ongestructureerde informatie op het Web dat het voor mensen onmogelijk is om die een beetje op een rij te krijgen. De zoekmachines kijken alleen naar letterlijke strings, niet naar inhoud. Wil je daar wat aan doen, dan moet je aangeven wat iets betekent."
In het overzicht van de doelstellingen voor de leerstoel staat een groot aantal talen, onderverdeeld in de Sgml-familie en daarmee verwante talen en normen. Dat aantal groeit nog steeds. Op een buitenstaander maakt dit geheel een rommelige indruk.
"Er is inderdaad een groot scala aan dit soort normen en talen voor structurering, presentatie, transformatie en hyperlinking voor verschillende soorten informatie en voor verschillende doeleinden. Één van de accenten bij mijn onderzoek aan de universiteit is dan ook om die te inventariseren, te classificeren en om de bruikbaarheid te onderzoeken. Niet alle normen zitten even goed in elkaar. Er kan nog heel wat academische expertise gemobiliseerd worden om daarin verbetering te brengen."
Waarom is Utrecht uitgekozen voor deze leerstoel? Utrecht ontbreekt op de lijst van universiteiten waar u gewerkt heeft.
"Op de Utrechtse universiteit wordt aan de letterenfaculteit veel werk gedaan aan de toepassing van computers op het gebied van documentatie en taalgebruik. Ze deden zelf ook al veel met Sgml. Bij Informatica is men actief in de theorie van formele talen en de aansluitende ontwikkeling van programmageneratoren. Verder zijn professor Jurgen van den Berg en zijn staf heel enthousiast bezig met de inrichting van een nieuwe studierichting Informatiekunde. Kortom daar is een goede voedingsbodem voor de leerstoel, die is ingesteld door de Sgml/XML gebruikersgroep (met als hoofdsponsor CMG) en door mij voor drie jaar zal worden bezet. Daarna zien we weer verder. De ontwikkelingen gaan erg snel; straks is er wellicht iemand anders die dit werk beter kan doen."
Orde of chaos
Het centrum voor de coördinatie en normalisatie van uitwisselingstalen voor het Web is het W3C consortium, gevestigd bij het MIT in Boston. Tim Berners-Lee, de uitvinder en promotor van het Web, is daar een van de drijvende krachten. Veroorzaken zij orde of juist chaos?
"Het is in ieder geval een neutrale ontmoetingsplaats waar bedrijven met elkaar kunnen praten en samenwerken. Het W3C doet alleen aanbevelingen, maar werkt sneller dan bijvoorbeeld ISO, de internationale normenorganisatie. Dat kan mede door hergebruik, vereenvoudiging en stroomlijning van delen van ISO-standaarden. Soms is er zo’n behoefte aan een aanbeveling dat er door bedrijven alvast implementaties gemaakt worden van tussentijdse versies van aanbevelingen. Dat kan zorgen voor de nodige verwarring, zoals bij XSL. Een activiteit waar men nu pas aan toe komt is een aanbeveling voor query-talen voor gestructureerde documenten."
In zijn boek Weaving the Web stelt Tim Berners-Lee het Semantische Web voor, een Web waarop niet alleen de informatie gestructureerd is maar ook haar betekenis (semantiek). Hoe denkt u daarover?
"Op zich natuurlijk een mooi idee, maar in hoeverre is dat te verwezenlijken? Dat men dat vroeger ook van het Web heeft gezegd? Ja, maar dit ligt wel wat anders. Het Web hangt aan elkaar door middel van adressen en hypertekstkoppelingen. Die techniek bestond niet, maar is goed te begrijpen. Dat ligt heel anders voor semantiek, waarvoor we geen goede modellen hebben die grootschalig werken. In de letterenfaculteiten is wel veel informatie voorzien van een semantische structuur, maar dat is werk dat volledig door mensen is verricht. Een mogelijkheid om automatisch op een betrouwbare manier semantische indexen te maken en abstracte onderwerpen uit een tekst te halen, is niet beschikbaar. Het probleem raakt aan dat van automatisch vertalen. Een mogelijke oplossing is het gebruik van vereenvoudigde natuurlijke taal."
Sceptisch
Van der Steen voegt daaraan toe dat er al wel een ISO-standaard is (Topic Maps) waarmee relaties tussen kenniselementen in (wereldwijd verspreide) documenten kunnen worden aangegeven, maar dat dit mensenwerk blijft. Statistische technieken kunnen soms helpen, maar de preciesheid van de resultaten is te gering.
Van der Steen: "Met uitwisselingstalen kun je wel een betekenis hechten aan de toegevoegde structuurelementen. Ook kun je meta-informatie toevoegen aan documentdelen en die benutten bij hun ontsluiting. Daarbij kan overigens wel weer standaardisatie nodig zijn, want elk onderwerp heeft zijn eigen kennisdomein. Ik sta hoe dan ook sceptisch tegenover de mogelijkheid om met betekenissen in een computer te werken. Mijn favoriete uitspraak is dat semantiek in een computer tot syntax wordt, waaraan mensen toch weer hun eigen interpretatie hechten."
Het Web maakt enorme hoeveelheden kennis beschikbaar via computers. Het romantische idee van Tim Berners-Lee dat een Semantisch Web wellicht min of meer vanzelf zou ontstaan, spreekt Van der Steen niet erg aan. Maar dat er middels uitwisselingstalen ‘iets meer’ met de beschikbare informatie gedaan kan worden dan alleen presenteren, daarvan is hij overtuigd: daarvoor wil hij zich mede inspannen vanuit zijn nieuwe academische positie.
Hein van Steenis, freelance medewerker.