Heden ten dage is er een aantal voorname zoekmachines als Google, Ask Jeeves en Hotbot die voor veel gebruikers de toegangshaven vormen tot het web. Nu internet zo is uitgegroeid zijn ze helaas minder waardevol geworden door de enorme hoeveelheid hits als reactie op zelfs de eenvoudigste zoekopdrachten.
Niemand heeft nog tijd om zich door duizenden mogelijke antwoorden heen te worstelen, ook al omdat de meeste daarvan feitelijk van alle belang zijn ontbloot. Ten gevolge daarvan is de volgorde waarin de zoekresultaten worden gepresenteerd van het allergrootste belang geworden; alleen wie of wat bovenaan die lijst staat, doet er toe. Helaas betekent dat degene wint die door de zoekmachines het meest begunstigd wordt (dat wil vaak zeggen: wie genoeg betaalt). Dat is natuurlijk niet waarom het bij internet zou moeten gaan; internet zou onpartijdig moeten zijn.
De wortel van het probleem ligt in Html. Html gebruikt een vast aantal markeringen (’tags’), wat het maken van webpagina’s vergemakkelijkt. Dat was een prima aanpak omdat het dingen in gang zet, maar die vaste markeringen betekenen dat de opmaaktaal niet flexibel is. Html had dus in die beginjaren al vervangen moeten worden door een taal die over alle functies beschikt. Helaas gingen de ontwikkelingen te snel en werd Html zo onmisbaar dat het niet eenvoudig meer te vervangen viel. Er bestond al een taal die veel beter gebruikt had kunnen worden: Sgml. Html was al geïnspireerd door Sgml, maar die laatste -ontwikkeld voor uitgeverijen- was te complex. Dat bemoeilijkte het ontwikkelen van ’tools’ en als gevolg daarvan raakte Html nog meer ingegraven. Sgml was in ieder geval, hoewel meer op zijn plaats dan Html, niet ideaal voor internet.
Tegen die tijd was W3C, het World Wide Web Consortium al zo’n gevestigde naam voor aan internet gerelateerde standaarden, dat ze een nieuwe standaard konden uitbrengen. Die was meer verwant aan Sgml dan Html dat was, en afdoende vereenvoudigd én uitgebreid om te voldoen aan de behoeften van elektronische niet-gedrukte) documenten. Een dergelijke standaard, XML dus, is even geschikt voor webpagina’s als voor documenten. Helaas kwam XML te laat om Html nog uit de loopgraaf te kunnen verdringen.
Het sleutelverschil tussen Html en XML met betrekking tot het web is dat markeringen gebruikt kunnen worden om betekenis te definiëren – vandaar ook de term ‘semantisch web’- zodat zoekopdrachten gerichter geschieden en een veel korter, nuttiger aantal zoektreffers wordt bereikt. Een grappig voorbeeld is: zoeken naar ‘apple’; je krijgt dan van Html pagina’s terug die relevant zijn voor Apple-computers en voor appelbomen en cider. Een semantisch (XML-) web zou een zoektocht naar alleen een bedrijf genaamd ‘Apple’ mogelijk maken. Helaas is een vereiste dat alle webpagina’s naar behoren in XML zijn geformatteerd, en niet in Html zoals thans.
Bestaat er een kans dat het huidige web wordt vervangen door een semantisch web? Het trieste antwoord is: néén op korte en middellange termijn. Dus het web blijft een frustrerend verschijnsel, niet in staat om zijn beloften gestand te doen. Het is niet zozeer een kwestie van technologie meer, want er is een rijkdom aan kennis aanwezig omtrent XML en een mooi scala aan producten. Nog een geluk dat het web ook een ander probleem veroorzaakte vanaf het moment dat e-handelapplicaties werden toegevoegd aan het oorspronkelijke concept van informatieverspreiding. Om het mogelijk te maken dat incompatibele systemen toch samenwerken, was een formele methode nodig om boodschappen te formatteren. Dat is in feite een simpel voorbeeld van het ‘markeren’ van een document; weliswaar een kort voorbeeld, bijvoorbeeld een regel uit een rekening, maar toch voldoende om XML een gevestigde positie te geven, hoewel nog niet voor webpagina’s.< BR>
Martin Healey, pionier ontwikkeling van op Intel gebaseerde computers en c/s-architectuur. Directeur van een aantal it-bedrijven en professor aan de Universiteit van Wales.