Zoekmachines doen wel hun best om het web beter te ontsluiten, maar kunnen de facto de aanwas van informatie niet bijhouden. Gericht naar informatie zoeken wordt steeds moeilijker. Een nieuwe generatie zoekmachines leert daarom de structuur van teksten te begrijpen om betere resultaten op te leveren, vaak door kennis op te bouwen van een specifiek gebied. Het Nederlandse project Phasar bouwt zo’n zoekmethode voor bio-informatici.
Zoeken in grote verzamelingen ongestructureerde teksten gebeurt traditioneel door trefwoorden in te tikken. Gebruikers leren om vooral waarde te hechten aan de eerste hits die dat oplevert, en modderen vervolgens met een woordje erbij en een woordje eraf om te komen tot een toplijst waar iets bruikbaars tussen zit.
Voor veel dagelijkse zoekvragen voldoet die methode, maar in werkelijkheid kan ze het groeitempo van het informatie-aanbod niet bijbenen. Zoekmachines leren nog maar beperkt bij, bijvoorbeeld door vervoegingen en synoniemen van woorden te herkennen, en via een zogeheten tag-cloud teksten te groeperen aan de hand van andere termen die in hetzelfde document voorkomen. Maar dat voldoet nauwelijks voor professionals, die meer zekerheid willen hebben dat zij alle gewenste informatie uit een dataverzameling halen.
"Zoeken met woordjes is uitontwikkeld", zegt Kees Koster, hoogleraar informatica aan de Radboud Universiteit in Nijmegen. "Wie, om een voorbeeld te geven, een patentendatabase doorzoekt om te achterhalen of een bepaald patent overlapt met andere patenten, neemt geen genoegen met een paar hits, maar wil zekerheid dat alle relevante teksten uit de zoekopdracht komen rollen."
Mozart
Koster is onderzoeksleider van Phasar/BioMeta (Phrase-based High Accuracy Search, Analysis and Retrieval of Metabolite data from Literature), een project dat tot doel heeft een intelligente zoekmachine te bouwen voor biomedische teksten. De bedoeling is echter dat de aanpak ook bruikbaar wordt voor andere toepassingen. Zo’n zoekmachine zal over specifieke informatie over het vakgebied moeten beschikken om nauwkeurig te zijn, maar het genereren van die informatie zou eigenlijk ook automatisch moeten plaatsvinden.
"Phasar hoort tot een nieuwe generatie van zoekmachines, die syntactische en sematische kennis gebruiken bij het verwerken van query’s", zegt Koster. "Met een tag-cloud kun je wel wat context-informatie boven halen, maar je mist bijvoorbeeld passieve werkwoordsconstructies. Als je syntactische informatie gebruikt, weet je veel meer over de relatie tussen de woorden in een zin. Je kunt daardoor de gebruiker ook gerichter helpen met informatie uit de index, als de eerste query niet het gewenste resultaat heeft opgeleverd."
In eerste instantie wil Koster dat gebruikers een werkwoord, subject en object kunnen opgeven en dat de zoekmachine dan kijkt in welke teksten die twee in dat onderlinge verband voorkomen. De huidige zoekmachines leveren op de zoekfrase ‘werd gecomponerd door Mozart’ alle teksten waarin die woorden al of niet in deze volgorde voorkomen, maar missen equivalenten als ‘toen componeerde Mozart’.
Om dat te voorkomen kun je zoeken op de afzonderlijke woorden ‘Mozart’ en ‘componeert’, maar dan komen ook teksten als ‘Beethoven componeert anders dan Mozart’ mee, waarin Mozart helemaal niet componeert. Grammaticale kennis van de nieuwe zoekmachine filtert die laatste eruit, omdat Mozart niet het subject is. Bovendien kan hij via de thesaurus signaleren dat Mozart opera’s, symfonieën en pianoconcerten componeerde, en de gebruiker vragen of hij soms op een van die drie veel voorkomende objecten nader wil zoeken. Het gebruik van passage retrieval (alleen de relevante zinnen worden getoond) en anaphora resolution (aanvullen van zinnen vanuit hun context) maakt zoeken makkelijker.
Termen
Twee dingen zijn nodig om zo’n zoekmachine toe te passen op een nieuw domein, aldus Koster: een parser voor de bedoelde taal (bijvoorbeeld SMS-nederlands) en een geschikte thesaurus. De parser verwerkt zowel de vragen als de teksten, analyseert hun syntaxis. De thesaurus onderhoudt een samenhangend web van termen, zodat de index weet welke termen voorkomen, hoe vaak en in welke context. Dat gaat dus veel verder dan de lineaire index van trefwoorden die hedendaagse zoekmachines opbouwen.
"We hebben inmiddels voor het engels parsers die 2400 woorden halen op een simpele laptop", zegt Koster. "De hitlijst die dat oplevert, houdt niet bij welke woorden in welk document voorkomen, maar welke woorden in welke zin in welk document. Dat is dus een veel grotere lijst, die je zult moeten comprimeren. Je zult moeten beslissen welke termen relevant zijn, hoe je de hitlijst structureert en hoe je het geheel comprimeert. Daarbij heb je verschillende graden van vrijheid en het vinden van het optimum valt niet mee. Het is een voortdurende uitruil van opslagruimte en snelheid. De beste aanpak hangt af van de toepassing."
De benodigde thesauri zijn niet verschrikkelijk ingewikkeld. Het zijn lijsten van termen, ingedeeld in domein-relevante categorieën. Koster: "We doen geen gooi naar de betekenis van termen, verwachten ook niet dat een zoekmachine in real time diepe logische inferenties kan halen uit teksten. We kijken puur naar de syntactische context waarin termen voorkomen."
Wat Koster in elk geval wil voorkomen is dat handmatige annotatie van teksten nodig is. In sommige vakgebieden voert men metadata over documenten in om de doorzoekbaarheid te vergroten, maar dat is niet vol te houden naarmate de informatie-explosie aanhoudt.
Zee
Dat biomedische teksten het onderwerp zijn van de proef, is geen toeval, omdat de literatuur op dit vakgebied voor de beoefenaars zo goed als onoverzichtelijk is geworden. Wie wil weten of over een bepaald onderwerp gepubliceerd is, moet waden door een zee van momenteel zeventien miljoen wetenschappelijke artikelen.
Bovendien geldt de bio-informatica op zoekgebied als vooruitstrevend. Er wordt daar al langer gewerkt aan textmining, gebruik makend van parsers en thesauri, maar dan alleen voor abstracts. "Omdat abstracts korte teksten zijn, kun je er vanuit gaan dat als je twee woorden aantreft, die ook wel iets met elkaar te maken zullen hebben", zegt Koster. Die aanpak werkt goed voor korte abstracts, maar voor langere documenten (complete artikelen) gaat ze niet meer op. Phasar moet een zoekmachine opleveren die langere teksten aankan. Koster hoopt dat een eerste versie volgend jaar al gereed kan zijn.
Andere toepassingsgebieden ziet hij genoeg. De genoemde patentzoektochten, bijvoorbeeld, maar ook de Nederlandse krantenarchieven. Er loopt een aantal projecten die tot doel hebben alle kranten van de afgelopen eeuwen digitaal toegankelijk te maken. Een woordjes-zoekmachine is hiervoor niet erg geschikt, vanwege veranderend woordgebruik, andere spellingswijzen en heel veel dubbel voorkomende persoonsnamen. Het maken van de nodige thesauri hiervoor zal vermoedelijk nog de nodige voeten in de aarde hebben.
Om de methode toepasbaar voor internet te maken, zullen allerlei thesauri nodig zijn – en compleet zullen die nooit worden. Voor de omvang van internet is Koster in elk geval niet bang. Google heeft zeventien miljard pagina’s geïndexeerd, duizend keer zoveel als de biomedische artikelenzee, die best behapbaar blijkt. Koster: "Dat we een klus van deze omvang aankunnen, geeft me het vertrouwen dat we de methode kunnen opschalen naar het hele internet. Ik ga er overigens van uit dat deze zoekmethode gewoon naast de woordjeszoekmethode zal komen. Die laatste zal voor doorsnee-gebruikers allicht blijven voldoen, maar dat er een sterkere methode naast moet komen, staat vast."
‘Dating’ voor experts
Niet iedere zoekbehoefte betreft informatie. Soms zijn mensen ook op zoek naar een ander. Op datingsites moeten zoekenden vaak uitgebreide profielen van zichzelf opstellen, die dan automatisch aan elkaar gematched worden. Zoiets kun je ook doen met experts op een bepaald vakgebied, die een collega zoeken om een vraag aan voor te leggen.
Advanced Networking heet de technologie waarmee onderzoekers sneller collega’s kunnen vinden die beschikken over specifieke kennis. Een grote database verzamelt profielen van wetenschappers aan de hand van hun publicaties. Een onderzoeker die op zoek is naar bepaalde kennis, voert een aantal trefwoorden in, die vervolgens langs de profielen gelegd worden. Het resultaat is een lijst met namen van collega’s die de onderzoeker allicht verder kunnen helpen met zijn kennisvraag.
De Technische Universiteit Delft heeft inmiddels ruim een jaar ervaring met een Advanced Network op het gebied van zelfhelende materialen, een relatief jonge discipline die in opmars is binnen verschillende vakgebieden, van betonbouw tot vliegtuigbouw. Juist door die spreiding over toepassingen stuiten onderzoekers soms op hetzelfde type problemen zonder dat zij dat van elkaar weten.
Hoewel het systeem nog in opbouw is, zijn de eerste resultaten al zichtbaar. Zo was een materiaalkundig onderzoeker bezig met een uit meerdere lagen bestaande coating. Bij een beschadiging van de eerste laag, zou de tweede laag door blootstelling aan de buitenwereld moeten veranderen en de beschadiging herstellen. De vraag was echter of zo’n zwellende tweede laag geen negatief effect heeft op de onbeschadigde delen van de eerste laag. Via het Advanced Network vond hij een collega die zich elders op de universiteit bezig hield met het simuleren van de onderlinge wisselwerking tussen verschillende materialen. Samen zoeken ze nu naar een antwoord op de vraag.