Iedereen die regelmatig op het web surft, wordt er keer op keer mee geconfronteerd. Het grootste probleem is niet het vinden van informatie – daar kom je in om – maar het vinden van antwoorden op je vragen. In samenwerking met Stichting Cyber Ventures heeft Martijn Hoogeveen zes zoekrobots getest. Excite komt als winnaar uit de bus. Deze is het best in staat de naald in de hooiberg te vinden en levert de minste irrelevante verwijzingen.
Hoe krijg je als web-surfer snel en gemakkelijk alle informatie waar je naar op zoek bent (recall), zonder overladen te worden met allerhande rotzooi (precisie)?
Goede gidsen zijn er in allerlei soorten en maten. Yahoo, het Internet-equivalent van de yellow pages, is een bekend voorbeeld. Het telefoonboek en de Gouden Gids op het Net zijn meer traditionele, lokaal-georiënteerde voorbeelden. Gidsen en andere afgebakende databases zijn vooral nuttig als je vragen hebt die binnen het specifieke domein van de gids of database vallen. Vaak is het echter niet op voorhand duidelijk of er een gids of database bestaat die het desbetreffende gebied goed bestrijkt. In dergelijke gevallen biedt een zoekrobot, die in beginsel het gehele web indexeert en afzoekt, uitkomst. Maar dan moet het wel een goede zijn!
Juist deze vraag, ‘welke zoekrobots op het web zijn goed’ houdt de gemoederen bezig. De Vele klachten over vruchteloze zoekacties, onduidelijkheid over de domeinen die een zoekrobot bestrijkt enzovoort leveren eindeloos veel gespreksstof op voor websurfers. Daarom was het de hoogste tijd om enkele van de bekendste zoekrobots eens stevig aan de tand te voelen.
De beste zoekrobots
Mede op basis van de Zoekrobot-test 1996 (http://www.euronet.nl/users/martynho/w2-se.html) zijn zes zoekrobots geselecteerd: de vier beste uit de vorige test – Lycos, Excite, Webcrawler en Infoseek – plus Alta Vista en Ilse. Alta Vista is de veelbelovende zoekrobot van DEC. Ilse, waarin VNU recent heeft geïnvesteerd, bestrijkt specifiek het Nederlandse (.nl) domein. In deze test leggen we Ilse – met name bestemd voor specifiek Nederlandse vragen – naast de internationale zoekrobots. Yahoo is niet meegenomen omdat dat een gids is en niet een echte web-zoekrobot. Yahoo compenseert dit gemis overigens door een value added link naar Alta Vista.
Deze zoekrobots werden vergeleken op functionaliteit en onderworpen aan een benchmark met zoekacties. De kwalitatieve resultaten staan vermeld in figuur 1. De kwantitatieve eindscore en scores voor precisie en recall staan in de figuren 2, 3 en 4.
De kenmerken waarop de zoekrobots vergeleken zijn, worden toegelicht in het kader ‘Terminologie’. De vragen in de test zijn zo samengesteld dat er een gevarieerde mix is ontstaan die de zwakke en sterke punten van de zoekrobots blootlegt. Er zitten ‘eitjes’ tussen die iedere zoekrobot, hoe slecht ook, zo moet kunnen pellen, bijvoorbeeld: geef informatie over China of Michael Jackson. Er zitten ook lastige vragen bij uit de categorie ‘zoek een naald in een hooiberg’. Hierbij moet worden gezocht naar een onbekend persoon, zoals ‘Judith van den Hul’ of naar een historisch onderwerp, bijvoorbeeld de beurskrach van Wallstreet in 1929. Complexe vragen hebben veel trefwoorden. Een voorbeeld is PTT Telecom OR KPN AND Telia AND Ireland, waarvan de booleaanse logica veelal slechts bij benadering te vertalen is in de syntaxis van de zoekrobots.
Slim rangorde-algoritme
De test geeft interessante uitkomsten. In het algemeen is de zoekfunctionaliteit van de zoekrobots behoorlijk eenvoudig. Dat sluit goed aan op de behoeften van het merendeel van de web-surfers. Toch zou de gevorderde gebruiker gebaat zijn bij een gestandaardiseerde, booleaanse syntaxis, om meer grip te krijgen op de zoekresultaten. Alleen Alta Vista komt hierin tegemoet.
Excite is de onbetwiste nummer 1. Vorig jaar moest Excite Lycos nog met een neuslengte voor laten gaan. Excite behaalt nu de hoogste waarderingen voor precisie (70 procent) en voor recall (100 procent). Dit is vermoedelijk te danken aan het gebruik van concept-gebaseerd zoeken, een slim algoritme om de resultaten te rangordenen (ranking) en een goed geactualiseerde index-database. Verbetering van de precisie is mogelijk door een betere filtering van lange lijsten (van alle) trefwoorden, die geen samenhang vertonen. Dit probleem kan worden opgelost door het opnemen van functionaliteit voor proximity search.
Alta Vista is met veel bombarie door DEC op het web gezet. Dankzij deze marketing-inspanningen is hij één van de meest bezochte zoekrobots. Ook de value added link vanuit Yahoo heeft hiertoe bijgedragen (zoekvragen in Yahoo die niets opleveren worden automatisch aan Alta Vista gesteld). Alta Vista is de knapste zoekrobot vanwege de goede booleaanse zoeksyntaxis. Omdat hij nog niet goed is in concept-gebaseerd zoeken, moet hij Excite vóór laten gaan. Alta Vista valt dus zeker niet tegen; het zou me niet verbazen wanneer hij Excite in de nabije toekomst naar de kroon steekt.
Webcrawler is een simpele zoekrobot voor gopher en het web, die een redelijk zoekresultaat oplevert. Gopher is een verouderde grafische applicatie waarmee documenten in hiërarchische structuren verbonden worden. Hij is evenals vorig jaar een goede nummer 3. Deze zoekrobot lijdt vooral onder verouderde indexen op pagina’s van nieuwsredacties zoals CNN en Times, waarvan de inhoud al gewijzigd is. De index-databases worden dus niet vaak genoeg geactualiseerd. De auteursrechten op Webcrawler berusten bij America Online (AOL). Dat is één van de snelst groeiende aanbieders van online-informatiediensten die ook een ‘brug’ naar Internet slaat.
Lycos was in 1996 nog de beste zoekrobot van het web met een neuslengte voorsprong op Excite. Lycos is dit jaar uit de echte top verdwenen, doordat de actualiteit van zijn index-databases het laat afweten en er geen vooruitgang geboekt is in het maken van rangordes. Slim investeren in concept-gebaseerd zoeken en sneller updaten van de indexen zou grote vooruitgang moeten bieden. Anders moeten we het ergste gaan vrezen voor Lycos!
Infoseek is een aardige zoekrobot, een subtopper. Hij voldoet vooral wanneer je op zoek bent naar achtergrondartikelen over een bepaald onderwerp. Helaas scoort Infoseek slecht op het gebied van de actualiteit.
Open Text is een afrader; een matige zoekrobot (de slechtste in de zoekrobot-test 96) die een verwarrende hutspot van referenties naar ftp-, gopher- en webinformatie oplevert. (Ftp staat voor file transfer protocol, een oud protocol voor het overdragen van informatie via Internet.) Om die reden is Open Text niet meer meegenomen in deze ’97-test.
Ilse , een relatieve nieuwkomer, richt zich specifiek op het Nederlandse domein. De zoekrobot is ontwikkeld aan de universiteit van Eindhoven en is deels eigendom van VNU. Concurrenten zijn Search NL en NL-URL. Ilse en de andere Nederlandse zoekrobots zijn nog niet volwassen genoeg om zich werkelijk te kunnen meten – ook voor specifiek Nederlandse vragen – met de internationale toppers. Als Ilse zijn webindex voor het Nederlandse (.nl) domein completer en actueler weet te maken, en zijn rangordening intelligenter wordt, zijn de vooruitzichten goed. Ilse komt nog te vaak terug met meerdere verwijzingen naar dezelfde inhoud. Naarmate meer mensen op het Net komen, zullen de zoekvragen steeds lokaler worden.
Dr Martijn Hoogeveen is senior adviseur strategie bij PTT Telecom. Hij heeft deze test uitgevoerd in samenwerking met Stichting Cyber Ventures.
http://www.euronet.nl/users/martynho/index.html
email: m.j.hoogeveen@ptt-telecom.unisource.nl
Literatuur
Zoekrobot Test 96. Informatie, januari 1996. http://www.euronet.nl/users/martynho/w2-se.html
Hoogeveen, M. J: The viability of multimedia retrieval systems for marketing and sales. Proefschrift TU Delft/KPN Research, Leidschendam, 1994.
Hoogeveen, M. J: Multimedia Marketing Systems. Lansa Publishing, Leidschendam, 1996
Testresultaten | ||||||
Lycos | Excite | Webcrawler | Infoseek | Alta Vista (DEC) | ILSE | |
Domein | Web | Web, Usenet | Web, Gopher | Web, Usenet, | Web, Usenet | .nl:Web, Email, Usenet, Ftp |
Helpfunctie | Voldoende | Goed | Voldoende | Voldoende | Goed | Voldoende |
Redundantie-check | Ja | Nee | Ja | Nee | Ja | Nee |
Booleaanse logica | Ja, beperkt (AND, OR) | Ja, beperkt | Ja, beperkt | Ja, beperkt | Ja | Ja, beperkt |
Concept-gebaseerd zoeken | Nee | Ja | Nee | Nee | Nee | Nee |
Ranking | Ja | Ja | Ja | Ja | Ja | Ja |
Proximity search | Nee | Nee | Ja | Ja | Ja | Nee |
Advanced search | Ja (lastig te vinden) | Nee | Nee | Nee | Ja | Nee |
Meertalige Thesaurus | Nee | Nee | Nee | Nee | Nee | Nee |
Natural Language Interface | Nee | Nee | Nee | Nee | Nee | Nee |
Terminologie
Precisie
In het algemeen: het percentage treffers dat relevant is. In deze test is steeds gekeken naar de eerste tien treffers, en is een gemiddelde genomen.
Recall
Opbrengst. In het algemeen is dit het percentage dat aangeeft in welke mate alle bestaande relevante documenten ook daadwerkelijk gevonden worden. Omdat er geen volledig inzicht is in de gigantische web-databases, is in deze test het aantal zoekacties genomen dat minimaal tot enig resultaat leidt.
Eindoordeel
Het eindoordeel (effectiviteit van de zoekrobot) is hier het produkt van precisie en recall.
Redundantie-check
Worden dubbele hits uit het zoekresultaat gefilterd?
Booleaanse logica
Kan een complexe, exacte zoekvraag geformuleerd worden door middel van booleaanse operatoren, zoals AND, OR en NOT?
Concept based search
Wordt op enige wijze rekening gehouden met de betekenis van zoektermen, de semantiek? Worden bijvoorbeeld synoniemen en gerelateerde termen meegenomen of niet?
Ranking
Worden hits in een ranglijst gepresenteerd in volgorde van de mate waarin een treffer aansluit op de termen in de zoekvraag?
Proximity search
Bestaat de mogelijkheid om aan te geven of zoektermen aansluitend of in elkaars nabijheid moeten voorkomen? (Bijvoorbeeld binnen één zin of één paragraaf: ‘adjacent’, ‘near’, ‘within one phrase’).
Advanced search
Bestaat de mogelijkheid om ervaren zoekers een geavanceerder zoekscherm te bieden, net als bij het klepje van videorecorders?
Meertalige thesaurus
Kun je taalonafhankelijk zoeken: worden zoektermen desgewenst vertaald?
Natural language interface
Kan er een gewone Engelse (of Nederlandse) zoekvraag worden ingevoerd in plaats van alleen losse zoektermen?
Voor verdere uitleg: zie Hoogeveen (1994,1996)
Verwijzingen | |
Zoekrobot | Http-adres |
Lycos | http://www.lycos.com/ |
Excite | http://www.excite.com/ |
Webcrawler | http://webcrawler.com/ |
Infoseek | http://www.infoseek.com/ |
Alta Vista (DEC) | http://altavista.digital.com/ |
Ilse | http://www.ilse.nl |
De ranglijst van Test 97
Excite schuift een plaats omhoog naar nummer 1. Ilse kan zich nog niet meten met de echte top, ook niet voor het .nl-domein.
1 | (2) | Excite |
2 | (-) | Alta Vista (DEC) |
3 | (3) | Webcrawler |
4 | (1) | Lycos |
4,5 | (-) | Ilse (.nl domein) |
5 | (4) | Infoseek |
– | (5) | Open Text |
( ) Notering Test 96