Hoe vind je als websurfer alle relevante informatie zonder overladen te worden met allerhande rotzooi. En kun je voor Nederlandstalige informatie wel terecht bij internationale zoekmachines zoals Hot Bot, Excite of Alta Vista? De eerste Nederlandstalige zoektest, uitgevoerd door Stichting Cyber Ventures in samenwerking met Computable, schept helderheid.
Het grootste probleem op het Web is niet het vinden van informatie – want daar kom je in om – maar het vinden van antwoorden op je vragen. In principe staan er twee mogelijkheden open: een gids of een zoekmachine. Goede gidsen zijn er in allerlei soorten en maten. Yahoo (http://www.yahoo.com), de meeste bekende webgids, is een bekend voorbeeld. Gidsen en andere afgebakende databases zijn vooral nuttig wanneer je vragen hebt die binnen het specifieke domein vallen van de gids of database. Echter, in veel situaties is het niet op voorhand duidelijk of er een gids of database bestaat, die het desbetreffende onderwerp goed bestrijkt. Dan biedt een zoekmachine uitkomst, die in beginsel het gehele Web indexeert en afzoekt. Maar dan moet het wel een goede zijn! En laten we eerlijk zijn: perfecte zoekmachines bestaan niet. Dat is ook heel logisch, want het Web is geenszins een perfecte database.Aangezien het Nederlandse Internetdomein volwassen begint te worden en circa 14 procent van de Nederlanders thuis een Internet-aansluiting heeft (volgens een recent onderzoek van Inter/View NRC, 21 maart 1998), wordt het tijd om een paar van de bekendste zoekmachines nog eens stevig aan de tand te voelen. Aan de hand van Nederlandstalige vragen wel te verstaan. Mede op basis van de Zoektest ’97 (Computable, 20 december 1996) zijn acht zoekmachines geselecteerd. Om te beginnen de vijf internationale toppers – Excite, Alta Vista, Webcrawler, Lycos en Infoseek – uit de vorige test, aangevuld met Hot Bot die terecht door lezers van dit blad werd aangeraden. Omdat het in deze test uitsluitend om het Nederlandse domein gaat, is naast Ilse – die vorige jaar in de internationale test nog voor spek-en-bonen meedeed – ook Zoek.nl meegenomen. De selectie van Nederlandse zoekmachines in deze test is echter beperkt gehouden, omdat de kwaliteit van deze zoekmachines niet altijd even hoog is, zoals ook uit deze test blijkt. Bij een volgende test zal opnieuw gekeken moeten worden of er Nederlandse zoekmachines zijn die zich op eigen terrein kunnen meten met hun internationale collega’s.
De test
Hoe ziet de test eruit? Er is een kwantitatief deel en een kwalitatief deel dat niet meetelt voor de eindscore. Voor het kwalitatieve deel is een vergelijking gemaakt van de kenmerken van de geselecteerde zoekmachines (figuur 1). Voor het kwantitatieve resultaat is ieder van deze zoekmachines onderworpen aan een gevarieerde verzameling zoekacties. De kwantitatieve eindscore, en scores voor precisie en recall, staan in de figuren 2, 3 en 4. De vragen in de test zijn zo samengesteld dat er een gevarieerde mix ontstaat, die de zwakke en sterke punten van de zoekmachines blootlegt. Er zitten ronduit eitjes tussen, die iedere zoekmachine – hoe slecht ook – zo moet kunnen pellen (geef iets over ‘Roel Pieper’, geef ‘AEX koersinformatie’ of wie is ‘hoofdredacteur Computable’). Er zitten lastige vragen tussen naar naalden in de hooiberg (zoeken op een onbekend persoon, bijvoorbeeld ‘Judith van den Hul’, een ‘foto’ van ‘Koot & Bie’ of een historisch onderwerp, zoals het ‘kabinet Den Uyl’). En er zitten complexe vragen tussen met veel trefwoorden, waarvan de booleaanse logica – behalve bij Alta Vista – slechts bij benadering te vertalen is in de syntaxis van de zoekmachines.
De test levert interessante uitkomsten op. In het algemeen is de zoekfunctionaliteit van de zoekmachines behoorlijk eenvoudig, en is er de afgelopen tijd weinig veranderd in de zoekinterfaces. De eenvoud van de zoekinterface sluit goed aan bij de behoeften van het merendeel van de websurfers. Toch zou ik een gestandaardiseerde, booleaanse syntaxis waarderen voor gevorderde gebruikers, om meer grip te krijgen op de zoekresultaten.
Steeds meer internationale zoekmachines bieden een Nederlandse variant; http://nl.excite.com is zo’n voorbeeld. Er zijn, vergeleken met een jaar terug, nog een paar andere kleine innovaties te constateren. De meeste zoekmachines filteren tegenwoordig pagina’s van ‘valsspelers’ weg die hopen door steeds dezelfde trefwoorden bovenin hun document te herhalen hoog te scoren in het zoekresultaat. Hierdoor neemt de vervuiling van het zoekresultaat af. Verder slagen de zoekmachines er al iets beter in om verouderde links te verwijderen. Tenslotte wordt er aan de gebruiker meer keuze geboden om zijn zoekresultaat te beperken. Bijvoorbeeld door, zoals Hot Bot dat doet, tijd als dimensie in de zoekopdracht mee te geven. Wanneer je op zoek bent naar nieuwtjes is het handig om het zoekresultaat in te perken tot documenten die niet ouder zijn dan een week.
De uitkomsten
Nu een bespreking van de uitkomsten (zie kader voor uitleg termen).
1 | Infoseek (http://www.infoseek.com) is de nummer 1 voor deze Nederlandse zoektest. Infoseek is een uitstekende zoekmachine geworden, die internationaal vooral aardig is wanneer je op zoek bent naar achtergrondartikelen over een bepaald onderwerp. Zij dankt haar uitstekende eindscore vooral aan de verbeterde precisie. Blijkbaar hebben de programmeurs van Infoseek het ranglijstalgoritme beduidend slimmer gemaakt. Het testresultaat zou nog verder verbeteren wanneer de index van de Nederlandse sites completer zou worden en er een scheiding te maken valt tussen zoeken op Nederlandse en internationale sites. | |
2 | Hot Bot (http://www.hotbot.com) is een prima zoekmachine, met een uitstekende internationale index en een eenvoudige interface. Hot Bot is ontwikkeld door Inktomi. Het resultaat wordt iets gedrukt doordat Hot Bot, zoals wel meer internationale zoekmachines, geen onderscheid kan maken tussen Nederlandse en niet-Nederlandse sites. Een zoekinterface voor gevorderden ontbreekt. | |
3 | Excite (http://nl.excite.com/) is een uitstekende zoekmachine. De onbetwiste nummer 1 van vorig jaar scoort minder met betrekking tot de Nederlandstalige ‘content’ en zakt daardoor iets weg. Nederlandstalige informatie buiten het .nl-domein komt onvoldoende terug in het zoekresultaat. Ondanks deze handicap doet Excite het nog steeds goed, vermoedelijk door het gebruik van conceptgebaseerd-zoeken, een slim ranglijstalgoritme, en een goed geactualiseerde zoekdatabase. | |
4 | Alta Vista (http://altavista.digital.com) is een goede zoekmachine, ontwikkeld door de gelijknamige softwaredochter van DEC. Vanwege de Value Added Link vanuit Yahoo is het een van de meest gebruikte zoekmachines op het Web (zoekvragen in Yahoo die niets opleveren worden vervolgens automatisch aan Alta Vista gesteld). Deze zoekmachine scoort het beste op ‘recall’ (staat het minst vaak met de mond vol tanden) en is ook ‘de knapste’ zoekmachine, vanwege de goede booleaanse zoeksyntaxis. Omdat Alta Vista het conceptgebaseerd zoeken niet onder de knie heeft en het Nederlandse domein niet scheidt van het internationale, zakt hij af naar de vierde plaats. Ten opzichte van vorig jaar is er niet zichtbaar iets verbeterd aan deze zoekmachine. | |
5 | Ilse (http://www.ilse.nl) is een relatieve nieuwkomer, ontwikkeld door voormalige studenten van de Hogeschool van Eindhoven en specifiek gericht op het Nederlandse domein. Ook voor de Nederlandstalige zoekvraag nog steeds geen echte topper: vooral goed in recht-toe-recht-aan-vragen maar niet goed in de meer verfijnde vragen en het zoeken naar een naald-in-de-hooiberg. | |
6 | Zoek (http://www.zoek.nl) is ook een redelijk jonge zoekmachine die zich puur op het Nederlandse Web richt. De helpfunctie is nog onvoldoende, de benaming van opties in het zoekscherm is ronduit verwarrend, en de functionaliteit is primitief: geen afdoende check op redundantie, geen mogelijkheid voor een booleaanse zoekopdracht en geen zoekinterface voor gevorderden. De resultaten van Zoek kunnen sterk verbeteren wanneer de index voor het Nederlandstalige Web completer gemaakt wordt en er meer aandacht aan de zoekinterface besteed wordt. | |
7 | Lycos (http://www.lycos.nl/), die in Europa samenwerkt met het Duitse mediaconcern Bertelsmann, was in de Zoektest 96 nog met een neuslengte voorsprong op de concurrentie de ‘beste zoekmachine van het Web’. Lycos is dit jaar weer verder weggezakt, vooral doordat de volledigheid en de actualiteit van zijn Nederlandse zoekindex het laat afweten. Slim investeren in conceptgebaseerd zoeken en sneller updaten van de indexen zou grote vooruitgang moeten bieden. Anders moeten we het ergste gaan vrezen voor Lycos, want ook een goede naam in zoekland is aan erosie onderhevig. | |
8 | Webcrawler (http://webcrawler.com) is een simpele zoekmachine voor gopher en het Web, die een redelijk zoekresultaat oplevert. (Gopher is een verouderde grafische applicatie waarmee documenten in hiërarchische structuren verbonden worden.) De zoekmachine is nu finaal weggezakt uit de top 5. Webcrawler lijdt vooral onder een verouderde en incomplete zoekindex voor het Nederlandse domein. |
Zelfs de beste zoekmachines zijn uiteindelijk maar matig: een effectiviteit van 50 tot 60 procent. Al zullen er kleine stappen vooruit worden gezet, dan nog moeten we geen wonderen verwachten in de nabije toekomst. De aanraders uit deze test (meer dan 50 procent effectief) zijn Infoseek, Hot Bot, Excite en Alta Vista. De scores liggen dicht bij elkaar. De echte afraders voor de Nederlandstalige zoekvraag zijn Webcrawler (50 procent precisie) en Lycos (46 procent ‘recall’). De zoekresultaten van de zoekmachines op dezelfde vraag verschillen zoveel dat het aan te raden is om, bij een serieuze informatievraag, meerdere toppers te bestoken met dezelfde trefwoorden. De resultaten zijn dan vaak verrassend. Tenslotte is het duidelijk dat er aan de Nederlandse zoekmachines nog het een en ander moet gebeuren. Nederlandse kandidaten voor de volgende test – zoals de recent opgezette Vindex.nl (http://www.vindex.nl ) – worden bij deze opgeroepen zich serieus voor te bereiden op het komende titelgevecht.
Infoseek | Hot Bot | Excite | Alta-Vista | Ilse | Zoek.nl | Lycos | Webcrawler | |
Ranglijst Test 98 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
Ranglijst Test 97 | 6 | – | 1 | 2 | 5 | – | 4 | 3 |
Ranglijst Test 96 | 4 | – | 2 | – | – | – | 1 | 3 |
Figuur 4. Infoseek maakt een verrassende comeback. Nederlandse zoekmachines behoren ook op eigen terrein (met Nederlandstalige zoekvragen) slechts tot de middenmoot.
Lycos | Excite | Webcrawler | Infoseek | Alta Vista | Hot Bot | Ilse | Zoek.nl | |
Domein | Web (Benelux), geluiden, beelden | Web (wereld, Europa, Nederland), usenet | Web, gopher | Web, usenet, email | Web, usenet | Web, usenet | Nederlands web en email | Web |
Helpfunctie | Voldoende | Goed | Voldoende | Voldoende | Goed | Voldoende | Voldoende | Onvoldoende |
Redundantie check | Onvoldoende | Onvoldoende | Ja | Ja | Ja | Ja | Onvoldoende | Onvoldoende |
Booleaanse logica | Beperkt (AND of OR) | Beperkt | Beperkt | Beperkt | Ja | Ja | Beperkt | Nee |
Concept gebaseerd zoeken | Nee | Ja | Nee | Nee | Nee | Nee | Nee | Nee |
Ranglijst | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja |
Proximity search | Nee | Nee | Ja | Ja | Ja | Nee | Nee | Ja |
Zoeken voor gevorderden | Ja | Nee | Nee | Nee | Ja | Nee | Beperkt | Nee |
Meertalige Thesaurus | Nee | Nee | Nee | Nee | Nee | Nee | Nee | Nee |
Natuurlijke-taal interface | Nee | Nee | Ja | Nee | Nee | Nee | Nee | Nee |
Tijdslimiet | Nee | Nee | Nee | Nee | Nee | Ja | Nee | Nee |
Figuur 5. Uitkomsten van de test van de zoekmachines: van jaar tot jaar verandert de zichtbare functionaliteit nauwelijks.
Enige termen uitgelegd
Precisie. In het algemeen: het percentage treffers dat relevant is. In deze test is steeds gekeken naar de eerste tien treffers voor een steekproef van zoekvragen, en is een gemiddelde genomen.
Recall, opbrengst. In het algemeen het percentage dat aangeeft in welke mate alle bestaande, relevante documenten ook daadwerkelijk gevonden worden. Omdat er geen volledig inzicht is in de gigantische web-databases, is in deze test een gecontroleerde steekproef genomen.
Eindoordeel. Het eindoordeel (effectiviteit van de zoekmachine) is hier het product van precisie en recall.
Redundantiecheck. Worden dubbele hits uit het zoekresultaat gefilterd?
Booleaanse logica. Kan een complexe, exacte zoekvraag geformuleerd worden, middels booleaanse operatoren zoals AND, OR, NOT, enzovoort?
Conceptgebaseerd zoeken. Wordt op enige wijze rekening gehouden met de betekenis van zoektermen, de semantiek? Worden bijvoorbeeld synoniemen en gerelateerde termen meegenomen of niet?
Ranglijst. Worden hits in een ranglijst gepresenteerd in volgorde van de mate waarin een treffer aansluit op de termen in de zoekvraag?
Proximity search. Bestaat de mogelijkheid om aan te geven of zoektermen aansluitend, of in elkaars nabijheid moeten voorkomen, bijvoorbeeld binnen één zin of één paragraaf?; bijvoorbeeld met ADJACENT, NEAR, WITHIN ONE PHRASE).
Geavanceerd zoeken. Is er net als met het klepje bij videorecorders de mogelijkheid om ervaren zoekers een meer geavanceerd zoekscherm te bieden?
Meertalige thesaurus. Is er de mogelijkheid om taalonafhankelijk te zoeken? Dat wil zeggen, worden zoektermen desgewenst vertaald?
Natuurlijke-taal-interface. Kan er een gewone Engelse (of Nederlandse) zoekvraag ingevoerd worden in plaats van zoektermen in een gekunstelde, kreupel-Engelse zoeksyntaxis?
Tijdslimitering. Is het zoekresultaat te begrenzen door een tijdsperiode aan te geven? Bijvoorbeeld: alleen webpagina’s ouder dan een jaar en jonger dan twee jaar.
Voor verdere uitleg termen zie [1,2].
Dr. Martijn Hoogeveen (m.j.hoogeveen@hetnet.nl), columnist van Computable, heeft deze test uitgevoerd in samenwerking met Stichting Cyber Ventures (http://www.cyber-ventures.com).
LITERATUUR
1. Hoogeveen, M.J.: The Viability of Multimedia Retrieval Systems for Marketing and Sales. Proefschrift TU Delft/KPN Research, Leidschendam (1994)
2. Hoogeveen, M.J.: Multimedia Marketing Systems, Lansa Publishing, Leidschendam (1996)