Jaarlijks worden de bekendste ‘zoekmachines’ van het Web aan een test onderworpen. Uit de recentste blijkt dat Altavista de ‘knapste’ is op het Nederlandstalige Internet en dat de Nederlandse zoekmachines terrein winnen.
De internationale zoekmachines Altavista en Hotbot handhaven zich opnieuw in de top. De Nederlandstalige zoekmachines, met name Search.nl en Track, rukken op. Infoseek, de nummer 1 van 1998, doet het in deze verzwaarde test minder goed en glijdt weg. Lycos en Zoek.nl zijn vanwege de slechte kwaliteit van hun indexen af te raden (zie tabel 1).
Het grootste probleem op het explosief uitdijende Web is nog steeds dat het lastig is om volledig en trefzeker antwoorden op je vragen te vinden. In principe staan er twee mogelijkheden open: een gids of een zoekmachine. Goede gidsen zijn er in allerlei soorten en maten. De Yahoo (http://www.yahoo.com), de meeste bekende webgids, is een heel bekend voorbeeld. Gidsen en andere afgebakende databases zijn vooral nuttig wanneer je vragen hebt die binnen het specifieke domein vallen van de gids of database. Voor algemene vragen zijn web-zoekmachines het meest geschikt. Maar dan moet het wel een goede zijn! En laten we eerlijk zijn: perfecte zoekmachines bestaan niet. Dat is ook heel logisch, want het Web is een verre van perfecte database.
Aangezien het Nederlandse internetdomein volwassen begint te worden en circa 25 procent van de Nederlanders een internetaansluiting heeft, wordt het tijd om opnieuw een paar van de meest bekende zoekmachines nog eens stevig aan de tand te voelen – aan de hand van Nederlandstalige vragen. Mede op basis van de Zoektest ’98 zijn tien zoekmachines geselecteerd. Om te beginnen de vijf internationale toppers uit de vorige test: Excite, Altavista, Hotbot, Lycos en Infoseek. Webcrawler is niet meer meegenomen, aangezien deze al jaren in mijn zoektesten slecht scoort, en zeker op de Nederlandstalige zoekvragen. Omdat het in deze test uitsluitend om het Nederlandse domein gaat zijn naast de Nederlandse zoekmachines Ilse en Zoek.nl, die vorig jaar al meededen, nu ook Search.nl, Vindex en Track meegenomen. Deze selectie is tot stand gekomen op basis van de top 10 zoeksites uit de maandelijkse bereiksmeting van Multiscope (zie tabel 2). Niet meegenomen zijn http://www.startpagina.nl en http://www.goudengids.nl omdat het hier geen webzoekmachines betreft.
Kwantitatief en kwalitatief
Hoe ziet de test eruit? Er is een kwantitatief deel en een kwalitatief deel, dat niet meetelt voor de eindscore, maar wel erg belangrijk is voor de subjectieve kwaliteit of het gebruiksgemak van een zoekmachine. Voor het kwalitatieve deel is een vergelijking gemaakt van de kenmerken van de geselecteerde zoekmachines (zie tabel 3). Voor het kwantitatieve resultaat is ieder van deze zoekmachines onderworpen aan dezelfde gevarieerde verzameling zoekacties.
Figuur 1. De eindscore (effectiviteit): Altavista en Hotbot blijven de toppers. Search.nl best scorende Nederlandse zoekmachine, doet het goed. (Let op: deze eindscore is een gekunstelde poging om tot 1 maat te komen waarin precision en ‘recall’ gelijkelijk zijn meegewogen). Hotbot, Altavista en Track zijn nummers 1,2 en 3 qua precisie, d.w.z. het zoekresultaat bevat minder vaak irrelevante documenten of niet-werkende links. Lycos en Zoek.nl scoren onacceptabel slecht. AltaVista en Search.nl leveren de beste ‘recall’, d.w.z. zijn het best in staat de naald in de Nederlandse web-hooiberg te vinden. Excite en Lycos scoren duidelijk onvoldoende. |
De kwantitatieve eindscore, en scores voor precisie en recall staan in de figuren 1, 2 en 3. De vragen in de test zijn zo samengesteld dat er een gevarieerde mix ontstaat die de zwakke en sterke punten van de zoekmachines blootlegt. Er zitten ronduit eitjes tussen die iedere zoekmachine – hoe slecht ook – zoek de aanbieder van ‘gratis Internet Wish’). Er zitten lastige vragen tussen naar naalden in de hooiberg (Zoeken op een onbekend persoon, bijvoorbeeld ‘Andre Varma’, of een historisch onderwerp zoals ons ‘koloniaal verleden’ in ‘Zuid-Afrika’). En er zitten vragen naar actuele onderwerpen tussen zoals naar initiatieven met betrekking tot een ‘internetuniversiteit’ of het recente ‘boek’ over ‘Monica Lewinsky’. Dit jaar zijn er meer lastige vragen opgenomen, waardoor over het algemeen de scores lager uitvallen.
Speuren tamelijk simpel
Altavista is dus Nummer 1 geworden bij een Nederlandstalige zoekvraag. De test levert interessante uitkomsten op. In het algemeen is de zoekfunctionaliteit van de zoekmachines behoorlijk eenvoudig, en is er de afgelopen tijd vrij weinig verandert in de zoekinterfaces. De eenvoud van de zoekinterface sluit goed aan bij de behoeften van het merendeel van de websurfers. Toch zou ik voor gevorderde gebruikers een gestandaardiseerde – booleaanse – syntax waarderen, om als zoeker meer grip te krijgen op de zoekresultaten. Alleen AltaVista komt hieraan in ruime mate tegemoet.
Steeds meer internationale zoekmachines bieden een Nederlandse variant. Voorbeelden zijn: http://nl.excite.com en Lycos.nl. Er zijn, vergeleken met een jaar terug, nog een paar andere kleine innovaties te constateren. De meeste zoekmachines filteren tegenwoordig pagina’s van ‘valsspelers’ weg die hopen door steeds dezelfde trefwoorden bovenin hun document te herhalen hoog te scoren in het zoekresultaat. Hierdoor neemt de vervuiling van het zoekresultaat af. De ‘recall’ resultaten worden over het algemeen gedrukt doordat de zoekindexen voor het Nederlandstalige Web verre van compleet zijn. Vaak komt dit voort uit het ontbreken van investeringen in voldoende servercapaciteit. Daarnaast wordt de precisie over het algemeen onnodig gedrukt door het niet tijdig verwijderen van verouderde links. Steeds meer zoekmachines bieden mogelijkheden voor het multimediaal zoeken naar plaatjes of audiofragmenten en het filteren op actualiteit.
De uitkomsten
Nu een bespreking van de uitkomsten (voor uitleg, zie het kader ‘enige termen uitgelegd‘):
1 | Altavista (http://www.altavista.com) is dit jaar de beste zoekmachine, ontwikkeld door de gelijknamige softwaredochter van DEC, inmiddels onderdeel van Compaq. Vanwege de Value Added Link vanuit Yahoo is het een van de meest gebruikte zoekmachines op het Web (zoekvragen in Yahoo die niets opleveren worden vervolgens automatisch aan AltaVista gesteld). AltaVista scoort ieder jaar bij de test het beste op ‘recall’ (staat het minst vaak met de mond vol tanden) – dit jaar is hier geen uitzondering op, zij het op gelijke hoogte met Search.nl. Altavista is verder ook ‘de knapste’ zoekmachine, vanwege de goede booleaanse zoeksyntax. Ten opzichte van vorig jaar is er niet zichtbaar iets verbeterd aan deze zoekmachine. |
2 | Hotbot (http://www.hotbot.com) is een prima zoekmachine, met een uitstekende internationale index en een eenvoudige interface. Hotbot is dit jaar de beste wat betreft precisie. Hotbot is ontwikkeld door Inktomi. Een zoekinterface voor gevorderden ontbreekt nog steeds. Zoeken op actualiteit is wel mogelijk. |
3 | Search.nl http://www.search.nl” van Nexial Systems en xxLink, is eervol derde, maar deelt qua ‘recall’ de toppositie met Altavista. De geringe precisie drukt het eindresultaat. Door het toevoegen van booleaanse en ‘proximity’-operatoren moet de precisie te verbeteren zijn. Een conceptgebaseerde index biedt op dit punt ook mogelijkheden tot verbetering. Irritant is het ontbreken van een redundantiecheck: het zoekresultaat wordt onnodig vervuild door meermalen dezelfde pagina aan te bieden. Daar zit een gebruiker niet op te wachten. |
4 | Track (http://www.track.nl), in de lucht gebracht door Netcast bv, onderdeel van Wegener, doet het net als Search.nl verrassend goed in de test. Het ontbreken van een redundantiecheck lijkt een veelvoorkomend euvel bij nieuwkomers, zo ook hier. Het gaat om een eenvoudige, aan het oranjegevoel appellerende, zoekinterface. |
5 | Infoseek (http://www.infoseek.com) was nr. 1 voor deze Nederlandse zoektest in 1998! Infoseek is nog steeds een uitstekende zoekmachine, die internationaal vooral aardig is wanneer je op zoek bent naar achtergrondartikelen over een bepaald onderwerp. Op vorige tests dankte Infoseek zijn uitstekende eindscore steevast aan een goede score op precisie. Het testresultaat zou weer verbeteren wanneer de index van Nederlandse sites completer zou worden. |
6 | Vindex (http://www.vindex.nl) is een relatief jonge zoekmachine, opgezet door IDG. Het biedt een simpele interface zonder toeters en bellen: geen booleaanse operatoren voor het verfijnen van de zoekvraag, geen historisch geheugen, en geen ontdubbeling van het zoekresultaat. |
7/8 | Excite (http://nl.excite.com/) is een uitstekende internationale zoekmachine als de onbetwiste nummer 1 van twee jaar terug in mijn Engelstalige test, maar heeft aan de Nederlandstalige content een broertje dood en zakt daardoor opnieuw behoorlijk weg. Nederlandstalige informatie buiten het .nl-domein komt onvoldoende terug in het zoekresultaat. Voor Engelstalige zoekvragen is Excite nog steeds een aanrader vanwege het vermogen tot conceptgebaseerd-zoeken, een slim ranglijst-algoritme, en een goed geactualiseerde zoekdatabase. |
7/8 | Ilse (http://www.ilse.nl) was de eerste Nederlandse zoekmachine en heeft dit kunnen omzetten in een toppositie qua bezoekersaantallen, gezien ook het maandbereik van meer dan 50 procent (Multiscope, februari 1999). Ilse is ontwikkeld door voormalige studenten van de Hogeschool van Eindhoven en concentreert zich op het Nederlandstalige domein, waarbij ilse.be in samenwerking met Planet België Vlaanderen bestrijkt. Wanneer de index een groter deel van het Nederlandse Web zou bevatten, en verouderde links vaker weggefilterd zouden worden, zou de score duidelijk verbeteren. |
9 | Lycos (http://www.lycos.nl/), dat in Europa samenwerkt met het Duitse mediaconcern Bertelsmann, zakt ieder jaar verder weg. Dit jaar opnieuw, vooral vanwege de onvolledigheid en geringe actualiteit van de Nederlandse zoekindex. Met name dankzij de referrals vanuit Lycos.com en actieve marketing in Nederland is het maandbereik gestegen tot ruim 19 procent (Multiscope, februari 1999). Er zal toch iets moeten gebeuren aan de kwaliteit van de zoekmachine, anders zullen gebruikers toch eieren voor hun geld kiezen. |
10 | Zoek.nl (http://www.zoek.nl/) is een jonge zoekmachine die zich op het Nederlandse Web richt. De functionaliteit is beperkt: er is geen afdoende check op redundantie, geen mogelijkheid voor een booleaanse zoekopdracht en nog niet echt een zoekinterface voor gevorderden. De resultaten van Zoek.nl kunnen sterk verbeteren wanneer de index voor het Nederlandstalige Web completer gemaakt en het resultaat ontdubbeld wordt. |
Tabel 2: Top 10 van Nederlandse zoeksites op basis van de bereiksmetingen van Multiscope over februari 1999. De cijfers geven de percentages aan van alle Nederlandse Internet-gebruikers die betreffende pagina die maand minimaal één keer bezocht hebben. (Met dank aan John Kivit). |
Geen wonderen verwachten
Tot slot enige algemene conclusies. Ten eerste, zelfs de beste zoekmachines zijn uiteindelijk maar matig, 35 procent effectief. Al zullen er kleine stappen vooruit worden gezet, dan nog moeten we geen wonderen verwachten in de nabije toekomst.
De aanraders uit deze test zijn Altavista en Hotbot op basis van precisie, en Search.nl en nogmaals Altavista op basis van ‘recall’. De echte afraders voor de Nederlandstalige zoekvraag zijn Lycos (38 procent ‘recall’, 26 procent precisie) en Zoek.nl (22 procent precisie). De zoekresultaten van de zoekmachines op dezelfde vraag verschillen zoveel dat het aan te raden is om, bij een serieuze informatievraag, meerdere toppers te bestoken met dezelfde trefwoorden. De resultaten zijn dan vaak aanvullend. Tenslotte is het te hopen dat volgend jaar de Nederlandse specialisten op eigen terrein echt kunnen meedingen met de Amerikaanse generalisten om de eerste plaats. Het investeren in een completere index en het sneller uitfilteren van verouderde websites zou voor een behoorlijke aantal Nederlandstalige zoekmachines al een grote stap voorwaarts betekenen.
Prof. Dr. Martijn Hoogeveen, hoogleraar multimedia aan de Open Universiteit
(martijn@cyber-ventures.com),
Lycos | Excite | Infoseek | Altavista | Hotbot | Ilse | Zoek.nl | Vindex | Search | Track | |
Domein | Web, geluiden, plaatjes, Benelux | Web (wereld/ Europa/ Nederland), Usenet | Web, Usenet, E-mail, geografie | Web, Usenet | Web, Usenet | .nl:web, E-mail | nl:web | nl:web | nl:web | nl:web |
Redundantie-check | Nee | Ja | Ja | Ja | Ja | Ja | Nee | Nee | Nee | Nee |
Booleaanse logica | Beperkt (AND of OR) | Beperkt | Beperkt | Ja | Ja | Beperkt | Nee | Ja | Nee | Ja |
Concept-gebaseerd zoeken | Nee | Ja | Nee | Nee | Nee | Nee | Nee | Nee | Nee | Nee |
Ranglijst | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja |
Proximity search | Ja | Nee | Ja | Ja | Nee | Ja | Ja | Nee | Nee | Nee |
Zoekinterface voor gevorderden | Ja | Ja | Ja | Ja | Nee | Beperkt | Nee | Nee | Nee | Ja |
Meertalige Thesaurus | Nee | Nee | Nee | Nee | Nee | Nee | Nee | Nee | Nee | Nee |
Natuurlijke-taal-interface | Nee | Nee | Nee | Nee | Nee | Nee | Nee | Nee | Nee | Nee |
Tijdslimitering | Nee | Nee | Nee | Ja? | Ja | Beperkt | Nee | Nee | Nee | Nee |
Tabel 3. Uitkomsten-vergelijking en test van de zoekmachines: er zit van jaar tot jaar nauwelijks verandering in de zichtbare functionaliteit. Alleen tijdslimitering – zoeken op actualiteit – is een nieuwigheidje dat snel oprukt.
Enige termen uitgelegd
Precisie
In het algemeen: het percentage treffers dat relevant is. In deze test is steeds gekeken naar de eerste tien treffers voor een steekproef van zoekvragen, en is een gemiddelde genomen.
Recall
Opbrengst. In het algemeen het percentage dat aangeeft in welke mate alle bestaande, relevante documenten ook daadwerkelijk gevonden worden. Omdat er geen volledig inzicht is in de gigantische webdatabases is in deze test een gecontroleerde steekproef genomen.
Eindoordeel
Het eindoordeel (effectiviteit van de zoekmachine) is hier het product van precisie en ‘recall’. (Let op: deze eindscore is een gekunstelde poging om tot één maat te komen waarin precisie en recall gelijkelijk zijn meegewogen.)
Redundantiecheck
Worden dubbele hits uit het zoekresultaat gefilterd?
Booleaanse logica
Kan een complexe, exacte zoekvraag geformuleerd worden, middels booleaanse operatoren zoals AND, OR, NOT, enz.
Conceptgebaseerd zoeken
Wordt op enige wijze rekening gehouden met de betekenis van zoektermen, de semantiek? Worden bijvoorbeeld synoniemen en gerelateerde termen meegenomen of niet?
Ranglijst
Worden hits in een ranglijst gepresenteerd in volgorde van de mate waarin een treffer aansluit op de termen in de zoekvraag?
Proximity search
Bestaat de mogelijkheid om aan te geven of zoektermen aansluitend, of in elkaars nabijheid moeten voorkomen? (Bijvoorbeeld binnen één zin of één paragraaf; bijvoorbeeld ADJACENT, NEAR, WITHIN ONE PHRASE).
Geavanceerd zoeken
Is er net als met het klepje bij videorecorders de mogelijkheid om ervaren zoekers een meer geavanceerd zoekscherm te bieden?
Meertalige thesaurus
Bestaat de mogelijkheid om taalonafhankelijk te zoeken? Dat wil zeggen, worden zoektermen desgewenst vertaald?
Natuurlijke-taal-interface
Kan er een gewone Engelse (of Nederlandse) zoekvraag ingevoerd worden in plaats van zoektermen in een gekunstelde, kreupel-Engelse zoeksyntax?
Tijdslimitering
Is het zoekresultaat te begrenzen door een tijdsperiode aan te geven? Bijvoorbeeld: alleen webpagina’s ouder dan 1 jaar en jonger dan 2 jaar.
Deze test werd uitgevoerd in samenwerking met Stichting Cyber Ventures (http://www.cyber-ventures.com).