Spotlight, de zoektechnologie in Apple’s nieuwe versie van Mac OS X, codenaam Tiger, lijkt een serieuze concurrent voor wat Microsoft met Longhorn gaat bieden op zoekgebied. De basisprincipes komen overeen met die van andere zoektechnologieen voor de desktop, maar de toevoeging van een indexering op basis van XML belooft veel extra’s.
Tenzij je op Mars woont, kon je het de laatste maanden niet over het hoofd zien: Apple schopt wild om zich heen op de zakelijke markt. Oracle 10g werd gecertificeerd om op Mac OS X te draaien. Cisco karakteriseerde de XServe- en XRaid-hardware als een goedkoop en vooral snel inzetbaar alternatief voor concurrerende servertechnologieën. Gartner deed enkele positieve uitspraken over Apple. Door dat alles lijkt Steve Jobs’ fabriekje aardig op weg om een serieus alternatief te vormen voor de door Windows en Intel geregeerde wereld.
Om dat te benadrukken gaf Apple op zijn website een overzicht van de nieuwste versie van Mac OS X, codenaam Tiger, die ergens in het voorjaar op de markt komt. Tiger beschikt over een krachtige zoektechnologie, tot grote frustratie van Microsoft, dat de primeur voor Longhorn wil houden. Microsoft beschuldigde Apple in een interview prompt van plagiaat, maar de waarheid is dat Tigers Spotlight-technologie op geen enkele wijze vergelijkbaar is met wat Longhorn in petto moet hebben als Microsoft erin slaagt het besturingssysteem af te leveren met alle functionaliteit die het aanvankelijk heeft beloofd.
Longhorn
Zakelijke gebruikers blijven niet wachten tot Jobs en Gates hun zoekzaken op orde hebben. Zoektechnologie op zich is al lang geen nieuws meer, maar geïntegreerd in een besturingssysteem is het dat nog net wel. Van Longhorn weten we nog niet veel, maar een ding staat vast: Microsoft zal in 2006, wanneer het Longhorn vrijgeeft, het nieuwe bestandssysteem WinFS niet meeleveren. WinFS relateert bestanden niet langer rechtstreeks aan de sectoren op een harde schijf, maar is een soort database waarin verwijzingen naar die bestanden staan.
Met een database-achtige omgeving als WinFS kan je alle kanten op. Vooral voor zoeken kan een databasestructuur efficiënt zijn. Je hoeft immers geen eigenaardige trucs uit te halen om bestanden te indexeren; dat gebeurt automatisch. Ook voor de metadata zorgt de database zelf eigenlijk al. In theorie is zo’n database-gedreven bestandssysteem-zoektechnologie dus een goed idee, maar in de praktijk blijkt Microsoft problemen te hebben met het op poten zetten van het systeem zonder dat de prestaties eronder lijden.
Dat ligt anders bij Tiger, waar het bestandssysteem niet wijzigt (het blijft gewoon een Unix-variant), maar de Spotlight-technologie een extra service van het besturingssysteem wordt. Het is daarom interessant om Spotlight te vergelijken met concurrerende zoektechnologieën. Om dat te kunnen doen, moet je eerst weten hoe zoektechnologieën voor de desktop werken.
Beperkte benadering
Bij zoektechnologie voor de desktop is de keuze mager. Naast de beta-versie van Spotlight bestaat er een eveneens in beta-versie beschikbare technologie van Google. Google Desktop maakt gebruik van de Google-zoekrobot om op de computer bestanden te indexeren en later terug te vinden. Google’s benadering is voorlopig beperkt. Het systeem indexeert alleen Engelse bestanden, met een Engelstalige interface. Verder indexeert het mailberichten uit Outlook 2000, Outlook Express 5 en hoger, chats uit AOL 7, AOL Instant Messenger 5 en hoger, en webpagina’s uit Explorer 5 en hoger. Andere bestanden uit communicatieprogramma’s kan het niet aan. Wat tekstbestanden betreft is Google Desktop beperkt tot Office 2000 en latere documenten. Daarmee is de actieradius erg beperkt.
De zoekrobot werkt lokaal net als de grote broer op het web. Dit wil zeggen dat hij bestanden contextueel onderzoekt en met de contextuele metadata in de index opneemt. Google’s benadering laat daarmee op termijn wel toe dat bestanden worden teruggevonden door op zowel inhoud als bestandsgegevens te zoeken, en dat maakt voor de gebruiker veel verschil.
Discrepanties
Zoektechnologieen zijn gebaseerd op diverse concepten. Technologieën als Verity en Autonomy maken gebruik van Bayesiaanse statistiek om gecategoriseerde collecties van documenten op te bouwen. Als Autonomy een bestandsserver indexeert, worden in de index gegevens opgeslagen over de inhoud en betekenis van het document die gebaseerd zijn op (onder meer) het aantal keren dat een kernwoord erin voorkomt. De bepaling van het kernwoord gebeurt niet aan de hand van tellingen, maar op basis van de context van elk woord in relatie tot elk ander woord.
In het proces dat hieraan ten grondslag ligt, worden eerst alle stopwoorden (lidwoorden, voegwoorden en dergelijke) buiten beschouwing gelaten. Daarna wordt het kerndocument wat overblijft onderzocht op betekenisvolle verbanden. Die verbanden worden in het geval van technologieën als Verity en Autonomy gevonden met behulp van statistische algoritmes. Het eindresultaat van dit proces is de gegevens die in de index worden opgenomen.
Naast de inhoudsgegevens gebruiken deze zoektechnologieën altijd metadata: de auteursnaam, de datum van invoer en wijziging, de lokatie, het bestandsformaat enzovoort. Veel van de metadata waarmee rekening wordt gehouden, moet de auteur of de bestandsbeheerder invoeren. Sleutelwoorden en beschrijvingen zijn daarbij vaak van cruciaal belang om het document in de juiste categorie geïndexeerd te krijgen in de zoekmotor.
Dat anno 2005 wat vroeger een documentalist heette nog steeds deze metadata moet invoeren komt doordat Bayesiaanse statistiek wel heel krachtig is, maar bij erg grote collecties van documenten met zeer uiteenlopende onderwerpen het aantal fouten snel toeneemt. Bij dergelijke collecties komt er dan een moment waarop de resultatenlijst onaanvaardbaar grote discrepanties gaat vertonen met de reële collectie. De metadata vangt die fouten voor een groot deel op, zodat iedereen toch min of meer tevreden blijft over de nauwkeurigheid van de resultaten.
Multimedia
Een andere benadering is de linguïstische, waarvan het Belgische Lernout & Hauspie ooit de vaandeldrager was. Linguïstische algoritmes zijn nauwkeuriger in het leggen van contextuele verbanden en maken minder fouten bij grote, willekeurige collecties dan statistische algoritmes. Er blijft altijd een foutmarge over; de heilige graal van het kunnen vinden van documenten alleen op basis van hun inhoud lijkt na het L&H-dêbacle verder verwijderd dan ooit. De technologie is overigens in de VS niet bijster populair, wellicht omdat de militaire implicaties groot zijn.
Metadata zijn dus onvervangbaar als je grote collecties documenten goed wilt indexeren. Het belang van metadata groeit overigens alleen maar. Tekst kun je nog enigszins op inhoud terugvinden, maar bij foto’s, video’s, en geluidsbestanden ligt dat anders. Voor het indexeren en terugvinden van multimedia-bestanden ben je altijd aangewezen op metadata die een documentalist aan het bestand hangt. Meestal gebeurt dit via catalogussoftware. Voor beeldmateriaal bestaat er bijvoorbeeld Canto Cumulus, een in een client-server-versie verkrijgbare multimedia-catalogus waarin gebruikers zelf kernwoorden en beschrijvingen toevoegen aan het beeld dat ze opslaan.
Kortom, metadata blijft cruciaal, ook al kan op inhoud gezocht worden. In hoeverre Google efficiënt van metadata gebruik maakt is niet bekend. De traditionele zoekoplossingen als Verity en Autonomy kunnen ermee overweg, hebben het zelfs nodig, maar innovatieve oplossingen als Google gaan meestal uit van hun bestaande succes, in dit geval het web.
Tegenvaller
Op het web kan Google gebruik maken van een aantal parameters die niet tot het document zelf behoren. PageRank is daarvan een goed voorbeeld. PageRank is een getal dat aan een website wordt gegeven en dat verband houdt met de weging van het aantal binnenkomende links op de betrokken pagina (meestal de homepage). Hoe belangrijker de site waarvan de link vertrekt, hoe hoger het gewicht dat aan die link wordt toegekend. Een verbinding vanuit de Yahoo- of Open Directory-lijsten bijvoorbeeld heeft veel gewicht omdat daar mensen zitten die de website beoordelen en op basis daarvan een plaats in de directory toekennen.
Op de lokale computer is dit soort fratsen niet mogelijk. Google moet het daar dus hebben van inhoud en metadata. Afgaande op het beperkte aantal ondersteunde bestandsformaten steunt Google Desktop niet uitvoerig op metadata, maar kijkt het vooral naar wat er in het document aan inhoud te vinden valt. Dit sluit multimedia-bestanden uit van de zoekresultaten. Dat valt tegen, want ook op pc’s is multimedia tegenwoordig zelfs in ondernemingen van groot belang. Trainingvideo’s die op de pc zijn af te spelen vallen bijvoorbeeld buiten de boot.
Nauwkeurig en volledig
Apple heeft voor een totaal andere benadering gekozen. Deze benadering is bestandsonafhankelijk en niet gebaseerd op de aanwezigheid van een database voor het bestandsbeheer. Spotlight indexeert de inhoud op traditionele wijze, maar voegt daaraan een indexering op basis van XML toe.
Voor Mac OS X-gebruikers komt dit niet als een verrassing. Alle voorkeursinstellingen en omgevingsparameters voor toepassingen en documenten worden onder Mac OS X verplicht opgeslagen in ‘plist’ (property list) XML-bestanden. Dat is al zo sinds versie 10.2.
Spotlight maakt hiervan handig gebruik. Het indexeert deze plist-bestanden en voegt daaraan alle XML-informatie die het kan vinden toe. Voor multimedia-bestanden betekent dit bijvoorbeeld dat Spotlight de door de digitale camera aan een foto gehangen data meteen herkent en indexeert. Het betekent ook dat alle XMP-informatie van met Adobe–producten gecreëerde documenten wordt herkend en opgeslagen.
Spotlight laat het daardoor toe dat 80 tot 90 procent van alle reeds onder Mac OS X aanwezige bestanden zonder verdere interventie te gebruiken zijn om de resultatenlijst in relevante categorieën op te delen, waarbij alle relevante documenten van welke aard dan ook netjes in de lijst staan.
De nauwkeurigheid blijkt verbazingwekkend hoog te zijn. Ook wat betreft volledigheid valt er niks te klagen. Omdat Spotlight gebruik maakt van de plist-informatie, kan Apple nog een stap verder gaan. Toepassingen hebben net als documenten ook allemaal zo’n plist. Als de gebruiker een toepassing snel wil starten via de eerste letters van de naam van het programma, kan dat door die letters in te tikken in het Spotlight-veld bovenaan het scherm.
Spotlight zal alle programma’s opsommen die met die eerste letters beginnen, waarna verder kan verfijnd worden door de naam vollediger in te tikken. Het openen van het programma gebeurt dan door op de “Enter” toets te drukken.
Het enige nadeel dat aan Spotlight verbonden is, betreft de privacy. Gebruikers kunnen daarom in een voorkeurenpaneel zelf bepalen welke mappen ze niet willen laten indexeren. De zoekresultaten zullen dan geen bestanden bevatten uit deze mappen.
Een groot voordeel van Spotlight, vooral omwille van Apple’s traditionele markt, is dat multimedia bestanden zonder verdere aanpassing, geïndexeerd kunnen worden. Het maakt daarbij niet uit in welk bestandsformaat het beeld of geluid werd opgeslagen.< BR>