Mens en computer staan doorgaans loodrecht tegenover elkaar bij het intikken van een vraag. Waar het brein een logische vraag formuleert, verlangen databases query-taal en zoekmachines zoekstrings. Taalbegrip en -herkenning door computers zou een stap voorwaarts betekenen, maar aan natural language kleeft al jaren het predikaat van ‘eeuwige belofte’. Lost het Nederlandse bedrijf Q-Go die belofte eindelijk in?
In een natural language search (NLS) is de kunstmatige syntax van queries vervangen door vragen die rechtsreeks aan het menselijke brein zijn ontsproten. De basis van NLS is natural language processing (NLP), het deel van artificiële intelligentieonderzoek (AI) dat gericht is op het ontwikkelen van systemen en toepassingen die natuurlijke talen gebruiken. In plaats van sleutelwoorden als ‘kosten’, ‘onderhoudscontract’ en ‘verlenging’ en Booleaanse variabelen wordt een database of zoekmachine een logische vraag gesteld: ‘hoe duur is de verlenging van mijn onderhoudscontract?’ De computer ontleedt de grammatica, semantiek en structuur van de zin en ‘begrijpt’ daardoor dat iets wezenlijk anders wordt gevraagd dan: ‘hoe verleng ik de duur van mijn onderhoudscontract?’
Volgens Marcel Smit van het Nederlandse bedrijf Q-go is natural language momenteel een hype in Amerika. De NLS-software van Q-go is gebaseerd op natuurlijke taaltechnologie en menselijke communicatie. Smit: "De volgende generatie search tools is gebaseerd op natural language. Een grote groep mensen heeft op het moment toegang tot een enorme berg elektronische informatie. Men is het zat om telkens tien miljoen irrelevante zoekresultaten voorgeschoteld te krijgen en dan de weg kwijt te raken."
Kwaliteitsbepalend
De voorspelling van Smit wordt bevestigd door onderzoek van Deloitte & Touche waaruit blijkt dat eindgebruikers via elektronische kanalen op dezelfde manier geholpen willen worden als via fysiek klantcontact. De kwaliteit van de dienstverlening wordt bepaald door interactie en het gevoel ‘herkend en begrepen’ te worden. De analogie met een query is snel getrokken. Ook die zou natuurlijker en intuïtiever moeten zijn.
De praktijk is echter weerbarstig. De computer vindt het nog altijd moeilijk om natuurlijke taal in functionele programmeertaal te gieten. Een duik in het verleden levert een lange lijst van bedrijven op met grote NLS-ambities, waarvan de meeste alweer failliet zijn. Het zijn op het moment vooral zoekmachines, zoals Google, die de techniek aanwenden. Bijvoorbeeld door linguïstische interpretaties van zoekopdrachten rondom treffers te clusteren.
Hoogleraar Franciska de Jong, verbonden aan TNO Informatie- en Communicatietechnologie, constateert dat de computer al vanaf de jaren tachtig worstelt met de onlogica van mensentaal. Op de site van de Universiteit Twente zegt zij: "Er gaapt een diepe kloof tussen natuurlijke talen, zoals Nederlands, Engels en Swahili en formele talen voor specifieke toepassingen, zoals computertalen."
"Natuurlijke talen zijn chaotisch en ontwikkelen zich voortdurend, volgens moeilijk te doorgronden processen. Het is niet vreemd dat nog niet één natuurlijke taal volledig is beschreven. Formele talen zijn fundamenteel anders. Het zijn verzamelingen afspraken zonder uitzonderingen; alles klopt en past in elkaar en de dubbelzinnigheid die de natuurlijke talen teistert, ontbreekt."
Gemakzuchtig zoeken
Natural language maakt queries logischer, maar vereist ook een cultuuromslag. Uit diverse onderzoeken komt naar voren dat mensen redelijk gemakzuchtig zoeken. Als het niet nodig is om een vraag te formuleren, wordt het ook niet gedaan. Zelfs bij een op natural language processing gebaseerde zoekmachine als Ask.com, voortgekomen uit AskJeeves, worden vaker enkele trefwoorden dan volledige vragen ingetikt. Ook treedt er gewenning op in het werken met de huidige zoektechnologie op basis van indexering. Internetgebruikers gebruiken steeds meer trefwoorden. In 1996 werd gemiddeld 1,4 woord gebruikt bij zoekstrings, in 1999 lag dat aantal al op 2. In 2007 is het gemiddelde bij zoekmachine Yahoo opgelopen tot 3,3 woorden.
Barney Pell is de ceo van Powerset, een in Silicon Valley gevestigd bedrijf dat een op NLS gebaseerde zoekmachine ontwikkelt. Zijn bedrijf wordt in de media getipt als een mogelijke toekomstige rivaal van Google. Pell begrijpt het succes van de huidige zoektechnologie, maar plaatst kantekeningen bij de nauwkeurigheid: "Gebruikers houden er niet van om veel woorden in te tikken. Twee tot drie woorden per query is het maximum. Zoektechnologie op basis van indexering levert echter te veel onnauwkeurige en irrelevante resultaten op, zelfs als een query wordt verrijkt met de zoekhistorie van de gebruiker of context van de zoekopdracht. Natural language zorgt voor veel relevantere zoekresultaten."
Volgens Pell duurt het nog vijf tot tien jaar voordat NLS de huidige zoektechnologie volledig vervangt. Anton Nijholt, hoogleraar Human Media Interaction aan de Universiteit Twente en verbonden aan het onderzoeksinstituut Center of Telematics & Information Technology, vindt dat een gewaagde voorspelling: "We zijn nog ver verwijderd van de dag dat een computer natuurlijke taal begrijpt. Ten opzichte van de jaren tachtig zijn we eigenlijk niet zo heel veel opgeschoten. De computer slaagt aardig in een syntactische analyse van taal, maar het lukt nog niet om de betekenis en bedoeling van zinnen en teksten in wiskundige modellen te vatten."
Nijholt leidt de onderzoeksgroep Parlevink, die werkt aan het overbruggen van de kloof door het formaliseren van natuurlijke taal voor praktische toepassingen. Hij ziet de toekomst van natural language niet somber in. "We worden steeds beter in het bedenken van toepassingen, waarbij het minder belangrijk is dat de computer taal niet volledig begrijpt. Door het domein goed af te bakenen bijvoorbeeld. Neem een database met medische rapporten. De stijl van dit soort rapporten bestaat uit korte zinnen en vaak worden dezelfde woorden gebruikt. Op die manier kan een computer redelijk betrouwbaar analyseren wat er wordt bedoeld."
Geavanceerde software
De Natural Language Search software van het Nederlandse Q-go is geavanceerde technologie die als SaaS-oplossing wordt ingezet. De software maakt het mogelijk om in natuurlijke taal te communiceren via kanalen als web, intranet, sms, msn en voice. Wie op de website van het UWV (Uitvoeringsinstituut Werknemersverzekeringen) de vraag stelt ‘waar blijft mijn poen’, krijgt de wedervraag of de vrager soms bedoelt: ‘wanneer betaalt het UWV mijn WW- (of andersoortige) uitkering?’
Marcel Smit, ceo van Q-Go: "Jij en ik zijn gewend met informatie om te gaan en gericht te zoeken, maar cliënten van het UWV stellen daadwerkelijk de vraag: ‘Waar blijft mijn poen?’ Die vraag wordt door onze software grammaticaal en semantisch ontleed. En dan wordt of een wedervraag gesteld of een context gerelateerd antwoord gegeven. Op die manier ontstaat een case frame, dat wordt vergeleken met de databases van het UWV."
Aan de Natural Language Search software van Q-Go is vele jaren gewerkt. Miljoenen euro’s zijn aangewend aan onderzoek. Vanuit de hele wereld heeft het bedrijf taaltechnologen in huis gehaald. Eerst zijn alle overeenkomsten in talen in een basismodule gegoten. Op die module is een landenlaag geplaatst, met de specifieke taal of talen (denk aan het Catalaans) van een land. Per branche wordt een industrieeltechnisch woordenboek toegevoegd, de derde module. Het bancaire woordenboek telt bijvoorbeeld alleen al 50 miljoen vragen.
Ten slotte wordt het woordenboek van een organisatie zelf toegevoegd als vierde module. Die laatste module met het specifieke bedrijfsjargon is heel belangrijk om de context van een vraag te doorgronden en vereist het meeste maatwerk. Q-Go zegt dat zijn Natural Language Search 70 tot 80 procent van de gestelde vragen juist analyseert en interpreteert. "Er zijn altijd grapjassen die een vraag als ‘wil je met me trouwen?’ intikken," aldus Smit.
Microsoft koppelt
Microsoft heeft de Natural Language Search van Q-go in het expertisecentrum in het Verenigd Koninkrijk gekoppeld aan SharePoint Server 2007, zodat mensen in eigen woorden vragen kunnen stellen aan een bedrijfsapplicatie. Bill Gates riep al in 2004 dat natural language een van de ‘mogelijke zwaarden is om Google mee te bestrijden’.
Smit denkt overigens niet dat natural language de huidige zoektechnologie vervangt. "Ik verwacht dat de komende vijf jaar, naast de traditionele manier van zoeken door middel van indexering, er tientallen zoekoplossingen verschijnen. Denk bijvoorbeeld aan zoeken op basis van geneuriede melodietjes of gescande tekeningen."
"Natural language is prima te combineren met andere zoektechnologieën. Je kunt het bijvoorbeeld boven op business intelligence gebruiken om mensen die niet weten hoe ze een query moeten opstellen in eigen woorden een vraag te laten stellen. De vraag wordt geïnterpreteerd en omgezet in een business intelligence analyse en de gebruiker krijgt op traditionele wijze antwoord."
Spraakherkenning
Is het niet fijn als de computer ook onze taal spréékt? Het verwerken van het gesproken woord in operationele systemen gaat een stapje verder dan natural language processing en natural language search. Hoogleraar Anton Nijholt: "Spraakherkenning werkt alleen goed onder tamelijk gecontroleerde omstandigheden. Wij nemen iedere avond het acht uur journaal op met behulp van Nederlandse spraakherkenning en een beperkte linguïstische analyse. Ondanks de goede uitspraak en de uitstekende geluidskwaliteit gaat het nog regelmatig fout, maar de uitgewerkte zinnen bevatten voldoende informatie om de context te doorgronden, zelfs als een woord verkeerd is herkend."
"Op het resultaat kun je met goed gevolg zoekvragen loslaten. Het is een goed voorbeeld van een toepassing waarbij het begrijpen van zinnen nauwelijks een rol speelt. Spraakherkenning moet je echter bij voorkeur trainen op één stem met een beperkt vocabulaire en in een gecontroleerde omgeving. Bij vergaderingen, als iedereen door elkaar heen praat, leidt het tot slechte resultaten."
3,3 woorden
is de gemiddelde zoekopdracht nu bij Yahoo