Spraakherkenning is de afgelopen paar jaar in een enorme stroomversnelling geraakt. Wat is de oorzaak daarvan en in welk stadium van ontwikkeling verkeert taaltechnologie? Wat mogen we er in de toekomst van verwachten? Een gesprek metRudy Montigny, oprichter en directeur van Sail Labs, en een oude rot in het vak. Hij durft te stellen dat "het toepassingsterrein van taaltechnologie vrijwel onbegrensd is".
In 1963 stond Bill Dersch van IBM met zijn Shoebox op de Efficiencybeurs in de RAI. Hij had iets ongelofelijks ontwikkeld: een telmachine bediend door de menselijke stem. Je moest wel leren om de cijfers en opdrachten goed uit te spreken, maar de 32 transistoren (slechts één transistor per cijfer of opdracht en één voor de bekrachtiging) en de filters pasten in een schoenendoos! IBM zag er geen brood in, maar had Bill wel in de gelegenheid gesteld om een half jaar lang de wereld af te reizen om toepassingen te vinden. Helaas: iedereen was vol lof over zijn vinding, maar ook Bill kon er vrijwel geen emplooi voor vinden.
Daarna bleef het ongeveer dertig jaar lang stil op het spraakfront. Nu, in 1999, ziet een andere Bill wèl toepassing voor spraakherkenning en wil het zelfs in zijn besturingssysteem Windows integreren. Corel verkoopt zijn WP kantoorsuite inclusief spraakherkenning én microfoon. De laatste paar jaar worden we overspoeld door goedkope spraakherkenningsproducten. Hoe is deze markt zo plotseling ontstaan? Wat zijn de parallelle ontwikkelingen in natuurlijke taaltechnologie? Waar zullen die gebruikt worden? En wat mogen we in de toekomst verwachten?
Ontwikkelingen
De Vlaming Rudy Montigny is reeds lang werkzaam op het gebied van natuurlijke taal. In de jaren zeventig was hij branchemanager bij Cap Gemini, maar hij wilde toch liever een eigen bedrijf. Na enige omzwervingen, richtte hij in 1983 Reference Software op voor de ontwikkeling van afbreekroutines op basis van algoritmes. Wang was de eerste gebruiker, en al snel volgden vrijwel alle andere leveranciers van tekstverwerkers. Men vroeg naar spellingcontrole, waarvoor hij ook producten ontwikkelde. Verder ontwierp Montigny met zijn team Grammatik, een veel verkocht programma voor grammaticacontrole.
Montigny: "Wordperfect was toen verreweg de populairste tekstverwerker. Het moederbedrijf was zoveel geld aan licenties kwijt dat het goedkoper was om ons te kopen. Wat ze toen ook hebben gedaan. Maar WP werd opgekocht door Novell en enige jaren daarna liepen de zaken heel slecht; Corel werd de nieuwe eigenaar. We moesten inkrimpen en dan verlies je als groep veel kennis. We stapten in april 1998 uit Novell en sloten ons aan bij Lernout & Hauspie; Jo Lernout is een oude bekende van me."
Vlaamse taalvallei
Het gebied rond Ieper wordt inmiddels Language Valley genoemd. Rond L&H heeft zich een groot aantal (nu nog) kleinere bedrijven gegroepeerd. Taal is ‘booming business’ geworden. Montigny: "Dat mag je wel zeggen! Dat is ook de reden voor de oprichting van SAIL Labs. L&H groeit erg snel en vanwege zijn beursnotering is er grote druk om elk kwartaal de inkomstenstroom op peil te houden, zelfs te laten groeien. Dat betekent vooral aandacht voor producten, niet voor de ontwikkeling van technologie op lange termijn. Ik heb toen voorgesteld om dat in een apart bedrijf te doen, en dat is Sail Labs geworden. We zijn afgelopen juni begonnen." Het bedrijf Sail Labs telt ongeveer vijftig medewerkers. Het hoofdkantoor is gevestigd in Antwerpen en er zijn vestigingen in Wenen, Berlijn, München en Barcelona.
L&H bezit 19,9 procent van de aandelen en heeft ‘first right of refusal’ op de resultaten; de rest van de aandelen is in handen van het management en de medewerkers. Vanwege uitbreidingen worden nog dit jaar bijkomende investeringen verwacht.
Sail Labs houdt zich bezig met natuurlijke taaltechnologie. De naam staat voor: Speech, Artificial Intelligence en Language. De drie kernactiviteiten zijn: spraak, vertalen en inhoudsanalyse. Ontdekken waarover een stuk in natuurlijke taal gaat, is een ondersteunende en essentiële activiteit voor spraakherkenning én voor vertalen.
Natuurlijke taaltechnologie
Op de vraag wat natuurlijke taaltechnologie precies inhoudt en of die zorgt voor de hausse in spraakherkenning, antwoordt Montigny: "Taaltechnologie houdt veel meer in dan spraakherkenning. Spraakherkenning kun je zien als een soort toegangspoort naar de wereld van natuurlijke taal. Uiteindelijk draait alles om die natuurlijke taal, die uiterst ambigu is en daarom zeer moeilijk te verwerken in een machine. Wil je spraakherkenning goed doen, dan zul je daarom in het programma ook moeten begrijpen waarover gesproken wordt, anders kun je geen goede resultaten behalen. Daarom is inhoudsanalyse zo belangrijk. In natuurlijke taal zitten te veel woorden die ongeveer hetzelfde klinken maar heel verschillende betekenissen hebben, afhankelijk van de context waarin ze gebruikt worden."
Als je de resultaten van spraakherkenning tot nu toe afmeet aan de besprekingen in de diverse tijdschriften, dan is er zeker vooruitgang, maar het niveau lijkt nog steeds nauwelijks praktisch bruikbaar. Montigny: "Zeker, we zijn er ook nog lang niet. De laatste versies zijn echt beter, maar zijn nog altijd gebaseerd op statistische modellen, dat wil zeggen; ze maken nauwelijks gebruik van taalkundige kennis. In de loop van volgend jaar verwacht ik dat het statistisch model gecombineerd gaat worden met een taalkundig model en dat zal een flinke verbetering geven. De volgende stap, herkenning op basis van een volledig taalkundig model, zal nog wel een aantal jaren op zich laten wachten. Bij de huidige stand van de technologie heb je daarvoor een snellere PC nodig dan we nu kennen."
DSP’s (digital signal processors) zijn tegenwoordig heel goedkoop. Ze worden overal gebruikt, in mobiele telefoons, in versterkers en in auto’s. Zoals er ook aparte geluidskaarten zijn, zou het mogelijk moeten zijn om het grote rekenwerk door een processor met geheugen op een aparte kaart te laten doen en de rest door de gewone microprocessor. Montigny: "In principe is dit zeker mogelijk. Maar in veel gevallen is er sprake van eenvoudige spraakherkenning en dan is een aparte processor helemaal niet noodzakelijk. De processoren in de meeste PC’s worden voor minder dan 0,1 procent benut, dus daar is ruimte genoeg voor eenvoudige spraakherkenning van bijvoorbeeld opdrachten. Intel weet dat natuurlijk ook en zoekt daarvoor nieuwe toepassingen; daarom werken we met hen samen." Lernout & Hauspie en National Semiconductor gaan ook samen spraakmodules voor informatie-apparaten ontwikkelen.
Eenvoud en nut
Montigny denkt dat spraakherkenning op een PC slechts een fractie van de totale markt bestrijkt. ‘Voice-dialing’, beschikbaar op mobiele telefoons waar je een naam kunt roepen waardoor automatisch het bijbehorende nummer gebeld wordt, is nog maar het begin. "Er is grote behoefte aan interactieve systemen, niet alleen in de auto maar ook thuis. Om de televisie te bedienen of de videorecorder te programmeren. Zou u niet graag uw tv-butler de vraag willen stellen ‘Wanneer is de volgende film met Clint Eastwood?’ of de opdracht geven ‘Neem de volgende voetbalwedstrijd op’. Op zichzelf zijn dat redelijk eenvoudige opgaven voor spraakherkenning, die toch heel nuttig kunnen zijn. En die zijn ook niet zo moeilijk te realiseren, want de televisieprogrammering is beschikbaar via teletext. Zo zijn er heel veel interactieve handelingen waarbij spraakherkenning, en spraaksynthese (’text to speech’) voor het antwoord, heel zinvol kan zijn."
Veel interactiviteit ziet Montigny toegepast in de auto, omdat de chauffeur beide handen aan het stuur moet houden. Spraak is dan een natuurlijke manier om opdrachten te geven zoals ‘radio Classic FM’. Er lopen ook proeven om langs de snelweg databerichten via de radio te sturen over de toestand van de weg, zoals over gladheid, files en dergelijke. Door middel van synthetische spraak worden die vervolgens ten gehore gebracht. Zo bestaan er heel veel toepassingen van taaltechnologie buiten de PC.
Beperkte domeinen
Maar om dat soort interactieve conversatie te voeren, moet de machine toch wel enig begrip hebben van wat de gebruiker bedoelt! En dat is geen eenvoudige zaak, zoals de door hem gemaakte grammatica-controle in Word duidelijk maakt. Montigny gebruikt deze functie zelf niet: "Maar daarbij moet je wel begrijpen dat Microsoft geen frank méér inkomsten krijgt als die beter zou zijn. Er is dus totaal geen motivatie om daaraan geld te besteden. Het begrip van een zin is zonder twijfel een moeilijke zaak, maar dat ligt veel makkelijker bij ‘queries’ binnen een zeer beperkt domein." Hij gebruikt zelf ook geen spraakherkenning, volgens eigen zeggen omdat zijn uitspraak van het Engels daarvoor niet goed genoeg is.
Montigny legt uit dat begrip van het domein de reden is waarom de pakketten voor medische specialisten en advocaten wel goed werken. Die hebben allemaal een hele speciale terminologie, die op zich wel ingewikkeld is, maar beperkt wat het aantal gebruikte woorden betreft. Bovendien kun je daarvoor ook wat meer geld vragen, dus loont een verdere ontwikkeling. "Het grote probleem voor spraakherkenning is dat de algemene pakketten verreweg het moeilijkst te ontwikkelen zijn, maar ‘niets’ mogen kosten. De samenwerking met Microsoft is voor L&H heel waardevol, maar heeft als consequentie dat spraakherkenning straks, eenmaal in het besturingssysteem opgenomen, gratis wordt meegeleverd. En dus voor de consument weinig meer waard is, want Microsoft zal niet geneigd zijn daaraan veel geld uit te geven. Dat is de reden waarom L&H het nu vooral zoekt in andere markten, verticale markten zoals specialisten en interactieve toepassingen. Spraak is voor mensen in allerlei situaties dé natuurlijke manier om informatie over te brengen."
Onbegrensde mogelijkheden
De ICT-wereld kent het begrip Unified Messaging, waarbij allerlei vormen van berichten (spraak, data, fax en tekst) onderling uitwisselbaar zijn. Bijvoorbeeld een fax waarvan de tekens herkend (OCR) worden, die door middel van spraaksynthese via een mobiele telefoon ten gehore gebracht worden. Er zijn ook toepassingen waarbij een computer de interactieve telefoonbeantwoording afhandelt. In een ‘callcenter’ is het domein ook zeer beperkt: door middel van productselectie, zelfs tot een bepaald product. Dat maakt de herkenning veel gemakkelijker.
Montigny: "En dat is nog maar het begin! Met taaltechnologie zijn heel veel andere zaken mogelijk. Om bij mijn favoriete tv-butler te blijven, het zal niet zo moeilijk zijn om tv-programma’s te analyseren op inhoud. En als je voor een bepaald domein goed kunt vertalen, mag je ook denken aan de directe vertaling van ondertitels. Een project op lange termijn is notulering. Het zou heel nuttig zijn om bij bijeenkomsten het gezegde automatisch te kunnen notuleren. Dan moet je wel in staat zijn tot spreker-identificatie, maar ook dat is in ontwikkeling voor toegangsbeveiliging. Het toepassingsterrein van taaltechnologie is vrijwel onbegrensd." Vertalen geeft nog veel problemen. De resultaten van vertaalmachines op het Web zijn vaak lachwekkend. BSO is destijds heel druk bezig geweest met Direct Language Translation, het vertalen van de ene taal in een andere, ten behoeve van de Europese Gemeenschap, met Esperanto als tussentaal. Dat project is jammerlijk mislukt. Montigny: "Machinaal vertalen is heel moeilijk. Het duurt waarschijnlijk nog wel tien jaar voordat we dat goed in de vingers hebben, zeker voor uitgaande vertalingen. Maar voor ingaande vertalingen is een score van 60-70 procent vaak voldoende om de inhoud van een fax of brief in het Japans te kunnen begrijpen, omdat je weet waarover het gaat. Een 100 procent goede vertaling zal, afhankelijk van de tekst, waarschijnlijk nooit mogelijk blijken. Daarvoor is taal te ingewikkeld en te ambigu, vooral als de schrijver bepaalde gevoelens wil uitdrukken door middel van de gebruikte zinsconstructies." Maar het vertalen van ‘queries’ is wel vrij eenvoudig omdat het vocabulaire beperkt is en de context bekend.
Herkenning en synthese
Voorlopig gaat het toch vooral om spraakherkenning en -synthese. Voor gebruikers is spraakherkenning het meest interessant, zeker voor degenen die met twee vingers tikken! Er zijn de laatste tijd nogal wat pakketten op de markt gekomen.
Op de vraag of er ook veel vooruitgang geboekt is in de herkenningstechnologie, luidt Montigny’s antwoord: "Er is inderdaad veel vooruitgang geboekt. Vroeger moest een herkenningssysteem aangepast worden aan de spreker door het langdurig inspreken van bepaalde teksten. Nu volstaat een veel kortere tijd, zeg een half uur; dit is een belangrijke verbetering want mensen zien daar erg tegen op. Vroeger moesten de woorden apart worden uitgesproken (discrete spraakherkenning). Doordat we geleerd hebben de woorden beter te scheiden, kan vrijwel continu gesproken worden; dat is veel natuurlijker. Ten slotte, kan men tegenwoordig opdrachten geven tijdens het dicteren; men hoeft niet langer van de ene modus naar de andere over te schakelen. Dat is grote vooruitgang in enkele jaren." Door overgang naar ‘finite state’ machinelogica zal de werking binnenkort met een factor honderd versneld worden, niet onbelangrijk want mensen zien graag direct dat hun woorden herkend worden.
Spraakcursus
De vraag luidt of dat voldoende is voor algemene acceptatie. Het is vreemd dat mensen vaak wel bereid zijn om een typecursus te volgen, maar geen spraakcursus, terwijl de voordelen toch heel groot zullen zijn.
Montigny: "Iedereen weet dat hij of zij van nature niet kan typen, maar praten kunnen we allemaal heel goed. Bovendien is een langere oefentijd niet meer zo belangrijk als vroeger. Als we straks met grote vocabulaires gaan werken en taalmodellen voor de herkenning gebruiken, denk ik dat we nog veel betere producten kunnen maken, die niet alleen verkocht maar ook gebruikt zullen worden. Maar nogmaals, spraakherkenning voor de PC is in mijn ogen slechts een klein onderdeel van de toepassing van spraakherkenning."
De techniek van Bill Dersch lijkt dus nu definitief voorbij. De mens hoeft zich niet meer aan te passen aan de machine. De machine gaat leren de mens te verstaan, en op heel beperkte schaal begrijpen wat de mens wil. Hopelijk alleen zijn eigen baas, want het mopje gaat dat een omstander bij een demonstratie van spraakherkenning keihard in de microfoon riep: "Command. Format C:. Yes." Een ingesproken virus? Het zou niet zo slecht zijn als een PC zijn baas biometrisch zou herkennen (voiceprint), al was het alleen maar om in te kunnen spelen op zijn bepaalde manier van spreken en zijn woordgebruik.
Hein van Steenis, freelance medewerker
Eerder verschenen artikelen
H. van Steenis: ‘Spraakherkenning levert eindelijk producten op‘. Computable (26 mei 1995), p.35-37.
G. Emmenich: ‘PC krijgt mond en oren’. Computable (26 september 1997), p.41-43.
E. Vlietinck: ‘Spraakmakende vallei’. Computable (16 april 1999), p. 41-43.
P. van Vliet: ‘Schrijven met je stem’. PCM (september 1999), p.84-91.
Hoe een computer spraak herkent
Automatische spraakherkenning is het proces waarbij menselijke spraak wordt omgezet in een elektrisch signaal, dat wordt geanalyseerd om uiteindelijk een ‘string’ van woorden te genereren die weergeven wat de spreker heeft gezegd. De herkenning gebeurt in vier stappen: feature-extractie; akoestische matching; taalkundige matching en nabewerking.
Feature-extractie
Eerst wordt het binnengekomen analoge signaal gedigitaliseerd, dat wil zeggen gesampled en opgesplitst in kleinere stukjes. De volgende stap is de spectrale analyse van het signaal. In deze stap wordt een wiskundige beschrijving van het signaal vanuit het tijddomein naar het frequentiedomein getransformeerd (Fourier-transformatie). Hierbij wordt een functie van de tijd omgezet in een functie van de diverse frequenties die in het signaal verborgen zitten. Tenslotte wordt het signaal ‘genormaliseerd’, dat wil zeggen ruis en andere kanaalspecifieke elementen worden eruit verwijderd. Wat overblijft is een lange reeks combinaties van frequenties.
Akoestische matching
Voordat een spraakherkenningssysteem in gebruik kan worden genomen, dient het eerst getraind te worden. In de trainingsfase leert het systeem een groot aantal spraakfragmenten, die worden opgeslagen in een trainingscorpus. Bij het gebruik bepaalt het systeem steeds de optimale synchronisatie tussen het spraaksignaal en de foneemtranscriptie, en de kans dat de twee bij elkaar horen. Voor ieder foneem (klank) worden alle bijbehorende stukjes spraaksignaal statistisch verwerkt en wordt een akoestisch model berekend dat een statische beschrijving is van alle bij dat foneem behorende stukken spraaksignaal uit het trainingscorpus. Vervolgens wordt de kans bepaald dat het oorspronkelijke signaal overeenstemt met een bepaald model. Deze lokale scores resulteren uiteindelijk in een woordscore, dat wil zeggen mogelijke woorden met hun waarschijnlijkheden.
Taalkundige matching
Een taalmodel wordt getraind door in het trainingscorpus te tellen hoe vaak een woord en hoe vaak woorden in combinatie voorkomen. Het beschrijft eveneens hoe woorden worden samengevoegd tot zinnen en welke woordvolgorden onmogelijk zijn. Aan de hand van het taalmodel wordt berekend welke opeenvolging van woorden de meeste kans heeft en zo wordt het aangeboden signaal herkend.
Nabewerking
Afhankelijk van de toepassing, kan er nog nabewerking volgen, waarbij spellingscontrole, grammaticale analyse, enzovoorts plaatsvinden om het resultaat voldoende nauwkeurig te laten zijn.
Zo nodig kan hierna nog een analyse van de herkende tekst (natuurlijke taaltechnologie) plaats vinden om uit te vinden wat de spreker bedoelt te zeggen, maar dit staat in principe los van de spraakherkenning.
(Met dank aan Erik Govaers.)