Call centres die de klant te woord staan zonder dat hij merkt dat het om pratende computers gaat. Tekst-spraakconversie, dicteren, documenten samenvatten, en computers via spraak bedienen. De stem van de spraaktechnologie wordt steeds luider.
Gesproken taal om de computer te besturen is wellicht de laatste belangrijke barrière die moet worden doorbroken om iedereen van computerfobie af te helpen. Helaas zijn we nog lang niet zover, hoewel de technologie met rasse schreden vooruitgang boekt. De analisten bij Giga vonden onlangs zelfs dat tekst-naar-spraak, één onderdeel van spraaktechnologie, vandaag thuishoort in het vakje ‘geavanceerd’. In Giga’s Rating of Maturity of Emerging Technologies – een regelmatig gepubliceerde tabel – heeft de technologie lange tijd gehaperd bij de categorie ‘opkomend’.
Spraaktechnologie houdt veel in. Een interface om de computer met gesproken commando’s te besturen is daar slechts één onderdeel van. Naast gesproken besturing omvat spraaktechnologie ook dicteermogelijkheden of vertaalsoftware. Of het ultieme wapen van de spraakboeren: het automatiseren van call centres met computers die je in klare taal te woord staan zonder dat je merkt dat het om een machine gaat.
Vooral met dat laatste wil het nog niet vlotten. Lernout & Hauspie mocht dat aan den lijve ervaren. Het bedrijf werd zowel bij een Franse telco-operator als bij een Italiaanse terug naar af gewezen, wegens het leggen van klemtonen op de verkeerde plaatsen. Een behoorlijke tegenvaller voor L&H, dat er prat op gaat met de vele computerlinguïsten die er werken alle talen aan te kunnen.
Beide telco’s kozen voor een lokale oplossing, die de klemtonen blijkbaar wel weet te leggen. Natuurlijk zijn de Franse en de Italiaanse markt niet de belangrijkste en zeker niet de grootste – hoewel vooral de Fransen dat graag denken. Het verklaart meteen waarom de meeste spraaktechnologen, L&H incluis, zich liever inlaten met het Engels. Dat is bekend terrein en de Engelstalige markt is verreweg de grootste, op de Chinese markt na.
Nuance Communications was volgens analist Giga Information Group op 27 mei echter de enige die een geïntegreerd systeem levert dat call centres kan automatiseren door er natuurlijke taal tegenaan te gooien. Ook Speechworks International vindt nog genade in de ogen van Giga. Met Vocalis, Unisys, Philips, L&H en IBM is dat veel minder het geval. Van de oplossingen van IBM en L&H zei Giga ronduit dat ze niet klaar zijn om ingezet te worden voor bedrijfsgebruik.
Call centres
Maar in deze tak van industrie beweegt alles nog veel sneller dan daarbuiten. Intel kondigde op 5 mei immers een samenwerkingsovereenkomst aan met L&H waardoor die laatste min of meer op eenzelfde niveau zou komen als Nuance, Speechworks en inmiddels ook Philips. Voor Gartner komt die aankondiging geen seconde te vroeg. De analist ziet de markt voor automatisering van call centres met spraak een razendsnelle overstap maken van ‘early adopter’ naar ‘mainstream’.
Dat verklaart dan meteen waarom niemand nog stil zit in de spraaktechnologie. Begin mei kondigde Philips ook al aan dat het een overeenkomst had gesloten – met VCS, een Amerikaanse spraaktechnoloog die gespecialiseerd is in spraak voor telefoonsystemen met een klein woordenboek. VCS legt zich toe op thesauri die beperkt zijn tot getallen en korte alfanumerieke zinnetjes. Het bedrijf werd door Philips aangekocht omdat het op dat terrein één van de beste is in verscheidene talen; vijftig om precies te zijn.
Philips kan zich met de aanschaf van VCS profileren als een serieuze speler op de spraakmarkt in de VS, terwijl het in één klap over know-how beschikt die essentieel is als je spraak wilt leveren voor call centres. Alle analisten zijn het trouwens eens dat die call centres de grote doorbraak in spraaktechnologie zullen forceren. Het zal ook niet anders kunnen. Call centres zullen volgens de laatste prognoses zo verschrikkelijk hard groeien, dat er te weinig mensen zullen zijn om ze te bemannen.
Standaardenkoorts
Naast call centres zijn er nog de meer tot de verbeelding van de eindgebruiker sprekende markten. Dicteren is daar een mooi voorbeeld van. Behalve Philips levert ook L&H een vrij goed werkend pakket dat dicteren in een aantal talen aankan. Die pakketten werken allemaal wel met een behoorlijk dikke thesaurus, omdat dat de nauwkeurigheid fors doet stijgen. Ook IBM levert een dicteeroplossing. Naar verluidt haalt Viavoice excellente resultaten, wat verklaart waarom het pakket in de VS vaak gebruikt wordt door tandartsen, chirurgen en advocaten. De dicteercapaciteit van Viavoice blijft vooralsnog steken bij het staccato afraffelen van woorden. Het vergt dus wat aanpassing – wat overigens net zo vrolijk het geval is voor de oplossingen van L&H, Olympus, Norcom en Philips.
Het nirvana van de spraaktechnologie blijft voorlopig dus de vloeiende spraak, ook op het niveau van tekst-naar-spraak. Volgens eigen zeggen is L&H daarin het verst gevorderd. Het Ieperse bedrijf geeft tegenwoordig ook regelmatig demonstraties met technologieën als Realspeak die op een spectaculaire wijze met natuurlijke spraak kunnen omgaan. Ook Gartner is daarvan behoorlijk onder de indruk. Gartner heeft het over ‘indrukwekkende verbeteringen ten aanzien van andere technologieën’ en de analist beweert te weten dat ‘het geluid en de prosodie erg dicht de menselijke stem benaderen’.
De concurrentie zit echter ook niet stil en wat vandaag nog spectaculair is en enkel beschikbaar bij L&H, is morgen alweer oude koek en exclusieve technologie van Philips of IBM. Bovendien zorgt de snelle evolutie van de spraaktechnologie ervoor dat er voor geen enkele toepassing een standaard bestaat waarop andere ontwikkelaars zouden kunnen inspelen.
Er zijn wel enkele api’s (application program interfaces) die door Microsoft werden ontwikkeld, maar die zijn – naar Gates’ slechte gewoonte – niet echt open te noemen. Daarom besloot IBM eerder dit jaar een groep op te richten die alvast standaarden wil ontwikkelen voor mobiele spraaktechnologie – van de soort die je toelaten je GSM-telefoon toe te blaffen dat hij je secretaresse moet bellen. Het IBM-initiatief heet Voicetimes en groepeert Dictaphone, e.Digital, Intel, Norcom, Olympus, Philips en IBM.
Eigenaardig genoeg vinden we in dat groepje L&H niet terug. Dat kan twee redenen hebben: of L&H vindt van zichzelf dat het te goed is om bij dit clubje te horen, of er kleeft aan de investering van Bill Gates en van Intel wel degelijk een minstens morele verplichting zich niet aan te sluiten bij een ‘open’ initiatief.
In elk geval wil IBM met Voicetimes voorkomen dat de markt voor de spraaktechnologie dezelfde kant opgaat als Unix, met allemaal incompatibele varianten, wat voor mobiele telefonie rampzalige gevolgen zou kunnen hebben. In andere markten schijnt die overweging minder te spelen. Zo biedt elke spraaktechnoloog zijn eigen systeem voor bijvoorbeeld toepassingen als telefonisch bankieren.
Spreken is zilver…
In die markten blijkt L&H al een relatief goede positie te hebben. Zelf beweert het bedrijf dat dit al de vruchten zijn van het tekst-naar-spraak-vlaggenschip van Realspeak. Dat is immers gebaseerd op algoritmen die werken met echte menselijke stemfragmenten. De basiseenheid waarmee L&H werkt, is evenwel het foneem, de lettergreep en soms een volledig woord. Daarmee onderscheidt L&H zich van de rest van de wereld, die het houdt bij difonen (klankparen) of tetrafonen.
Zo slaagt L&H erin om met zijn Realspeak de computer te laten praten zonder dat iemand in de gaten heeft dat er geen mens zit aan de andere kant van de lijn. Het is evenwel ditzelfde systeem dat in Frankrijk en in Italië naar huis werd gestuurd omdat het te licht was bevonden. Echt verbazingwekkend is trouwens het Franse verhaal. België is tenslotte toch een tweetalig land en bij L&H werken Franstalige linguïsten. Waarmee gezegd is dat het natuurlijke van de huidige tekst-naar-spraak aanbiedingen met een grove korrel zout moet genomen worden – of dat Frankrijk zich als vanouds opstelt met een ‘grandeur’ die alle commerciële logica tart.
Toch heeft Realspeak zijn fans. In de VS heeft L&H grote successen geboekt met deze technologie. De Amerikaanse bedrijven AVT Corporation, Arial Systems, Baypoint Innovations en Pika, en de Amerikaanse filialen van multinationals als Ericsson en Telekol kozen voor Realspeak om tekst om te zetten naar spraak in telefonie toepassingen.
Zo levert Realspeak de technologische achtergrond voor de Popeye-berichtendienst, en wordt L&H’s spraakherkennings-‘engine’ – die gebaseerd is op een omvangrijke thesaurus van alle algemeen voorkomende Engelse woorden – gebruikt door CT voor de CT Antares Media Toolkit. Ericsson past L&H’s ‘engines’ toe in een draadloos call management systeem, terwijl Arial een specifieke engine gebruikt voor een spraakgedreven intranet-navigatiemodule.
…maar zwijgen is goud
L&H heeft dus wel een heel omvangrijk arsenaal aan technologieën die in oem-versies hun weg vinden naar de eindgebruiker. Het bedrijf heeft zelf weinig of geen gezicht, maar het is er wel degelijk. En soms niet eens met spraak. Een voorbeeld van L&H’s technologie was te bewonderen op IMC ’99 in Amsterdam. Deze beurs voor document- en werkstroombeheer zou je niet direct in verband brengen met een spraaktechnoloog. En toch stond daar een beginnend Antwerps bedrijfje dat met L&H’s technologie werkt zonder ook maar één letter geluid te produceren.
Document Management Partners (DMP) startte begin 1998 met zijn activiteiten en heeft nu een afgewerkt product dat met ‘engines’ van L&H tot stand is gekomen. Het programma, dat nog geen naam heeft, kan documenten doorzoeken in verschillende talen – en dat simultaan. Dat betekent dat je met DMP’s software een zoekopdracht kunt ingeven in het Nederlands en vervolgens alle documenten terugkrijgt waarin dat concept voorkomt, of het nu Nederlands, Engels, Frans of Chinees is.
De ‘engine’ van L&H laat DMP echter toe een stapje verder te gaan. Met zijn eigen twintig linguïsten werkte het bedrijf een module uit waarmee je documenten kunt samenvatten. Dat kan ook in elke taal die het pakket ondersteunt (zo’n vijftig). Stel dat je vijf documenten hebt gevonden in drie talen, en dat je uit deze teksten een samenvatting wilt omdat je Mandarijns niet je dat is. Dan kan DMP’s software je een gegroepeerde samenvatting leveren waarbij de inhoud van elk document aan bod is gekomen.
De geleverde samenvattingen zijn overigens van goede kwaliteit; niet te vergelijken met de ronduit onbruikbare rommel waarmee Microsoft zijn gebruikers opzadelt in bijvoorbeeld Word. Bovendien kun je een conceptenboom oproepen waarmee je in de hele tekst op verwante concepten kunt navigeren door eenvoudig te klikken.
DMP’s oplossing wordt op dit moment geïntegreerd met Documentums oplossingen voor documentbeheer. Want ‘multitaal’ opzoeken is natuurlijk de droom van elke ontwikkelaar van documentbeheerpakketten. DMP is ook van plan het product te leveren aan elke ontwikkelaar die interesse toont. Het pakket is tevens verkrijgbaar als een client only-versie, zodat je samenvattingen kunt maken van documenten op je harde schijf of op het Web. Het verrassendst is echter dat L&H’s technologie voor een stuk debet is aan de nauwkeurigheid en bruikbaarheid van DMP’s pakket. Dat L&H voorkomt in een Europees verhaal mag trouwens sowieso verrassend heten. Er zijn nu eenmaal niet zoveel Europese bedrijven bezig met ontwikkelingen waarbij spraak- of vertaaltechnologie een rol speelt.
En als ze dat al doen, dan zwemmen ze in hetzelfde water als L&H zelf. Philips is daarvan het beste voorbeeld, maar op lokaal gebied kun je even goed Celt laten opdraven. Celt is het Italiaanse spraaktechnologiebedrijf dat het contract met de Italiaanse telco van L&H afsnoepte.
Keyware Technologies – toevallig ook uit Ieper – is één van die Europese uitzonderingen die ook gebruik maken van spraaktechnologie. Keyware gelooft heilig in biometrie als authenticatie-instrument. De menselijke stem werd door het bedrijf gekozen als biometrisch instrument bij uitstek. Keyware’s oplossing bestaat erin dat de gebruiker zijn PC een wachtwoord toesnauwt wanneer hij toegang wil tot zijn harde schijf. Dat zou veel makkelijker zijn dan hetzelfde wachtwoord te moeten intikken, aldus de ontwikkelaar.
Maar biometrie zal volgens een recent Forrester-rapport slechts marginaal zijn nut (blijven) bewijzen. Grote doorbraken naar een eindgebruikermarkt moeten we niet verwachten. Dat ligt natuurlijk helemaal anders bij de vertaalcapaciteiten van Document Management Partners. Neem alleen het Web al met zijn miljoenen gebruikers en miljarden teksten.
Dicteersoftware
Taal, vertalen en spraak; ze zijn waarschijnlijk niet meer weg te denken uit ons arsenaal speeltjes voor de computer. Zelfs op platforms waar weinig of niets gebeurt dat voor ondernemingen van belang kan zijn, is spraak een ‘hot topic’. Dragon Systems, één van de bedrijven die zich met spraak bezighoudt, meldde in mei dat het zijn dicteersoftware zelfs naar het Mac-OS-platform zal poorten.
Met Dragon krijgen Mac-gebruikers er wel een kwalitatief hoogstaande technologie bij. Dragon Systems levert gebruikers de mogelijkheid om met een min of meer natuurlijke snelheid te dicteren. Daartoe heeft het systeem onder Windows wel de snelste Pentium nodig met multimedia capaciteiten of een Motorola/IBM-G4-processor met Altivec – een processor die nog niet eens op de markt is – voor het MacOS.
Het ziet er dus naar uit dat we binnen afzienbare tijd allemaal commando’s zitten te roepen naar onze machine. Alleen vraagt niemand zich af wat die machine zal doen als je hem de huid vol scheldt omdat ie weer eens gecrasht is, of niet helemaal deed wat je ervan verwachtte. En hoe zit het met kantoortuinen? Zullen grote ondernemingen bereid zijn hun binnenhuisarchitectuur aan te passen omdat de computer van de buurman dacht dat ik hem opdroeg zijn harde schijf te formatteren?
Een spraakinterface is leuk, maar er komen nogal wat dingen bij kijken. Vooralsnog heeft niemand daar veel aandacht voor. Misschien moeten we ook daar weer denken aan een re-engineering van het bedrijf. Het kan de economie alleen maar ten goede komen.
Erik Vlietinck, freelance medewerker