Een team van onderzoekers en ingenieurs bij Microsoft Artificial Intelligence & Research heeft naar eigen zeggen een doorbraak gemaakt in spraakherkenningstechnologie. Het team heeft een spraakherkenningssysteem ontwikkeld dat de woorden in een gesprek bijna net zo goed herkent als een mens dat doet.
De doorbraak zal volgens de softwaregigant van grote invloed zijn op consumenten- en zakelijke producten die aanzienlijk kunnen worden verbeterd met spraakherkenning. Dat geldt onder andere voor hulpprogramma’s voor toegankelijkheid zoals instant spraak-naar-tekst-transcriptie en digitale assistenten.
Neuraal netwerk
‘Deze mijlpaal is het resultaat van twintig jaar hard werken’, aldus Geoffrey Zweig, die leiding geeft aan de onderzoeksgroep. Microsoft benadrukt dat de computer niet elk woord perfect herkent, maar dat het foutenpercentage gelijk is als wanneer een mens naar het gesprek luistert. Zweig stelt dat de doorbraak met name te danken is aan het systematische gebruik van de laatste neurale netwerktechnologie. Diepe neurale netwerken gebruiken enorme hoeveelheden data, genaamd training sets, om het computersysteem te leren om patronen te herkennen afkomstig van beelden of geluiden. Het team gebruikte hiervoor de Computational Network Toolkit, een eigen systeem voor deep learning, dat nu op de site GitHub beschikbaar is via opensource.
Van herkenning naar begrijpen
Het onderzoeksteam benadrukt dat er nog een lange weg te gaan is. Zweig: ‘We onderzoeken nu manieren om ervoor te zorgen dat spraakherkenning kan werken in meer realistische situaties. Hierbij gaat het bijvoorbeeld om plaatsen met veel achtergrondgeluid. Ook willen we het mogelijk maken dat een computer een gesprek tussen meerdere personen kan volgen en dat spaaktechnologie werkt bij verschillende stemmen, ongeacht leeftijd, accent of spraakvermogen. Op de lange termijn willen we bereiken dat computers niet enkel spraak herkennen, maar ook de woorden begrijpen.’
Als oud tester van het Belgische Lernout & Hauspie, en medetester van Dragon Speech, heeft dit artikel zeker mijn aandacht. Tussen 1998 en 2000 zijn daar toen grote stappen gezet in de ontwikkeling van technische aansturing van apparaten d.m.v. spraak, die toen al vele interessante mogelijkheden boden. Helaas is een succesvol initiatief door jammerlijk handelen ter ziele gegaan.
De expertise heeft me niet los gelaten en ben in de loop van de jaren nog steeds bij verschillende initiatieven betrokken gebleven met name de mogelijkheden voor minder validen gebruik te laten maken met deze mogelijkheden. Helaas met wisselend succes omdat spraak iets unieks is in de zin dat het ook nog eens fluctueert per unieke situatie. Bedenk hier dat de menselijke stem naar omstandigheden kan veranderen en door zelfs een flinke verkoudheid qua gebruik problematisch kan worden.
Ik blijf de ontwikkelingen dan ook met opperste belangstelling volgen. Een goede ontwikkeling omdat het enorme potentie heeft.