Mensen over de hele wereld kunnen straks gemakkelijker in hun moedertaal communiceren met virtuele assistenten. Het aantal talen dat bijvoorbeeld Alexa kan begrijpen, wordt aanzienlijk vergroot.
Amazon Science heeft een dataset van 51 talen gemaakt die meer dan een miljoen gesproken ‘uitingen’ gebruikt. Onderzoeksresultaten van het National Robotarium, de Britse robotica- en ai-faciliteit, vormen de basis hiervoor. Dit project heeft de studie op gebied van meertalig taalbegrip een flinke stoot gegeven.
Onderzoekers van het National Robotarium, waarbij de Heriot-Watt Universiteit en de Universiteit van Edinburgh zijn betrokken, hebben een Spoken Language Understanding Resource Package (Slurp) ontwikkeld om het voor ai en machines gemakkelijker te maken om gesproken vragen en opdrachten van mensen te begrijpen.
Onderdeel van het pakket is een open dataset in het Engels die achttien domeinen beslaat. Amazon heeft onlangs de Engelstalige Slurp-dataset gelokaliseerd en vertaald in vijftig typologisch diverse talen. Daardoor is een nieuwe meertalige dataset ontstaan met de naam Massive.
Hoewel virtuele assistenten op basis van gesproken taal de afgelopen tien jaar grote vooruitgang hebben geboekt, beperkt het begrip van natuurlijke taal (NLU) zich nog steeds tot een klein deel van de ruim zevenduizend talen die de wereld kent.
Een moeilijkheid bij het maken van massaal meertalige NLU-modellen is het gebrek aan gelabelde gegevens voor training en evaluatie. De nieuw gecreëerde Massive-dataset, die een miljoen gelabelde uitingen bevat, verspreid over 51 talen en openbroncode, vult deze leemte.
Amazon heeft een wereldwijde wedstrijd gelanceerd waarin onderzoekers worden uitgedaagd de beste systemen voor het begrijpen van gesproken taal te bouwen met behulp van de dataset.