Om mensen echt te begrijpen moet een robot naast spraakherkenning op woordniveau ook de context van een gesprek snappen. Bijvoorbeeld wanneer iemand in een gesprek een grapje maakt of iets sarcastisch bedoelt. Onderzoekers van de Vrije Universiteit Amsterdam werken, onder leiding van professor Piek Vossen, aan een robot die dat kan leren.
‘Wij bouwen een robot die in staat is om te leren en zich aan te passen door communicatie met mensen. In deze robot komen veel technieken samen: spraakherkenning, objectherkenning, gezichtsherkenning, taaltechnologie en semantische webtechnologie’, vertelt prof. dr. Piek Vossen (57). Hij is hoogleraar Computationele Lexicologie aan de VU in Amsterdam en hoofd van het Computational Lexicology and Terminology Lab dat onderzoekt hoe machines taal kunnen begrijpen.
In dat lab, dat al tien jaar bestaat en sinds een jaar over een robot beschikt, onderzoekt Vossen samen met zijn team hoe robots kunnen leren om natuurlijke taal te begrijpen. Vossen: ‘Dit maakt het mogelijk om kennis en informatie uit teksten te halen, maar ook om met robots te communiceren. Robots hebben sensoren voor hun omgeving, hebben toegang tot kennis op het web en ze lezen het nieuws om te weten wat er in de wereld speelt. Maar ze leren ook direct van mensen door met ze te communiceren.’
Vossen’s team ‘tweakt’ bestaande toepassingen voor spraakherkenning (zoals Google API’s), gezichtsherkenning en emotieherkenning (bijvoorbeeld op basis van gezichtsuitdrukkingen of stemgeluid) en koppelt die aan complexe problemen in de taalwetenschap. Het onderzoek, dat veel weg heeft van een sociaal experiment, richt zich op drie centrale thema’s. Vossen legt uit: ‘Dat zijn identiteit, verwijzing en perspectief. Een robot moet weten wat er bestaat in de wereld en in een specifieke situatie: hoe deel ik de wereld in en wat is daarbij belangrijk en wat niet? Hoe herken ik dingen (identiteit), wat sla ik op en wat negeer ik? Het gaat dan om een weging van de relevantie van informatie.’
Ook verwijzing en perspectief spelen een rol. Pas als duidelijk is in welke situatie een robot en een mens zich bevinden, wordt bepaald welke woorden waar naar verwijzen. ‘De woordkeus en de manier waarop wordt bepaald door het perspectief van de robot of de mens: sta je ergens voor, achter, onder, boven of naast? Vind je iets prettig of vervelend, bedreigend of wenselijk.’
Als voorbeeld noemt Vossen objectherkenning. De robot die de VU ontwikkelt, kan op basis van een Microsoft object-database ruim honderd objecten herkennen door beeldanalyse. Vossen: ‘In een beeld kunnen meerdere objecten staan. Ieder object krijgt een label. Bij een foute interpretatie – bijvoorbeeld als een persoonlijke koffiemok wordt aangezien voor een mobiele telefoon – moet het systeem aanleren dat dit niet klopt en wie de eigenaar is. Bovendien ziet de robot zowel objecten op de voorgrond als in de achtergrond, naast een koffiezetapparaat of een afwasmachine. Een mens moet vervolgens helpen om de relevantie van die objecten te bepalen. Bij een volgende ontmoeting (her)kent de robot als het goed is de situatie, de persoon (op basis van gezichtsherkenning) en hij weet aan de hand van eerdere communicatie wat het object is en wie de eigenaar.’
Ict’er onderschat de complexiteit
Volgens Vossen onderschatten ict’ers vaak de complexiteit van sociale interactie met robots. ‘De belofte van de techniek is gebaseerd op losse taken die steeds sneller en beter gaan en zich ontwikkelen. Zoals in het geval van spraakherkenning de ontwikkeling van Google’s deeplearning en algoritmen. Dat is ontzettend indrukwekkend.’
Wanneer die afzonderlijke vaardigheden – spraakherkenning, gezichtsherkenning, objectherkenning enzovoort – naar een hoger niveau worden getild, is het probleem niet automatisch opgelost. ‘Je moet er allereerst mee rekening houden dat spraaktechnologie nooit perfect zal zijn. Mensen verstaan en begrijpen elkaar ook niet altijd. Dus de communicatie met een robot wordt nooit perfect.’
De robot moet volgens Vossen er ook mee kunnen omgaan wanneer mensen bewust of onbewust verkeerde informatie geven. ‘Dat geldt zowel voor de eigen signaalverwerking als de input die je krijgt. Dus je moet voortdurend aan een model werken, waarin vertrouwen is meegenomen en dat wordt meegewogen in de beslissingen en keuzes die de robot maakt.’
Vossen legt ook uit dat met name de complexiteit van taal een grote uitdaging vormt. ‘Taal is rijk, abstract, vaag en meerduidig. Hoe bepaal je naar welke dingen woorden verwijzen, hoe relateer ik taal aan de wereld die wij kennen? Waarom kiezen mensen verschillende woorden en uitdrukkingen om dezelfde dingen en situaties anders te ‘framen’?’
Corrigeren, leren en functioneren
‘Onze robot houdt er rekening mee dat de robot en mensen verschillende interpretaties en meningen kunnen hebben en dat niet duidelijk is wie gelijk heeft.’ Vossen legt uit dat dit een vaardigheid is die kinderen vanaf hun tweede levensjaar ontwikkelen. In de gedragspsychologie noemen ze dit de Theory-of-Mind. ‘Onze robot is daarom voortdurend bezig om gaten in kennis op te vullen, en onzekerheid en conflicten op te lossen. Deze honger-voor-kennis vormt de ‘drive’ van de robot.’
‘In plaats van trial-&-error leert onze robot zoals je een kind opvoedt’, stelt Vossen: ‘Je zegt tegen de robot wat verkeerd is of wat die moet weten door middel van taal en niet door te laten voelen. Het concept dat wij toepassen is corrigeren, leren en functioneren.’ Bij ‘corrigeren’ krijgt de robot feedback over wat goed en fout is. Dit wordt gebruikt in deep learning om het steeds beter te doen. Bij ‘leren’, leg je in abstracte woorden uit waarom dingen zijn zoals ze zijn en wat de mogelijke gevolgen zijn: de rationaliteit. De robot slaat dit op en moet dit vervolgens gebruiken voor verstandig functioneren in een omgeving. Bij ‘functioneren’ gaat het om drie dingen: het onderhandelen over een gedeeld doel tussen mens en robot, hoe dat bereikt wordt, en het oplossen van eventuele conflicten via consensus. Bovendien moet het functioneren zinvol zowel voor de mens als de robot zijn.’
Ethiek en privacy-issues
Bij robots speelt vaak de discussie over ethiek. Bijvoorbeeld als een robot een opdracht moet weigeren die volgens de wet niet toegestaan is of in onze cultuur als asociaal wordt beschouwd. Naarmate er meer interactie is met de wereld om de robot heen, gaat dat steeds meer spelen. Bij een computer is de impact op de directe fysieke omgeving nog relatief begrensd. Een robot kan taken uitvoeren die gevolgen hebben voor de omgeving en verder gaan dan de verantwoordelijkheid van de eigenaar, legt Vossen uit.
‘Bij de robot die we nu maken, spelen ook uitdagingen op het vlak van privacy. De robot maakt sociale contacten aan en wil van iedereen om hem heen alles weten. Er ontstaat als het ware een soort robot-Facebook. Ik kan niet zomaar al die data bewaren. Er zijn strikte regels voor de verwerking van persoonlijke data en daar moeten wetenschappers zich aan houden. Daarnaast herkent de robot mensen op basis van hun gezichtsscan. Ook voor het opslaan van die foto’s van gezichten en profielen bestaan strikte regels.
De robot bouwt in de visie van Vossen ook een vertrouwensband op met mensen en beoordeelt bijvoorbeeld op basis van eerdere gesprekken of iemand te vertrouwen is.
De perfecte machine bestaat niet
Vossen tempert overigens graag de verwachtingen van taalbegrip door robots. Hij verwacht dat, ook als de technische omstandigheden perfect zijn, er altijd misverstanden blijven bestaan tussen mensen en robots. ‘Wij gaan ervanuit dat mensen fouten maken, maar robots ook. De perfecte machine bestaat niet. Om te kunnen samenleven in een maatschappij, moeten robots en mensen met elkaar communiceren over elkaars fouten, problemen en de impact van mogelijke oplossingen. Ook is het mooi als ze daarvan leren. Wat doe je bijvoorbeeld als er een probleem ontstaat met een robot? Zonder kennis van de software en programmeertaal kun je een robot die vrij rondloopt en er niet uitkomt, niet helpen. Een vastgelopen robot moet een gesprek over dit probleem met je aan kunnen gaan en andersom.’
Datadistributie
Op het vlak van data-analyse liggen er volgens Vossen nog grote uitdagingen. Nu vindt taalanalyse plaats op basis van overeenkomsten met opgeslagen datamodellen. Hij legt uit dat grote bedrijven als Google, Amazon en Facebook enorme datasets gebruiken om taal te analyseren. Bijvoorbeeld hoe vaak een woord voorkomt in een tekst in de omgeving van andere woorden. In zijn ogen is het juist de kunst om ook uitzonderingen te herkennen. ‘Robots zullen veel beter taal begrijpen, als ze met die uitzonderingen omgaan. Je moet dus heel goed nadenken over datadistributie.’
Hij vervolgt: ‘Onze visie op quantified data is dat – als je intelligentie in je systemen wilt inbouwen – je zorgt dat systemen weten wanneer ze de meest frequente uitkomsten moeten negeren en kiezen voor de uitzondering. Anders komt telkens de statistisch meest voor de hand liggende optie bovendrijven.’ Volgens Vossen werkt het bij taalanalyse niet om altijd te kiezen voor de meest voorkomende analyse.
Voorbeeld: iemand praat over Ronaldo. Dan zal een computer direct denken dat het om de wereldberoemde voetballer gaat. Er was echter ook eerder een bekende voetballer die zich Ronaldo noemde. ‘Maar, als jij een gesprek voert over een vriend die Ronaldo heet, een hele andere context dus, dan leg je op geen moment de link met die voetballer. Systemen kunnen dat nu nog niet. Ze zijn niet in staat om die vriend te herkennen in jouw verhaal.’
Hij vervolgt: ‘Onze wereld heeft geen distributie, maar de data over die wereld wel. Waardoor alle systemen maar een stukje van de wereld herkennen. In plaats van dat alles gelijkwaardig is. En daarom is het belangrijk dat het systeem, bij de ontwikkeling van jouw persoonlijke assistent, leert om context, persoonlijke informatie, kennis en data op te bouwen.
Leren omgaan met robots
Vossen voorziet dat mensen, net zoals bij computers, eerst moeten leren omgaan met robots. ‘Ze zullen in eerste instantie veel te menselijk met een robot omgaan. Waardoor ze bijvoorbeeld te snel gaan praten en te hoge verwachtingen hebben van wat de robot kan.’ Hij voorziet ook dat er misverstanden en irritaties ontstaan. ‘Mensen raken afgeleid als een robot bijvoorbeeld met het hoofd de andere kant op draait en denken dat ze geen contact meer hebben, terwijl de camera van de robot nog steeds de gesprekspartner registreert. Zeker bij humanoïde robots (robots met menselijke kenmerken zoals een romp, hoofd, armen en benen red.) zullen mensen moeten wennen aan de reacties van de robot.’
Door ervaring zullen mensen dus meer oog krijgen voor hoe de robot informatie verwerkt en beweegt. ‘Pepper geeft bijvoorbeeld met verschillende kleuren van de lampjes in de ogen aan wanneer luistert, kijkt of informatie verwerkt. Als je dat door hebt, weet je ook precies wanneer je even stil moet zijn. En dan ga je de robot meer als een instrument gebruiken en niet als een persoon.’
Wie heeft er baat bij dit onderzoek?
Vossen verwacht dat robots toekomstige problemen oplossen in bijvoorbeeld onderwijs en de zorg, zoals bij personeelstekorten en kosten die de pan uit rijzen. ‘Wij willen dan wel dat sociale robots op een prettige manier met kinderen en ouderen communiceren, zodat ze individuele aandacht en zorg op maat leveren.’ De universiteit zoekt bijvoorbeeld partners voor de ontwikkeling van een blindengeleidenrobot.
Volgens Vossen kunnen onder meer kinderen met autisme of dyslexie profiteren van robots. Bijvoorbeeld als die hen beter begrijpen en blijven leren om zich te verbeteren. Dat geldt ook voor de interactie met mensen met beperkingen of dementerende ouderen.
De VU-onderzoeker zoekt nog partners en fondsen bij bedrijven die diensten willen ontwikkelen waarin communicatie tussen mens en machine een rol speelt. Ook voorziet hij dat overheden en bedrijven, voor wie communicerende robots toegevoegde waarde hebben, baat hebben bij het onderzoek. Denk aan functies als portier, receptionist, toezichthouder, rondleider of winkelbediende.
Vossen meent dat, in vergelijking met veel andere onderzoek op deelgebieden van robotisering, de kracht vooral zit in de benadering van een communicerende robot. ‘Onze robot corrigeert, leert en functioneert door middel van taal. Dat is uniek in de wereld. Maar het is ook belangrijk voor de inrichting van de toekomstige wereld, waarin mens en techniek meer en meer met elkaar verweven raken.’
Sociale aspect
Het sociale karakter van robots ziet Vossen ook als kracht. Hij denkt dat het steeds belangrijker wordt om de samenwerking menselijker te maken. ‘Het functioneren van een robot zal steeds beter gaan als die robot jou en de situaties beter leert herkennen.’ Als voorbeeld noemt hij de spraakassistent van Google. Die is onlangs aangepast op de Nederlandse taal en begrijpt ook de Nederlandse context van dingen. Zoals een repertoire aan Nederlandse liedjes en wat Appie is. Vossen kritisch: ‘Maar dat gaat natuurlijk nooit ver genoeg. Als ik in de toekomst een robot aanschaf voor thuis, dan wil ik dat die mij persoonlijk begrijpt en weet hoe die met mij moet omgaan.’ Daar moeten volgens de onderzoeker nog veel stappen gezet worden.
(Deze bijdrage is afkomstig uit Computable Magazine, editie 05/2018.)
Infosecurity.nl en Data & Cloud Expo
Piek Vossen is spreker tijdens het onafhankelijk sprekersprogramma van Computable tijdens de vakbeurzen Infosecurity.nl en Data & Cloud Expo in de Jaarbeurs in Utrecht op 31 oktober en 1 november 2018. Lees meer op pagina 24 en 25.