In de jaren 80 zat ik aan de buis gekluisterd voor de tv-serie Knight Rider, waarin Michael Knight samen met zijn auto KITT de misdaad bestreed. Het feit dat Michael met zijn auto kon praten, vond ik geweldig. KITT begreep hem en gaf zinnige en soms gevatte antwoorden. De auto was een echte persoonlijkheid en co-ster in de serie.
In 2011 kwam Apple met Siri op de markt. Je eigen assistent op de iPhone 4S, waarmee je vragen aan de telefoon kan stellen, zoals: 'Wat voor weer wordt het morgen?' Net als KITT geeft Siri antwoord en laat het weer zien op de locatie waar ik me bevind. Naast het weer kan je ook vragen om berichten te versturen, afspraken te maken en het dichtstbijzijnde tankstation op te zoeken. Het was in 2011 dat ik voor het eerst een vraag aan een apparaat kon stellen. Siri gaf zinnige en soms komische antwoorden: ik had mijn eigen KITT in handen.
Dat was toen. Een recenter voorbeeld is de spraakgestuurde app van de NS. Je kunt eenvoudigweg vragen: 'Hoe laat gaat de trein naar Utrecht?' en de app zoekt binnen 1,5 seconden uit waar je nu bent, hoe ver het lopen is naar het station, hoe laat de treinen naar Utrecht gaan en toont je de info kort en krachtig op het scherm.
Deze app bevat een database, jij praat tegen de app en die herkent de klanken van je stem. Deze klanken worden omgezet naar karakters en vervolgens gematched met de informatie uit de database. Op basis van deze analyse en matching herkent de app de componenten en zoekt hij naar de best mogelijke oplossing.
Er zijn vele andere voorbeelden waarbij spraak opvallend sneller is dan de ‘ouderwetse’ manier. Neem bijvoorbeeld het bankieren: 'Maak driehonderd euro over van mijn spaarrekening naar de betaalrekening van mijn vrouw'. Dit kost je vier seconden voor een spraakopdracht, maar meer dan vijftien seconden voor de handmatige handeling.
Ook zijn er al apps die spraakgestuurd vertalen. Deze apps zetten de gesproken berichten automatisch om in een andere taal. Je hoeft enkel de telefoon omhoog te houden wanneer je iets wil vragen, bijvoorbeeld in het Italiaans. Wil je in Italië de vertaling van 'Hoe duur is die pizza?', spreek dit dan in en de de app vraagt in vloeiend Italiaans de pizzaverkoper, 'Quanto è che la pizza?'
Waarom wordt spraak groot? Het is persoonlijker en makkelijker, maar het is vooral een stuk sneller. Touch heeft al een revolutie teweeggebracht in de grafische user interface, zodat zelfs peuters kunnen door foto's heen swipen. Met spraak kunnen mensen in enkele seconden complexe vragen stellen en het apparaat voert de gevraagde taak uit. Binnen een jaar is praten met je telefoon net zo gewoon als swipen en onmisbaar bij je dagelijkse bezigheden.
Robert,
Onmisbaar binnen een jaar weet ik nog net zo niet, wel dat het een verrijking kan zijn voor veel apps. Dat kan facial recognition software ook zijn maar dat zie ik ook nog niet gebeuren.
Het probleem ligt namelijk op een aantal fronten volgens mij:
* Het overgrote deel van app gebruikers moeten het binnen 12 maanden al onmisbaar vinden terwijl de kans dat de meest gebruikte apps dit deze week implementeren vrijwel nihil is
* De snelheid van aanpassen aan App-processen door gebruikers gaat snel, maar het duurt nog steeds wel maanden i.p.v. dagen
* Er zijn genoeg situaties waar spraakherkenning helemaal niet zal worden gebruikt. Bijvoorbeeld als het gaat om privé of gevoelige zakelijke informatie/handelingen in een openbaar gebied.
* Weet niet of Smartphone batterijen een grote hoeveelheid spraakherkenning queries wel leuk gaan vinden
Maar we zullen zien!
Spraakherkenning wordt zeer belangrijk, maar is ook nog steeds beperkt.
In zeker 1 op de 3 gevallen begrijpt de telefoon niet wat je zegt.
Bovendien mis ik bij deze apps altijd het echte persoonlijke aspect. KITT was meer een persoonlijke zoekassistente die met je meedacht en vragen terugstelde om efficienter te werken.
Ik was overigens ook een groot fan van knight rider.
Spraakherkenning voor het bediening van apparatuur of communicatie heeft een grote toekomst. 10 jaar geleden kon je de pc al commando’s geven als print, ga naar, etc. Spraakherkenning waarbij het toetsenbord overbodig wordt is in sommige beroepsgroepen als niet meer weg te denken.
Voor ingewikkelde commando’s die binnen een bepaalde context moeten handelen, zoals het voorbeeld van overboeken van geld lijkt mij nog een brug te ver. Daar komt meer bij kijken dan allen het comando.
Naar mijn idee ontwikkeld dit zich allemaal erg traag, kijk maar eens naar multilanguage ondersteuning, Siri verstaat vooralsnog geen Nederlands. Ik mis het al jaren, maar of het binnen een jaar nu breed in de markt staat, dat is de vraag.
Spraak is gewoon een bijkomende invoermogelijkheid die soms makkelijk is en soms niet. Enige jaren geleden had ik een auto waar ik allerlei dingen kon aansturen door commando’s te geven. Makkelijk omdat ik dan niet mijn handen van het stuur af hoefde te halen. Probleem was (en is) dat het minder goed werkte als er veel achtergrond geluid was.
Ondertussen zijn we al weer verder en hebben we ‘vertaal apps’ en allerlei andere handige dingen die spraakgestuurd zijn. Maar zoals al aangegeven in vorige reacties moet je hierbij vaak goed articuleren, geen dialect spreken en woorden zonder meerdere uitleg gebruiken. Want soms krijg je, op basis van klinkt als, resultaten die vergelijkbaar zijn met automatische tekstaanvulling van T9.
Ik denk dat je zeker gelijk hebt over de plek waar spraak gebruikt gaat worden. In openbare ruimtes is het niet “fijn” om te vertellen waar je naartoe gaat of dat je geld overmaakt. Maar in privé sfeer kan het zeker wel, denk in de auto bijvoorbeeld.
Daarnaast merk ik al wel in mijn omgeving dat in eerste instantie spraak als gimmick wordt gezien, totdat er gemerkt wordt dat het echt snelheids winst oplevert. Maar ook daar geld, het is niet de enige manier van input, touch zal blijven bestaan, evenals de fysieke knoppen.
Qua kwaliteit van de herkenning is het niet zo zwart wil als dat ik eerst zelf dacht. op een iPhone 3GS is dezelfde Nuance (maker van spraak-herkennings-software) spraakherkenning een stuk minder accuraat dan een iPhone 4s. Dit komt omdat de iPhone 4s meer hardware heeft die “ruis”-onderdrukt en de herkennings software een “schoner” geluid aanbied.
Als ik kijk naar de state-of-the-art Nuance oplossingen (wat Apple-Siri als technologie gebruikt) dan wordt het herkennen van Nederlands en zelfs dialecten zoals “Fries” goed ondersteund. Dus zelfs met redelijk veel achtergrond-geluid, en ook in de auto of in de kroeg.