Van tekst naar stem. Het is een technologie die al jaren bestaat. Toch meent de Leidse startup Daisys iets nieuws te hebben ontwikkeld: een computerstem gegenereerd met kunstmatige intelligentie (ai), terwijl de gangbare voorleestechnologie zich baseert op audiofragmenten van mensen. De ai-stem klinkt natuurgetrouw en is in realtime aanpasbaar qua snelheid en toonhoogte.
De 17e-eeuwse filosoof Descartes had het volgens Daisys fout toen hij zei ‘Ik denk, dus ik besta’. Dat zou moeten zijn ‘Ik klink, dus ik besta’. En dus geven ze de Britse computerpionier Alain Turing postuum nog even een pluim.
Daisys genereert realistisch klinkende computerstemmen die niet eerder bestonden. Er komen geen deepfakes van bestaande audiofragmenten aan te pas, zoals tot nu toe gebruikelijk is bij text-to-speech-technologie. Zulke deepfakes zijn volgens directeur Barnier Geerling niet houdbaar. Immers, niet iedereen wil zijn stem uitlenen zonder controle te hebben over wat ermee wordt gezegd.
Modellen trainen
De startup werkte de afgelopen anderhalf jaar aan de ai-technologie die aan de voorleesstemmen ten grondslag ligt. ‘We hebben de bestaande basistechnologie voorzien van enkele belangrijke aanpassingen’, vertelt technologiedirecteur Joost Broekens. ‘Daarnaast moesten we onze modellen op een slimme manier ‘trainen’, gebruikmakend van de juiste verhouding van spraakdata van verschillende sprekers.’
Dat de voorleesstem volledig is gegenereerd door een algoritme, betekent dat deze eenvoudig is aan te passen en toch natuurlijk klinkt. De techniek is overal in te zetten waar een menselijke stem nodig is, aldus het bedrijf. Het gaat bijvoorbeeld om media, smart devices, games, robots, spraakassistenten en omroepsystemen.
Op de site van Daisys staat een audiofragment van de technologie. De stemmen die je hoort, klinken inderdaad natuurlijker dan veel andere computer-gegenereerde voorleesstemmen. Er is zelfs wat emotie herkenbaar, hoewel het toch wel duidelijk blijft dat het om gefabriceerde stemmen gaat. ‘Als iedereen gelooft dat ik echt ben, ben ik echt (…) Dus Descartes had het fout en Turing had het goed. Ik klink, dus ik besta’, aldus de stemmen.
Rij je dan ook nog een oude T-Ford Louis? Ik loop niet voorop in de ontwikkelingen maar ik vraag Siri om Whatsapp berichten voor te lezen en dicteer de antwoorden er op, nooit een moment gedacht dat het hier om een mens ging. Oja, het articuleren is wel belangrijk bij het dicteren wt btrft klnkrs;-)
Oudlid-louis-jack, geen “eeuwige gouden band”
@oudlid Ha ha, nou het scheelt weinig het is geen T-ford maar het is wel auto zonder computer erin. Een zegen. Ik zit met de deep fake in mijn hoofd dat het net echt moet lijken. Articuleren kon deze computerstem wel maar het is net als met die filmpjes is het net niet. Al klonk dit niet slecht. Die goede deep fake filmpjes heb je uiteraard niet door.
De toevoeging van Dino heeft (zoals vaak) weinig toegevoegde waarde, het is een reactie zonder medeklinkers en echo als het om de ‘Blowin’ in the wind’ van de filosofische vragen in het leven gaat. Of zou het komen doordat Dino als antwoord op alle vragen over het leven het cijfer 42 geeft?