AI imiteert elke stem binnen enkele seconden

Het lijkt het begin van een flauwe grap: Obama, Hillary Clinton en Trump lopen een kroeg binnen en spreken vol lof over een nieuwe start-up in Montreal, Canada. De clou? Het is geen grap, luister maar naar onderstaande opname.

Het klinkt natuurlijk te bizar om waar te zijn – en dat is het dan ook niet. De opname is in zijn geheel gegenereerd door een AI-programma van start-up   Lyrebird,  dat een natuurlijk gesprek razendsnel kan imiteren. Het programma analyseert slechts een minuut van een opname van iemands stem  en haalt daar door machine learning het ‘spraak-DNA’ van de desbetreffende persoon uit.   Daar voegt het dan nog een extra laag met emotie of speciale intonatie aan toe, totdat het de stem, toon en het accent van die persoon heeft te pakken,  of het nou Obama of Trump is – of wie dan ook.

Zoals is te horen in de opname heeft Lyrebird nog een lichte maar duidelijk waarneembare robotzoem – die karakteristiek is voor robotspraak. Maar als er wat slim gekozen achtergrondgeluiden worden toegevoegd om die storing te verbergen, zal de opname door de nietsvermoedende  luisteraar als echt worden ervaren.

Over belangstelling heeft het jonge bedrijf niet te klagen. Volgens  Alexandre de Brébisson, een van de oprichters en momenteel PhD-student aan de universiteit van  Montreal, telde hun website op de eerste dag al 100 000 bezoekers en het team trok de aandacht van "diverse bekende investeerders."

 "We willen mens-computer interfaces verbeteren en nieuwe toepassingen creëren voor spraaksynthese", verklaart hij.

Stem DNA

Door te luisteren naar gesproken tekst leert de AI hoe letters, lettergrepen en woorden worden uitgesproken. Vervolgens gebruikt Lyrebird de geleerde voorbeelden om te extrapoleren op nieuwe woorden en zinnen en er emoties aan toe te voegen als boosheid, sympathie of stress.

In feite is Lyrebird een meerlaags kunstmatig neuraal netwerk, een type programma dat op bescheiden manier de werking van het menselijk brein imiteert.  Net als het biologische voorbeeld leren kunstmatige netwerken aan de hand van voorbeelden en sleutelen ze aan de verbindingen tussen elke neuron tot het netwerk de juiste output genereert.  Zoals bij andere deep learning technieken zijn voor de initiële training uren van stemopnames en talrijke iteraties nodig. Maar als de AI eenmaal is getraind voor één stem kan hij een acceptabele imitatie van een andere stem produceren met een snelheid van duizend zinnen per seconde, door gebruik te maken van een nieuwe opname van slechts één minuut.

De Brébisson stelt dat de kwaliteit van de spraak er na meer trainingen alleen maar op vooruit kan gaan. "Soms horen we wat geruis in de stemmen; dat komt omdat we de AI trainen met real-world data, waardoor de AI ook de achtergrondruis of de microfoonruis probeert te leren." Maar ook daar wordt aan gewerkt.

Ethische kwesties

De Brébisson onderkent dat het imiteren van een stem grote problemen kan opleveren. ‘Fake nieuws’ is zo’n probleem, maar ook beveiliging op basis van stemherkenning wordt onmogelijk. In een korte verklaring op hun website, gaat Lyrebird in op deze ethische kwesties. Maar het bedrijf stelt ook dat het negeren van deze techniek niet de juiste manier is. "We hopen dat iedereen zich er spoedig van bewust zal zijn dat het kopiëren van iemands stem mogelijk is. Door onze techniek openbaar te maken en beschikbaar te stellen aan iedereen willen we zulke risico’s vermijden."