OpenAI VALL-E: Neue KI macht jede Stimme nach - nur anhand von 3s Stimmsample

Es gibt ja schon seit längerem verschiedene DeepLearning Algorithmen, welche die unterschiedlichsten Stimmen täuschend echt nachahmen können - allerdings war bisher immer eine mehr oder weniger lange Aufnahme der Originalstimme für eine gute Simulation notwendig. Microsofts OpenAI, bekannt unter anderem durch die bildgenerierende KI DALL-E 2, hat jetzt eine verwandte KI für die Generierung von Sprachaufnahmen vorgestellt. Die große Neuerung dabei ist, daß diese nur eine 3 sekündige Aufnahme der nachzuahmenden Stimme als Prompt benötigt, um dann beliebige Texte auszugeben, die wie von dieser Stimme gesprochen klingen und auch deren Emotionalität reproduzieren kann.


Möglich ist das durch eine große Menge an Sprachaufzeichnungen, anhand derer VALL-E trainiert wurde, rund 60.000 Stunden von Aufnahmen von rund 7.000 verschiedenen Stimmen in englischer Sprache. Da sich die Variationen unterschiedlicher Stimmen in einem gewissen Spektrum bewegen, kann VALL-E bei einer neu zu simulierenden Stimme einfach auf das gelernte Wissen ähnlicher Stimmen (und deren verschiedener Charakteristiken) zurückgreifen und so die neue Stimme synthetisieren. Interessanterweise nutzt VALL-E zur Komprimierung der Stimmen einen neuralen Audiocodec.



Laut OpenAI zeigen die Versuchsergebnisse, dass VALL-E vergleichbare TTS-(Text-to-Speech) Systeme in Bezug auf die Natürlichkeit der Sprache und die Ähnlichkeit der Sprecher deutlich übertrifft. Außerdem kann VALL-E die Emotionen des Sprechers und die akustische Umgebung des akustischen Prompts in der Synthese weitestgehend bewahren (wie unten im dritten Beispielclip gut zu hören ist). Die Sprachausgabe von VALL- E kann bei gleichem Eingabetext variieren, es lassen sich also eine Vielzahl leicht unterschiedlicher personalisierter Sprachproben synthetisieren.



SampleSprachsynthese



Auf der Webseite von VALL-E finden sich zahlreiche weitere Beispiele.




Viele Anwendungsmöglichkeiten für eine Stimmensynthese

Die Chancen der neuen Technik sind ebenso wie die Risiken gewaltig - durch die von VALL-E benötigten, nurmehr sehr kurzen Stimmsamples erweitert sich deren Einsatzgebiet nochmals deutlich. Schon jetzt ist es zum Beispiel beim Dubbing von Filmen in einer anderen Sprache möglich, per Sprachsynthese auch für einen anderssprachigen Text die Originalstimme des jeweiligen Schauspielers zu nutzen.



Auch könnten persönliche Assistenten wie Siri oder Alexa mit den Stimmen von beliebigen anderen Menschen mit dem User kommunizieren oder Textnachrichten (seien es SMS oder Whatsapp) in der Stimme des jeweiligen Absenders vorgelesen werden. Ein sehr praktischer Einsatzzweck bietet sich für Menschen, die durch eine Erkrankung (wie z.B. Menschen mit ALS) ihre Stimme verloren haben. Diese könnten dann per Texteingabe mit ihrer eigenen Stimme reden - natürlich vorausgesetzt es existiert altes Trainingsmaterial der Stimme.



Neural Audiocodec
Neural Audiocodec



Die Gefahr der Manipulation mittels Fake-Stimme

Die Missbrauchsmöglichkeiten einer Stimmsimulationen per VALL-E mittels sehr kurzer Samples sind natürlich auch groß - so könnten beliebig Sprachaufnahmen gefälscht werden, um jemanden - sei es ein bekannter Politiker oder eine Privatperson - zu diskreditieren oder falsche Informationen in Umlauf zu setzen. Ebenso könnten automatisierte Werbeanrufe mit der Stimme der eigenen Mutter oder eines Freundes erfolgen, oder eine noch überzeugendere Version des berüchtigten Enkeltrick-Schockanrufs könnte die Stimme des tatsächlichen Enkels nutzen - welche nur anhand eines kurzen Lockanrufes beim Enkel anhand dessen Sprachsample täuschend echt simuliert werden könnte.


Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash