Sprachsynthese kommt mit großen Sprüngen voran…

// 09:41 Fr, 29. Dez 2017von

Auch wenn es um die Nachvertonung von Filmen geht stehen neue Lösungen auf Basis von KI-Algorithmen in den Startlöchern. Die Anwendungsgebiete gehen dabei von glaubhaften Sprechern für Dokumentarfilme bis hin zum Dubbing, also der lippensynchronen Nachvertonung von szenischen Schauspielern. Zum “in den Munde gelegt” hatten wir auch schon über komplett alternative Ansätze berichtet.


Bislang blieb jedoch als Problem im Raum, dass man computergenerierte Stimmen meistens noch deutlich von einer “echten” menschlichen Stimme unterscheiden konnte. Betonung und die fehlende variable Geschwindigkeit sorgten bis dato immer noch für einen deutlich sterilen Subton. Doch auch dies dürfte sich in nächster Zukunft radikal ändern.



Das verlinkte Google Paper beschreibt mit Tacotron 2 ein neuronales Netzwerk, das aus reinem Text mittels Prognose eine natürliche Betonung und einen runden Wortfluss erzeugt. Hörbeispiele dazu gibt es unter diesem Link. Die spannendsten Beispiele finden sich dabei ganz unten auf der Seite: Hier muss man raten, welche Sätze von Tacotron 2 erzeugt wurden und welche von einer echten menschlichen Sprecherin stammen. Um es vorweg zu nehmen: Mit Sicherheit lässt sich hier nichts mehr sagen.


Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash