Auch wenn es um die Nachvertonung von Filmen geht stehen neue Lösungen auf Basis von KI-Algorithmen in den Startlöchern. Die Anwendungsgebiete gehen dabei von glaubhaften Sprechern für Dokumentarfilme bis hin zum Dubbing, also der lippensynchronen Nachvertonung von szenischen Schauspielern. Zum “in den Munde gelegt” hatten wir auch schon über komplett alternative Ansätze berichtet.
Bislang blieb jedoch als Problem im Raum, dass man computergenerierte Stimmen meistens noch deutlich von einer “echten” menschlichen Stimme unterscheiden konnte. Betonung und die fehlende variable Geschwindigkeit sorgten bis dato immer noch für einen deutlich sterilen Subton. Doch auch dies dürfte sich in nächster Zukunft radikal ändern.
Das verlinkte Google Paper beschreibt mit Tacotron 2 ein neuronales Netzwerk, das aus reinem Text mittels Prognose eine natürliche Betonung und einen runden Wortfluss erzeugt. Hörbeispiele dazu gibt es unter diesem Link. Die spannendsten Beispiele finden sich dabei ganz unten auf der Seite: Hier muss man raten, welche Sätze von Tacotron 2 erzeugt wurden und welche von einer echten menschlichen Sprecherin stammen. Um es vorweg zu nehmen: Mit Sicherheit lässt sich hier nichts mehr sagen.