Im professionellen Filmbereich gibt es seit einiger Zeit Dienste wie Flawless AI, welche visuelles Dubbing für Kinofilme anbieten und dabei per KI die Lippenbewegungen eines Schauspielers an den vom Synchronsprecher gesprochenen Text anpassen. Googles "Universal Translator" ergänzt dies also noch um die automatische Übersetzung samt Klonen der Originalstimme mit dem jeweiligen Tonfall, wie es zum Beispiel Eleven Labs auch beherrscht.
Google zielt mit seinem Universalübersetzer nicht aufs Kino, sondern YouTube-Videos. Demonstriert wurde der neue Algorithmus deswegen auch anhand einer Vorlesung aus einem Online-Kurs, den Google zusammen mit der Universität von Arizona ursprünglich auf Englisch produziert hat. Dank einer automatischen Übersetzung in YouTube könnte in Zukunft solche Kurse in jeder beliebigen Sprache angeboten werden und so für ein viel breiteres Publikum verfügbar sein.
Viele KI-Techniken in einem Tool
Googles "Universal Translator" nutzt gleich mehrere schon vorhandene Techniken, um seine Aufgabe zu erledigen. Zuerst wird das gesprochene Wort in Text transkribiert und die Stimme des Sprechers samt der Intonation analysiert. Dann wird dieser Text in die gewünschte Sprache übersetzt und in der Stimme des Sprechers neu synthetisiert. Zuletzt werden die zum neuen Audio passenden Lippenbewegungen generiert und mit dem Gesicht der sprechenden Person fusioniert.
Hier die Vorstellung: des Universal Translators (1:14:29):
Die Gefahren
Neben den vielen praktischen Einsatzzwecken hat eine solche Technologie auch ein großes Potential zum Missbrauch. Google ist sich aber durchaus der Gefahren solcher automatisierter Technologien bewusst, deswegen haben im Zuge des Dogmas "Bold and responsible AI" vorerst nur autorisierte Partner Zugriff auf den "Universal Translator", der sich ohnehin noch in einem experimentellen Zustand befindet und nicht perfekt ist. Google will seine per KI generierten Inhalte mit einem unsichtbaren Wasserzeichen versehen, welches diese als KI-generiert kennzeichnet.
Da allerdings alle dafür notwendigen Techniken bereits bekannt sind und entweder als Forschungsarbeiten oder sogar schon als Open Source Algorithmus vorliegen, wird es der Erfahrung nach nicht lange dauern, bis ein ähnliches Tool, welches all die genannten Schritte in sich vereint, frei veröffentlicht wird. Einzelne DeepFake Videos samt simulierter Stimme sind schon jetzt im Umlauf.
Kommentare lesen/schreiben
Passende News:
- Neue Tutorial Clips von Blackmagic Design: Erste Schritte mit der Camera App und Filesync mit BM Cloud
- PIKA 1.0 angekündigt - Generative KI-Videos mit erstaunlicher Qualität
- Erste Benchmarks zur AMD Ryzen 8000G APU - Apple Leistung zum Sparpreis?
- Ridley Scotts Napoleon: Die Cinematographie von DOP Dariusz Wolski
- Quad Pixel AF und Mini-R5C (S35) mit IBIS? Spannende, neue Patente von Canon
- Meta Emu Video / Edit - verbessert Konsistenz in generativen KI Videos
- 216 Zoll HD-Riesen-Display von Viewsonic - LDP 216-251
- KI-Videos: Runway Gen-2 macht weiteren Qualitätssprung nach Update
- Mehr Infos von Sigma zum kommenden 70-200mm F2.8 DG DN OS Sports Zoom
- Von Taxi Driver bis Silence - Martin Scorsese kommentiert seine Kultfilme
- Aktive EF Focal Reducer/Speedbooster von Meike für Sony E, Nikon Z und Canon RF
- Neue KI-Modelle von Adobe zur MAX - Firefly 2, Firefly Design und Firefly Vector