Lumière - Google präsentiert KI Raum-Zeit-Diffusionsmodell für konsistente Videos

// 13:21 Mi, 24. Jan 2024von

Wie wir bereits seit längerem gemutmaßt haben, will Google sich natürlich nicht lumpen lassen und auch im aufkeimenden KI-Video-Club mitspielen! Zwar gab es schon im Vorfeld mehrere Text2Video Modelle aus dem Hause des größten Suchmaschinen-Betreibers und Youtube-Besitzers - aber mit Lumière stellt Google nun sein erstes State-Of-The-Art (SotA) KI-Generierungstool vor, welches aktuelle Probleme der Bewegungskonsistenz besser zu lösen scheint, als die Konkurrenz.


Lumière basiert auf einem Text-zu-Video-Diffusionsmodell, das für die Synthese von Videos entwickelt wurde, um realistische, vielfältige und kohärente Bewegungen darzustellen. Zu diesem Zweck stellt Google in seinem zugehörigen Paper die Space-Time U-Net-Architektur vor.



Aktuelle Modelle berechnen zuerst Keyframes, um in weiteren Durchgängen zwischen diesen Standbildern temporale Zwischenbilder zu erzeugen. Ein Ansatz, der es von Natur aus schwierig macht, zeitliche Konsistenz über den gesamten Bildinhalt zu erreichen.



Google Lumière - KI Raum-Zeit-Diffusionsmodell
Google Lumière - KI Raum-Zeit-Diffusionsmodell


Im Gegensatz zur Konkurrenz erzeugt Lumière dagegen den gesamten Clip mit einem einzigen Durchgang im Modell. Durch den Einsatz von zeitlichem Down- und Up-Sampling und der Nutzung eines vortrainierten Text-zu-Bild-Diffusionsmodells kann Lumière so direkt "in einem Rutsch" ein Video mit voller Bildrate und niedriger Auflösung erzeugen.



Die präsentierten Ergebnisse erscheinen uns gerade bezüglich der Bewegungs-Konsistenz wirklich außergewöhnlich gut. Ebenfalls interessant ist dabei zu sehen, dass Lumière auch weitere Möglichkeiten bei der Erstellung des Videos bieten wird ( Bild-zu-Video, Video-Inpainting und stilisierte Generierung).



Wie das alles bei Google anschließend zusammen spielen kann, zeigt das folgende Video sehr anschaulich:






Natürlich sind auch diese Ergebnisse sicherlich "cherry picked", aber wir denken, es genügt um zu sehen, dass man Google im Rennen um die KI-Videogeneratoren nicht unterschätzen sollte. Eine Möglichkeit Lumière selbst auszuprobieren, gibt es allerdings noch nicht.



Google Lumière - KI Raum-Zeit-Diffusionsmodell
Google Lumière - KI Raum-Zeit-Diffusionsmodell


Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash