Meinung: Midjourney trifft Pika Labs: Generative KI -Videos - Was geht, was kommt?

29.09.2023 von Rudi Schmidts



Seitdem man mit generativen KI-Modellen wie Midjourney oder Stable Diffusion fotorealistische Bilder generieren kann, warten KI-Apologeten nun natürlich auch sehnsüchtig darauf, ähnlich imposante, bewegte Ergebnisse zu Gesicht zu bekommen. Doch eine realistische Bewegung für einen animierten Clip "digital zu erträumen" erweist sich für ein KI-Modell noch einmal als deutlich anspruchsvollere Aufgabe, als "nur" ein realistisches Standbild zu erstellen.

Bewegung triggert die Aufmerksamkeit

Das grundsätzliche Problem ist dabei, dass uns Menschen unnatürliche Bewegungen noch viel schneller auffallen, als kleine, fehlerhafte Details in Fotos. Da unser Wahrnehmungssystem besonders stark auf Veränderungen in unserem Blickfeld getrimmt ist und diese von unseren evolutionären Primär-Reflexen (optimiert auf Jagd und Flucht) vorrangig verarbeitet werden, fallen hier kleinste Unstimmigkeiten sofort auf. Und lenken unser Augenmerk ganz besonders auf jede Unstimmigkeit in der Wahrnehmung. Umso erstaunlicher ist es, mit welchen Fortschritten die neuesten KI-Modelle nun auch das Problem einer glaubwürdigen Bewegung angehen.

Ein grundsätzliches Problem bleibt vorerst bestehen; Nachdem man weder den kompletten Bildinhalt noch die notwendigen Bewegungsschritte erschöpfend mit einem Prompt beschreiben kann, muss die KI immer viele offene (weil nicht formulierte) Bereiche des Bildes selbst plausibel "erfinden". Beschreibt man beispielsweise nur: "Drehe den Kopf nach links", so bleibt trotzdem viel notwendige Information unformuliert, und damit undefiniert.

Sprache kann nicht alles beschreiben

Wie soll sich zum Beispiel die Mimik während einer Kopfdrehung verändern? Was soll mit den Haaren passieren? Sollte die Person vielleicht nicht auch ein- oder zweimal blinzeln? Zudem lassen sich viele notwendige Details ohnehin nur schwer mit Sprache ausdrücken. Wie könnte man beispielsweise sinnvoll beschreiben, dass sich ein Hemdkragen bei der Bewegung in einer bestimmten Art und Weise falten soll. Und selbst wenn man hier viele Details formulieren könnte, so müssten diese Formulierungen auch schon in den Trainingsdaten vorgelegen haben - was wohl bislang auch nicht der Fall gewesen sein dürfte.

Bildausschnitt aus Star Wars 2023
Bildausschnitt aus Star Wars 2023

Aus Erfahrung einfach spinnen lassen?

Eine aktuelle (Zwischen?)-Lösung liegt darin, dem KI-Modell als Ausgangsmaterial ein fertiges Bild zu präsentieren und es dann daraus eine (höchstens offen) formulierte Bewegung weiterspinnen zu lassen. Trainiert werden solche Modelle mit sehr unterschiedlichen Bewegtbild-Daten, bei denen man vorhandene Frames in Videoclips auslässt und diese durch ein Netz mit dem echten Zwischenbild als Zielausgabe trainiert. Dies kann man sich wie die Restauration eines fehlenden Frames vorstellen.

Bewegung ohne Ziel

Nvidia nutzt diese Idee übrigens sehr erfolgreich, um bei Videospielen die Frameraten zu erhöhen, indem man fehlende Zwischenbilder in Echtzeit hinzu erfindet. Noch spannender ist es jedoch mittlerweile, das KI-Modell von einem Bild einfach selbständig losspinnen zu lassen. Also ohne ein festes Zielframe.

Aktuelle Beispiele

Im einfachsten Fall kann man -wie in unserem Mattepainting-Workshop oder bei den viralen Wes Anderson Clips- von der KI ein relativ einfaches, statisches Umfeld erschaffen lassen und Teilbewegungen in den Clip integrieren. Vor wenigen Tagen wurde beispielsweise ein neues Black Eyed Peas Musikvideo vorgestellt, welches sich offensichtlich zumindest teilweise dieser Technik bedient:

Mit neueren Tools wie Pika Labs kommt nun aber echtes Leben in die Bude. Hierbei können aus beliebigen Standbildern mittlerweile mehrere Sekunden Video weitergesponnen werden. Jetzt sogar inklusive der Bewegung von Objekten im ganzen Bild sowie Kamerafahrten. Ein erstaunliches Beispiel zum Stand der Technik liefert das zugegebenermaßen recht unappetitliche Video "Mucky Run" von douggy:

Da hier sowieso alles schleimt und glibbert, fallen die entsprechenden KI-Bewegungs-Artefakte nicht auf, sondern werden passend vom Thema selbst maskiert.

Mit ähnlichen Tricks kaschiert auch "Star Wars 2023" die eigentlich noch stark eingeschränkten Möglichkeiten von Pika Labs. Es gibt nur wenige Sekunden Clip am Stück und der Inhalt ist nicht so vertraut, dass das Bewusstsein jeden Bildfehler gleich ablehnt:

Sogar im Gegenteil: Hält man das Video an, sieht man in den Standbildern erstaunlich viele Fehler, die jedoch aufgrund der Fixierung auf die Bewegung beim ersten Sehen nicht unbedingt wahrgenommen werden.

Viel geht noch etwas daneben, aber einiges klappt!

KI-Kritische Leser werden nun wohl anmerken, dass viele Bewegungen dennoch nicht natürlich ausfallen. Wer jedoch etwas analytischer auf die Clips blickt, muss auch anerkennen, dass einige Bewegungen durchaus bereits sehr glaubhaft gelingen und man ohne KI für ein ähnliches Ergebnis ein Special Effects Studio schon für ein paar Wochen kostspielig auslasten könnte.

Kontrolle mit KI-Regieanweisungen

Aber natürlich ist die Kontrolle des visuellen Ergebnisses ein Problem. Bis auf weiteres bleibt der Zufall der eigentliche Regisseur und DOP der aktuellen generativen KI-Clips. Doch auch hier kommt sprichwörtlich Bewegung in die Forschung:

Ein sehr anschauliches Beispiel zum Stand der Technik lieferte Google mit "generativer Dynamik" ab. Hier lässt sich an Objekten in einem Standbild ziehen und zerren und das KI-Modell errechnet hierzu ein plausibles physikalisches Verhalten. Dieses "Ziehen statt Prompten" könnte somit vielleicht eine mögliche Zukunft für KI-Regieanweisungen werden.

KI mit Stil

In eine ganz andere Richtung geht der Einsatz von KI-Modellen als eine Art Style-Filter, der auch ganze Oberflächen und Objekte über die Zeit umwandeln kann. Martin Haerlin aus Berlin zeigt in diesem frischen Video, wie man aus einer einfachen Videovorlage sogar sehr lange Sequenzen mit guter zeitlicher Kohärenz (er)schaffen kann:

Hierbei kam übrigens Runway Gen-1 und Gen-2 zum Einsatz. Für solche Techniken braucht man allerdings auch entsprechend gefilmtes "Rohmaterial" als Input.

Also wann?

Man sieht jedenfalls bereits deutlich, mit welchen Schritten die Entwicklung von Bewegtbild-Modellen vonstattengeht - dennoch ist der Weg noch weit. Kleinste Fehler stören schnell den Gesamteindruck und machen einen professionellen Einsatz oft unbrauchbar. Jedoch ist zu erwarten, dass unter anderem Google, die mit Youtube auf einem unermesslichen Berg an Bewegtbild-Trainingsdaten sitzen, hier irgendwann mit einer imposanten Lösung aufschlagen werden. Denn es ist wirklich nur eine Frage der (Trainings)-Zeit, bis mächtigere Modelle glaubhafte Bewegungen aus diesen Daten lernen können.

Auch Möglichkeiten, die gezielte Bewegung der Objekte zu steuern, werden schnell zunehmen. Und nicht zuletzt wird es Tools geben, mit denen man auffällige Fehler im Clip einfach mit einem virtuellen Radiergummi entfernen, beziehungsweise neu erfinden lässt. Wann diese Ergebnisse letztlich gut genug sein werden, ist schwer zu sagen. Aber wir sind definitiv auf einem Weg zu immer besseren Ergebnissen in den nächsten Monaten und Jahren.

   


Kommentare lesen/schreiben

 

Top