Nach der Bild- die Videorevolution: Neue KI "Make-a-Video" generiert Videos nach Text

// 14:11 Fr, 30. Sep 2022von Thomas Richter

KIs generieren immer bessere Bilder nach Textbeschreibungen und es war klar, was der nächste Schritt sein würde: das Erstellen von Videos. Jetzt hat Meta AI, die KI Forschungsabteilung von Meta (ehemals Facebook) genau einen solchen Algorithmus vorgestellt. Die "Make-a-Video" getaufte Text-to-Video KI ähnelt den Text-zu-Bild KIs DALL-E 2 und Stable Diffusion, die in den letzten Monaten Furore gemacht haben.

Wie diese hat sie anhand Milliarden von Bildern samt Textbeschreibung gelernt, wie die reale Welt aussieht, aus welchen Objekten sie besteht und wie diese von Menschen beschrieben wird. Zusätzlich dazu allerdings wurde das neuronalen Netzwerk mittels zusätzlicher Schichten für die zeitliche Abfolgen von Bildern noch mit rund 20 Millionen Videos trainiert, um zu lernen wie sich verschiedene Objekte typischerweise bewegen.

So kann die Make-a-Video KI jetzt nur anhand von Textbeschreibungen beliebige kurze Videoclips erzeugen, wie zum Beispiel "Ein Teddybär malt ein Porträt" oder "Ein flauschiges Babyfaultier mit einer orangefarbenen Strickmütze, das versucht, einen Laptop zu bedienen, wobei sich in seinem Auge ein detailliertem Studiolichtschirm spiegelt". Ähnlich wie bei den bildgenerierenden KIs kann auch hier der Bildstil (realistisch, surreal, abstrakt, stilisiert, ...) beliebig definiert werden.

Erweckt Bilder zum Leben

Als Input kann anstatt eines Textes aber auch ein Einzelbild verwendet werden (analog zur Image-2-Image Methode bei den Bilder KIs), um dieses zu animieren. Werden zwei Bilder (ein Start- und ein Endbild) definiert, generiert der Make-a-Video Algorithmus dann die Zwischenbilder. Alternativ, quasi per Video-2-Video, kann auch ein Video als Input fungieren, von dem Make-a-Video dann Variationen erzeugt.

Meta AI hat zwar die Forschungsarbeit von Make-a-Video veröffentlicht, allerdings nicht den dazugehörigen Code oder das Modell - es dürften aber bald Versuche folgen, einen darauf basierenden Algorithmus nachzubauen.

Die Qualität der erzeugten Videos läßt zwar noch etwas zu wünschen übrig, sie entsprechen eher kleinen Bildanimationen als echtem (komplexen) Video und sind auch nur wenige Sekunden lang, aber Make-a-Video macht deutlich, wohin die Reise geht. Generierung von Videos und objektbasiertes Editing per Text auch für Consumer rückt immer näher.

Phenaki KI erstellt sogar noch längere Videos

Wie schnell die Entwicklung gerade voranschreitet beweist auch die Tatsache, daß zeitgleich mit Metas "Make-a-Video" noch ein weiteres Projekt namens Phenaki eines (noch) anonymen Forscherteams erschienen ist, daß nochmal eine deutlich geringere Auflösung aufweist, aber in einem wichtigen Aspekt sogar noch interessanter ist, weil es es die Generierung mehrminütiger Videos erlaubt. So wurde im folgenden Beispiel anhand einer längeren Textbeschreibung ein beeindruckendes 2 Minuten langes Video erzeugt:

Interessant sind die für zur Generierung des Videos verwendeten Prompts (samt Anweisungen für die virtuellen Kamerabewegungen):

"Viel Verkehr in einer futuristischen Stadt. Ein außerirdisches Raumschiff kommt in der futuristischen Stadt an. Die Kamera geht in das Innere des Raumschiffs der Außerirdischen. Die Kamera bewegt sich vorwärts, bis sie einen Astronauten in einem blauen Raum zeigt. Der Astronaut tippt auf der Tastatur. Die Kamera bewegt sich von dem Astronauten weg. Der Astronaut verlässt die Tastatur und geht nach links. Der Astronaut verlässt die Tastatur und geht weg. Die Kamera bewegt sich über den Astronauten hinaus und blickt auf den Bildschirm. Auf dem Bildschirm hinter dem Astronauten sind Fische zu sehen, die im Meer schwimmen. Crash zoomt auf den blauen Fisch. Wir folgen dem blauen Fisch, wie er im dunklen Ozean schwimmt. Die Kamera zeigt durch das Wasser nach oben in den Himmel. Der Ozean und die Küstenlinie einer futuristischen Stadt. Crash-Zoom in Richtung eines futuristischen Wolkenkratzers. Die Kamera zoomt in eines der vielen Fenster. Wir befinden uns in einem Büroraum mit leeren Schreibtischen. Ein Löwe rennt auf den Schreibtischen herum. Die Kamera zoomt auf das Gesicht des Löwen im Inneren des Büros. Zoom auf den Löwen, der einen dunklen Anzug trägt, in einem Büroraum. Der Löwe im Anzug schaut in die Kamera und lächelt. Die Kamera zoomt langsam auf das Äußere des Wolkenkratzers hinaus. Zeitraffer des Sonnenuntergangs in der modernen Stadt"

Hier finden sich noch viele weitere Beispiele von per Phenaki animierten kurzen Clips. Auffällig ist, daß weder die Beispielclips bei Phenaki noch bei Make-a-Video Menschen beinhalten, zu erklären ist das durch die Schwäche der zugrundeliegenden Blidgenerierungs-KIs mit menschlichen Körpern und Gesichtern (ein Clip, auf dem Menschen zu sehen sind ("ein Paar im Regen") demonstriert diese Schwäche eindrucksvoll). Es bleibt zu hoffen, daß der Sourcecode von Phenaki bald veröffentlicht wird, um der KI Community die Weiterentwicklung zu ermöglichen.

mehr Infos bei
makeavideo.studio

Auf Socials teilen:

Leserkommentare // Neueste

Kommentieren >>

Ähnliche News //

News

Erst Bilder, dann Sounds: Neue Google-KI generiert beliebige Musik nach ...

Forscher von Google haben eine neue KI vorgestellt, die nach einem ähnlichen Muster wie die gerade sehr populären Text-2-Image KIs wie DALL-E 2, Midjourney oder Stable Diffusion .....

// 10:57 Mo, 30. Jan 2023von Thomas Richter

News

Künstler vs KIs: Neues Tool macht Kunstwerke für KIs unverdaulich

Der Boom bildgenerierender KIs, die per Prompt beliebige Bilder erzeugen, hat bei Künstlern große Ängste ausgelöst, kann doch jeder Kunst- oder Künstlerstil - egal ob Malerei, ...

// 19:51 Mo, 20. Feb 2023von Thomas Richter

News

Stockphoto-Portal Shutterstock integriert KI-Bilder und gibt eine Antwort auf die ...

Seit kurzem steht die Frage im Raum, wie Künstler und Stock-Fotodienste überleben können, wenn bildgenerierende KIs wie DALL-E 2, Stable Diffusion oder Midjourney beliebige Bilder ...

// 09:41 Sa, 5. Nov 2022von Thomas Richter

News

Text-zu-Video KI jetzt auch von Google: Imagen Video

Nachdem Meta gerade seine Make-a-Video KI zur Generierung von Videos nach Textbeschreibung vorgestellt hatte, hat Google jetzt nachgezogen und mit Imagen Video auch eine solche KI ...

// 16:48 Do, 6. Okt 2022von Thomas Richter

News

Neue Audio KI generiert neben Musik auch beliebige Soundeffekte

Wie rasant die Entwicklung im Bereich KIs voranschreitet, zeigt sich u.a. gerade im Feld "Text-to-Music", also von KIs, welche per Textbeschreibung beliebige Musik generieren: ...

// 10:26 Do, 2. Feb 2023von Thomas Richter

zur Newsübersicht >

Generative Video-KI-Funktionen Adobe Firefly für Premiere Pro - Generative Extend, Object removal/addition

Zuletzt im Oktober hatte Adobe Firefly-Funktionen für Premiere Pro geteasert, darunter eine Generative Fill-Funktion - nun wird es konkret. Denn noch in diesem Jahr sollen über ...

// 15:08 Mo, 15. Apr 2024von blip

News

Übernahme ist durch RED ist nun eine Nikon-Tochter - und Jarred Land abgesetzt

Rechtzeitig zur NAB gab Nikon bekannt, die Übernahme von RED sei nun zu 100% vollzogen. Ab sofort werden Jarred Land zusammen mit James Jannard nur noch enge Berater der Nikon-...

// 14:13 So, 14. Apr 2024von blip

News

Günstiger und besser? Blackmagic stellt neues DaVinci Resolve Micro Color Panel für 495 Dollar vor

Blackmagic Design hat auf der NAB mit dem DaVinci Resolve Micro Color Panel ein weiteres, besonders erschwingliches Pult für die Farbkorrektur mit DaVinci Resolve angekündigt, ...

// 09:06 Sa, 13. Apr 2024von Rudi Schmidts

News

Blackmagic PYXIS 6K: Die Vollformat "Box"-Kamera mit Viewfinder, 2x SDI, Sideplates (!) uvm.

Am vielseitigsten riggbare Cam Blackmagic PYXIS 6K: Die Vollformat „Box“-Kamera mit Viewfinder, 2x SDI, Sideplates ...

Von vielen seit langem ersehnt und jetzt da: Blackmagic stellt mit der Pyxis 6K gleich drei leistungsstärkere Vollformat-Versionen seiner Cinema Camera 6K vor, die in ein ...

// 03:40 Sa, 13. Apr 2024von Rob

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Aktuelles

Stoppt Mickey Mouse die KI Kunst Revolution? Künstler protestieren gegen KI Konkurrenz

Die neuen bildgenerierenden KIs stellen eine Revolution dar: sie eröffnen erstmals die Möglichkeit, massenhaft hochqualitative Bilder nach Wunsch zu erzeugen - in beliebiger Menge,...

// 14:21 Di, 3. Jan 2023von Thomas Richter

Aktuelles

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von ...

// 19:47 Mo, 6. Feb 2023von Thomas Richter

zur Artikelübersicht >

Was hältst du von den neuen Bild/Video-KIs?
Toll, so viele neue Kreativtools!
Sie werden das Filmemachen vereinfachen
Sie werden das Filmen z.T. ersetzen
Sie werden mich arbeitslos machen
Die sind völlig überbewertet

Ergebnis ansehen

Aktuelle News //

News

8x Video-Upscaling VideoGigaGAN - Adobe zeigt generative KI Super Resolution für Bewegtbilder

Unter Super Resolution versteht man Algorithmen, welche die Auflösung eines Bildes künstlich erhöhen können - also mehr Bildinformationen hinzu erfinden, als ursprünglich von ...

// 11:41 Do, 25. Apr 2024von Rudi Schmidts

News

Innovatives Kamerazubehör SmallRig @ NAB 2024: Potato Jet Stativ, Brandon Li Cage, VB212 Akku

Am SmallRig Stand auf der NAB 2024 gab es viel neue Produkte zu sehen. Die spektakulärste Neuvorstellung dürfte das in Zusammenarbeit mit dem bekannten YouTuber Potato Jet ...

// 12:34 Mi, 24. Apr 2024von Rob

zur Newsübersicht >