VideoFusion: Erste Open Source Video-KI ist da - und läuft auch auf dem Heim-PC

// 13:41 Mo, 20. Mär 2023von

Ein chinesisches Forscherteam hat eine neue Text-to-Video KI veröffentlicht, mit der sich Videos per Texteingabe erzeugten lassen. Ähnliche Algorithmen haben zwar schon Meta mit Make-a-Video und Google mit Imagen und Phenaki vorgestellt, aber das besondere an VideoFusion ist, dass der Quellcode mitsamt den zugehörigen Modellen frei zum Download bereitsteht. Die neue Methode nutzt zur Erzeugung von Videos das Diffusionsverfahren, welches auch von den bekannten KIs zur Bildgenerierung wie zum Beispiel Stable Diffusion verwendet wird. (Hier eine Demonstration auf einer chinesischen Webseite, per Google auf deutsch übersetzt.)

VideoFusion: Erste Open Source Video-KI ist da - und läuft auch auf dem Heim-PC




Videos auf dem eigenen PC generieren

Wer etwas Erfahrung in der Konfiguration von KI-Algorithmen samt Modellen besitzt, kann VideoFusion auf dem eigenen PC ausprobieren - Voraussetzung ist allerdings noch eine leistungsstarke GPU mit mindestens 16 GB VRAM bzw. bei halber Genauigkeit 8 GB sowie 16 GB RAM. Auf einer Nvidia RTX 3090 Grafikkarte dauert die Generierung eines kurzen Clips ungefähr 23s. Hier gibt es eine Anleitung zur Installation auf dem eigenen PC. Ausgegeben wird das erzeugte Video als .MP4-Datei, zur Wiedergabe wird der quelloffene und kostenlose VLC Player empfohlen.





Alternativ gibt es auch schon eine Implementation auf dem bekannten KI-Portal Hugginface, welche man selbst kostenlos nutzen kann - allerdings dauert die Generierung dort aufgrund der geteilten GPU-Leistung relativ lange. Wer eine schnelle Generierung von Videos benötigt, kann für rund 3 Dollar pro Stunde eine Nvidia A10G GPU mit 46 GB VRAM (oder auch eine stärkere A100 GPU) mieten.



Prompt: Monkey learning to play the piano







Beschränkungen

Die Forscher selbst schränken ein, dass VideoFusion keine perfekte Film- und Fernsehqualität und auch keinen Text im Video erzeugen kann. Unterstützt wird momentan nur englisch als Eingabesprache. Offensichtlich ist auch, dass die Bildqualität und Auflösung (128x 128) noch relativ gering ist und an die Frühzeit der Bildgenerierung per KI z.B. mittels DALL-E (Version1) vor etwas über zwei Jahren erinnert. Doch die Erfahrung im Bereich KI zeigt, wie schnell der Fortschritt dort ist, besonders wenn das zugehörige Programm und Modell - wie schon bei der Bild-KI Stable Diffusion - als Open Source vorliegt und so von jedermann weiterentwickelt und verbessert werden kann. Sehr wahrscheinlich wird auch bald Stability.ai, die Schöpfer von Stable Diffusion eine Text-to-Video KI veröffentlichen.



Prompt: Robot dancing in times square





Momentan nutzt VideoFusion auch "nur" 1.7 Milliarden Parameter - zum Vergleich: DALL E2, welche nur Stillbilder generieren kann, wurde mit mehr als 10 Milliarden Parametern trainiert. Es ist also noch viel Luft nach oben für weitere Qualitätsverbesserungen alleine schon durch mehr Parameter.



Shutterstock Logo in generierten Videos
Shutterstock Logo in generierten Videos





Copyright by Shutterstock?

Auffällig ist, dass auf einem Großteil der demonstrierten Videos von VideoFusion das Logo von Shutterstock, dem größten Stockphoto Portal, prominent zu sehen ist, was darauf hinweist, dass deren Bilder im verwendeten Bild- und Video-Trainingsmaterial ( LAION5B, ImageNet und Webvid) enthalten waren.



Es wird interessant sein zu sehen, wie Shutterstock auf solche Videos regiert, die potentiell juristisch anfechtbar sind - einerseits wegen unerlaubter Verwendung von Shutterstock-Bildern als Trainingsmatertial und andererseits wegen unerlaubter und potentiell geschäftsschädigender Verwendung des Logos - der große Fotolizenzierungsdienst ( Getty Images hatte in einem ähnlichen Fall schon Stable Diffusion verklagt. Das Shutterstock Logo ist auf 8 von 9 Demovideos zu sehen, was jedoch vermutlich nicht dem tatsächlichen Verhältnis von Shutterstock-Bildern relativ zum gesamten Trainingskorpus entsprechen dürfte.


Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash