VideoFusion: Erste Open Source Video-KI ist da - und läuft auch auf dem Heim-PC

// 13:41 Mo, 20. Mär 2023von Thomas Richter

Ein chinesisches Forscherteam hat eine neue Text-to-Video KI veröffentlicht, mit der sich Videos per Texteingabe erzeugten lassen. Ähnliche Algorithmen haben zwar schon Meta mit Make-a-Video und Google mit Imagen und Phenaki vorgestellt, aber das besondere an VideoFusion ist, dass der Quellcode mitsamt den zugehörigen Modellen frei zum Download bereitsteht. Die neue Methode nutzt zur Erzeugung von Videos das Diffusionsverfahren, welches auch von den bekannten KIs zur Bildgenerierung wie zum Beispiel Stable Diffusion verwendet wird. (Hier eine Demonstration auf einer chinesischen Webseite, per Google auf deutsch übersetzt.)

VideoFusion: Erste Open Source Video-KI ist da - und läuft auch auf dem Heim-PC

Videos auf dem eigenen PC generieren

Wer etwas Erfahrung in der Konfiguration von KI-Algorithmen samt Modellen besitzt, kann VideoFusion auf dem eigenen PC ausprobieren - Voraussetzung ist allerdings noch eine leistungsstarke GPU mit mindestens 16 GB VRAM bzw. bei halber Genauigkeit 8 GB sowie 16 GB RAM. Auf einer Nvidia RTX 3090 Grafikkarte dauert die Generierung eines kurzen Clips ungefähr 23s. Hier gibt es eine Anleitung zur Installation auf dem eigenen PC. Ausgegeben wird das erzeugte Video als .MP4-Datei, zur Wiedergabe wird der quelloffene und kostenlose VLC Player empfohlen.

Alternativ gibt es auch schon eine Implementation auf dem bekannten KI-Portal Hugginface, welche man selbst kostenlos nutzen kann - allerdings dauert die Generierung dort aufgrund der geteilten GPU-Leistung relativ lange. Wer eine schnelle Generierung von Videos benötigt, kann für rund 3 Dollar pro Stunde eine Nvidia A10G GPU mit 46 GB VRAM (oder auch eine stärkere A100 GPU) mieten.

Prompt: Monkey learning to play the piano

Beschränkungen

Die Forscher selbst schränken ein, dass VideoFusion keine perfekte Film- und Fernsehqualität und auch keinen Text im Video erzeugen kann. Unterstützt wird momentan nur englisch als Eingabesprache. Offensichtlich ist auch, dass die Bildqualität und Auflösung (128x 128) noch relativ gering ist und an die Frühzeit der Bildgenerierung per KI z.B. mittels DALL-E (Version1) vor etwas über zwei Jahren erinnert. Doch die Erfahrung im Bereich KI zeigt, wie schnell der Fortschritt dort ist, besonders wenn das zugehörige Programm und Modell - wie schon bei der Bild-KI Stable Diffusion - als Open Source vorliegt und so von jedermann weiterentwickelt und verbessert werden kann. Sehr wahrscheinlich wird auch bald Stability.ai, die Schöpfer von Stable Diffusion eine Text-to-Video KI veröffentlichen.

Prompt: Robot dancing in times square

Momentan nutzt VideoFusion auch "nur" 1.7 Milliarden Parameter - zum Vergleich: DALL E2, welche nur Stillbilder generieren kann, wurde mit mehr als 10 Milliarden Parametern trainiert. Es ist also noch viel Luft nach oben für weitere Qualitätsverbesserungen alleine schon durch mehr Parameter.

Shutterstock Logo in generierten Videos

Copyright by Shutterstock?

Auffällig ist, dass auf einem Großteil der demonstrierten Videos von VideoFusion das Logo von Shutterstock, dem größten Stockphoto Portal, prominent zu sehen ist, was darauf hinweist, dass deren Bilder im verwendeten Bild- und Video-Trainingsmaterial ( LAION5B, ImageNet und Webvid) enthalten waren.

Es wird interessant sein zu sehen, wie Shutterstock auf solche Videos regiert, die potentiell juristisch anfechtbar sind - einerseits wegen unerlaubter Verwendung von Shutterstock-Bildern als Trainingsmatertial und andererseits wegen unerlaubter und potentiell geschäftsschädigender Verwendung des Logos - der große Fotolizenzierungsdienst ( Getty Images hatte in einem ähnlichen Fall schon Stable Diffusion verklagt. Das Shutterstock Logo ist auf 8 von 9 Demovideos zu sehen, was jedoch vermutlich nicht dem tatsächlichen Verhältnis von Shutterstock-Bildern relativ zum gesamten Trainingskorpus entsprechen dürfte.

mehr Infos bei
paperswithcode.com

Auf Socials teilen:

Leserkommentare // Neueste

Kommentieren >>

Ähnliche News //

News

Erst Bilder, dann Sounds: Neue Google-KI generiert beliebige Musik nach ...

Forscher von Google haben eine neue KI vorgestellt, die nach einem ähnlichen Muster wie die gerade sehr populären Text-2-Image KIs wie DALL-E 2, Midjourney oder Stable Diffusion .....

// 10:57 Mo, 30. Jan 2023von Thomas Richter

News

Bald filmreif? Neue NVIDIA-KI erzeugt hochauflösende Videos per Texteingabe

Schneller als noch vor kurzem gedacht verbessert sich die Qualität von Text-zu-Video-KIs. Waren vor kurzer Zeit vorgestellte Video-KIs wie Metas Make-a-Video, Googles Imagen und ....

// 10:28 Do, 20. Apr 2023von Thomas Richter

News

Runway Gen2: Stable Diffusion Schöpfer stellen neue Text-to-Video-KI vor

Runway Research, das Unternehmen hinter der Bild-KI Stable Diffusion, hat gerade die neue Video-KI Runway Gen2 angekündigt, deren Fähigkeiten die der ersten Version (Runway Gen1) ....

// 19:58 Mo, 20. Mär 2023von Thomas Richter

News

Whisper: Neue kostenlose KI verwandelt Sprache in Text und übersetzt automatisch in ...

OpenAI, die Entwickler unter anderem der Text-KI GPT3 und der Bildgenerierungs KI DALL-E 2 haben das Spracherkennungssystem "Whisper" vorgestellt, welches nicht nur gesprochene ...

// 15:28 Mo, 26. Sep 2022von Thomas Richter

News

Neue Audio KI generiert neben Musik auch beliebige Soundeffekte

Wie rasant die Entwicklung im Bereich KIs voranschreitet, zeigt sich u.a. gerade im Feld "Text-to-Music", also von KIs, welche per Textbeschreibung beliebige Musik generieren: ...

// 10:26 Do, 2. Feb 2023von Thomas Richter

zur Newsübersicht >

Generative Video-KI-Funktionen Adobe Firefly für Premiere Pro - Generative Extend, Object removal/addition

Zuletzt im Oktober hatte Adobe Firefly-Funktionen für Premiere Pro geteasert, darunter eine Generative Fill-Funktion - nun wird es konkret. Denn noch in diesem Jahr sollen über ...

// 15:08 Mo, 15. Apr 2024von blip

News

Übernahme ist durch RED ist nun eine Nikon-Tochter - und Jarred Land abgesetzt

Rechtzeitig zur NAB gab Nikon bekannt, die Übernahme von RED sei nun zu 100% vollzogen. Ab sofort werden Jarred Land zusammen mit James Jannard nur noch enge Berater der Nikon-...

// 14:13 So, 14. Apr 2024von blip

News

Günstiger und besser? Blackmagic stellt neues DaVinci Resolve Micro Color Panel für 495 Dollar vor

Blackmagic Design hat auf der NAB mit dem DaVinci Resolve Micro Color Panel ein weiteres, besonders erschwingliches Pult für die Farbkorrektur mit DaVinci Resolve angekündigt, ...

// 09:06 Sa, 13. Apr 2024von Rudi Schmidts

News

Blackmagic PYXIS 6K: Die Vollformat "Box"-Kamera mit Viewfinder, 2x SDI, Sideplates (!) uvm.

Am vielseitigsten riggbare Cam Blackmagic PYXIS 6K: Die Vollformat „Box“-Kamera mit Viewfinder, 2x SDI, Sideplates ...

Von vielen seit langem ersehnt und jetzt da: Blackmagic stellt mit der Pyxis 6K gleich drei leistungsstärkere Vollformat-Versionen seiner Cinema Camera 6K vor, die in ein ...

// 03:40 Sa, 13. Apr 2024von Rob

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Aktuelles

Die Stable Diffusion Revolution: Kostenlose Bildgenerierung per KI jetzt auch auf dem Heim-PC

Seit ein paar Tagen ist es endlich soweit: die Text-zu-Bild KI Stable Diffusion wurde veröffentlicht und kann kostenlos auf dem eigenen Computer genutzt werden - damit ist jetzt ...

// 15:03 Di, 30. Aug 2022von Thomas Richter

Meinung

Die Zukunft des Tracking - das Ende der High-Speed-Kameras?

Zuverlässiges Tracking ist die Basis für bewährte Optical Flow Algorithmen. Nun steht in diesem Gebiet eine qualitative Revolution vor der Tür und dies dürfte nicht nur die ...

// 08:30 Di, 27. Jun 2023von Rudi Schmidts

zur Artikelübersicht >

Was hältst du von den neuen Bild/Video-KIs?
Toll, so viele neue Kreativtools!
Sie werden das Filmemachen vereinfachen
Sie werden das Filmen z.T. ersetzen
Sie werden mich arbeitslos machen
Die sind völlig überbewertet

Ergebnis ansehen

Aktuelle News //

News

High-End Cinema Kamera Blackmagic URSA Cine 12K erklärt: Dynamikumfang, Monitoring-Setup uvm...

Keine andere Kamera von Blackmagic Design ist bislang in der Lage gewesen, 16 Blendenstufen an Dynamikumfang darzustellen. Hinzu kommen neue Assist-Monitoring Funktionen, hohe ...

// 11:37 Fr, 19. Apr 2024von Rob

News

SD und CFexpress Angelbird MagSafe externe Recording Modules - nicht nur für iPhones

Der österreichische Zubehörspezialist Angelbird hat auf der NAB zwei sehr interessante, externe "Recording Modules" für iPhones präsentiert, die weitaus universeller einsetzbar ...

// 11:21 Fr, 19. Apr 2024von Rudi Schmidts

zur Newsübersicht >