Videos auf dem eigenen PC generieren
Wer etwas Erfahrung in der Konfiguration von KI-Algorithmen samt Modellen besitzt, kann VideoFusion auf dem eigenen PC ausprobieren - Voraussetzung ist allerdings noch eine leistungsstarke GPU mit mindestens 16 GB VRAM bzw. bei halber Genauigkeit 8 GB sowie 16 GB RAM. Auf einer Nvidia RTX 3090 Grafikkarte dauert die Generierung eines kurzen Clips ungefähr 23s. Hier gibt es eine Anleitung zur Installation auf dem eigenen PC. Ausgegeben wird das erzeugte Video als .MP4-Datei, zur Wiedergabe wird der quelloffene und kostenlose VLC Player empfohlen.
Alternativ gibt es auch schon eine Implementation auf dem bekannten KI-Portal Hugginface, welche man selbst kostenlos nutzen kann - allerdings dauert die Generierung dort aufgrund der geteilten GPU-Leistung relativ lange. Wer eine schnelle Generierung von Videos benötigt, kann für rund 3 Dollar pro Stunde eine Nvidia A10G GPU mit 46 GB VRAM (oder auch eine stärkere A100 GPU) mieten.
Prompt: Monkey learning to play the piano
Beschränkungen
Die Forscher selbst schränken ein, dass VideoFusion keine perfekte Film- und Fernsehqualität und auch keinen Text im Video erzeugen kann. Unterstützt wird momentan nur englisch als Eingabesprache. Offensichtlich ist auch, dass die Bildqualität und Auflösung (128x 128) noch relativ gering ist und an die Frühzeit der Bildgenerierung per KI z.B. mittels DALL-E (Version1) vor etwas über zwei Jahren erinnert. Doch die Erfahrung im Bereich KI zeigt, wie schnell der Fortschritt dort ist, besonders wenn das zugehörige Programm und Modell - wie schon bei der Bild-KI Stable Diffusion - als Open Source vorliegt und so von jedermann weiterentwickelt und verbessert werden kann. Sehr wahrscheinlich wird auch bald Stability.ai, die Schöpfer von Stable Diffusion eine Text-to-Video KI veröffentlichen.
Prompt: Robot dancing in times square
Momentan nutzt VideoFusion auch "nur" 1.7 Milliarden Parameter - zum Vergleich: DALL E2, welche nur Stillbilder generieren kann, wurde mit mehr als 10 Milliarden Parametern trainiert. Es ist also noch viel Luft nach oben für weitere Qualitätsverbesserungen alleine schon durch mehr Parameter.
Copyright by Shutterstock?
Auffällig ist, dass auf einem Großteil der demonstrierten Videos von VideoFusion das Logo von Shutterstock, dem größten Stockphoto Portal, prominent zu sehen ist, was darauf hinweist, dass deren Bilder im verwendeten Bild- und Video-Trainingsmaterial ( LAION5B, ImageNet und Webvid) enthalten waren.
Es wird interessant sein zu sehen, wie Shutterstock auf solche Videos regiert, die potentiell juristisch anfechtbar sind - einerseits wegen unerlaubter Verwendung von Shutterstock-Bildern als Trainingsmatertial und andererseits wegen unerlaubter und potentiell geschäftsschädigender Verwendung des Logos - der große Fotolizenzierungsdienst (https://www.theverge.com/2023/1/17/23558516/ai-art-copyright-stable-diffusion-getty-images-lawsuit (Getty Images) hatte in einem ähnlichen Fall schon Stable Diffusion verklagt. Das Shutterstock Logo ist auf 8 von 9 Demovideos zu sehen, was jedoch vermutlich nicht dem tatsächlichen Verhältnis von Shutterstock-Bildern relativ zum gesamten Trainingskorpus entsprechen dürfte.
mehr Informationen
Kommentare lesen / schreiben
Passende News:
- Zeiss steigt NICHT aus Fotoobjektiv-Markt aus (sondern aus dem Spiegelreflex-Segment …)
- Die Paragraphica KI-Kamera ist da: Bilder ohne Objektiv von der Umgebung durch KI aufnehmen?
- NIKKOR Z DX 24 mm f/1,7 - erste APS-C Festbrennweite für Nikon Z-Mount für 319,- Euro
- Achtung vor dem Totalausfall: SanDisk Extreme Portable SSDs löschen manchmal Daten
- Canon stellt mit Canon EOS R100 günstigen Smartphone-Konkurrenten mit APS-C Sensor und 4K Video vor
- Drehbuchautoren auf den Barrikaden - auch wegen Text-KIs
- Blackmagic DaVinci Resolve 18.5 Beta 2 ist da!
- Schluss mit Kauderwelsch - neue Bild-KI DeepFloyd / IF kann auch schreiben
- Dialogue Boost auf Prime Video macht Gesprochenes lauter
- DJI Mavic 3 Pro ist da: Neues Topmodell ist die erste Drohne mit drei Kameras
- CinePI - 2K RAW-Cinekamera auf Raspberry Pi Basis
- Von 12mm auf 28mm in 0,5s: Powerzoom NIKKOR Z DX 12-28 mm f/3,5-5,6 angekündigt