Text-zu-Video auf neuem Niveau OpenAI Sora - das ist der KI-Video Gamechanger!

// 23:07 Do, 15. Feb 2024von

OpenAI präsentiert nach ChatGPT und Dall-E soeben sein erstes KI-Modell für die Videogenerierung - es nennt sich Sora und erstellt bewegte Bilder auf einem absolut sensationellen Niveau. Die über Textprompts erstellten 46 Clips, die das Unternehmen in FullHD (!) auf seiner Webseite zeigt, weisen eine bisher noch nicht gesehene Konsistenz auf, und selbst Menschen im Bild werden deutlich besser dargestellt als bei konkurrienden Text-zu-Video-Modellen. Auch das räumliche Verständnis des Modells ist beeindruckend. Darüberhinaus kann das Modell laut OpenAI in einem Clip mehrere verschiedene Einstellungen generieren (also Schnittfolgen schaffen) und dabei den Inhalt und visuellen Stil beibehalten.






Die von Sora generierten Menschen bewegen sich zwar nicht perfekt, auch sie haben noch etwas zombiehaftes, jedoch gelingen sie sehr viel besser als man es in KI-Clips bisher gesehen hat. Landschaften und Tiere sehen extrem realistisch aus. Auch wenn eine Katze dann plötzlich eine Vordertatze zu viel hat. Sieht man sich die Videos genau an, kann man in fast allen Fehler sowie visuelle Hinweise darauf entdecken, dass sie nicht echt sind - aber man muss teilweise sehr genau hinsehen. Manche Videos wiederum weisen so eklatante Fehldarstellungen auf, dass sie wie ein eigenes verrücktes Videogenre wirken.









Wie Dall-E aus dem gleichen Hause ist auch Sora ein Diffusionsmodell. Dank der integration mit OpenAIs Sprachmodell ChatGPT ist Sora in der Lage, sehr detaillierte Prompts zu interpretieren und in komplexe Szenen umzusetzen. Zu jedem gezeigten Video gibt OpenAI auch das entsprechende Prompt an - darin finden sich nicht nur ausführliche Beschreibungen der gewünschten Szenerien, sondern auch Anweisungen zur Kamerabewegung. Beispielsweise:



- "The scene is captured from a wide angle, showing the vastness and depth of the ocean. The water is clear and blue, with rays of sunlight filtering through. The shot is sharp and crisp, with a high dynamic range. The octopus and the crab are in focus, while the background is slightly blurred, creating a depth of field effect." Clip



- "The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene." Clip



Richtig spannend sind auch die Fähigkeiten Soras, "historisches" Material herbeizuzaubern, beispielsweise Bilder aus Kalifornien während des Goldrausches.







Videoclips lassen sich mit einer Länge von bis zu einer Minute erstellen. Auch ein Referenzbild lässt sich als Ausgangsmaterial nehmen. Ebenso kann Sora einen bestehenden Clip erweitern/verlängern oder fehlende Frames ergänzen. Die Videos werden allerdings ohne Ton generiert.







Sora ist noch nicht frei zugänglich - tatsächlich ist es laut OpenAI gar nicht sicher, dass das Modell jemals als Produkt angeboten werden soll. Wenn ja, sollen C2PA-Metadaten eingebettet werden, um die Videos als KI-generiert erkennbar zu machen.



Zunächst soll Sora jedoch ausgiebig in der Praxis getestet werden, um (so OpenAI) mögliche Risiken auszuloten bzw. robuste Filter zu impementieren. Doch auch einige ausgewählte Künstler, Designer und Filmemacher erhalten Zugang, um zu evaluieren, wie Sora in der Kreativ-Szene genutzt werden kann.





Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash