CM3leon - neue generative Bild-KI verspricht präzisere Gestaltungsmöglichkeiten

// 10:18 Fr, 28. Jul 2023von blip

Meta hatte im April bereits ein ziemlich mächtiges KI-Modell zur Erstellung von Objektmasken vorgestellt, Segment Anything (SAM). Wenig überraschend arbeitet das Unternehmen auch an einem eigenen KI-Bildgenerator und verfolgt dabei einen ungewöhnlichen Ansatz. Das kürzlich vorgestellte, multimodale Modell CM3leon (auszusprechen wie das Tier) unterstützt nämlich sowohl eine Text-zu-Bild- als auch eine Bild-zu-Text-Generierung und setzt auf eine Transformer-Architektur. Letzteres kennt man bisher eher von KI-Systemen zur Texterstellung, während die bildgenerierende Konkurrenz (DALL-E, Stable Diffusion uä.) auf Diffusionsmodellen beruht. Dort wird ein Bild nach und nach aus Bildrauschen destilliert.

CM3Leons Systemarchitektur dagegen basiert auf einem decoder-only Transformer und wird sowohl an Bild- als auch an Text-Tokens trainiert (die verwendeten Bilder wurden von Shutterstock lizensiert). Daher ist das Modell laut Meta sehr gut darin, komplexe Bilder anhand eines detaillierten Prompts zu generieren (siehe das Kaktus-Beispiel unten), ebenso kann es Bildinhalte beschreiben und Bilder gezielt nach Texteingaben manipulieren.

Das Modell selbst ist noch nicht freigegeben, Meta stellt jedoch einige Bildbeispiele zur Verfügung. So wurden die folgenden Bilder aus diesen vier Prompts generiert:

(1) Ein kleiner Kaktus mit Strohhut und Neon-Sonnenbrille in der Wüste Sahara. (2) Eine Nahaufnahme einer menschlichen Hand, Handmodell. Hohe Qualität. (3) Eine Waschbär-Hauptfigur in einem Anime, die sich auf einen epischen Kampf mit einem Samurai-Schwert vorbereitet. Kampfhaltung. Fantasy, Illustration. (4) Ein Stoppschild im Fantasy-Stil mit der Aufschrift "1991".

Menschliche Hände waren (und sind z.T. noch) sehr schwierig für bisherige Bildgeneratoren umzusetzen, insofern sind diese Resultate schon ziemlich beeindruckend. Auch die Bildbearbeitung per Textkommando funktioniert grundsätzlich seht gut, wie folgendes Beispiel zeigt - für die Aufgabe sind keine weiteren Zusatztools nötig, die Funktionalität ist direkt im (multimodalen) Modell angelegt. So ist es dann natürlich auch kein weiter Schritt mehr, dem CM3Leon-Modell Bildbeschreibungen in Textform zu entlocken.

Vielversprechend hinsichtlich eines professionellen Einsatz dieser KI-Bildtechnologien ist ein sogenanntes "Structure-guided image editing", bei dem CM3leon beim Bildediting auch Informationen hinsichtlich der Bildstruktur berücksichtigen soll; leider gibt es dafür keine Bildbeispiele. Gezeigt wird dagegen, wie das Modell vorgegebene Objekte an spezifische Bildkoordinaten setzt bei der Bilderstellung, was eine Vorstellung davon gibt, wie gezielt man mit diesem Modell gestalten könnte:

Beim Vorgehen "Segmentation-to-image" wiederum nimmt CM3leon eine Alphamaske als Input und generiert ein Bild, das den jeweiligen Umriss enthält (und schließt damit quasi an das Segment Anything-Modell an).

Während die von Meta gezeigten Bilder (noch) nicht den Grad an Fotorealismus aufweisen, den die Konkurrenz zT. beherrscht, ist eine beeindruckende Vielseitigkeit und Funktionalität in diesem multimodalen Modell enthalten. Wir sind gespannt, wann und wie es in Zukunft zur Verwendung veröffentlicht wird.

mehr Infos bei
ai.meta.com

Auf Socials teilen:

Leserkommentare // Neueste

medienonkel // 19:16 am 28.7.2023

Sehr schön. Aber die Hand braucht dringend einen Gips 😉

Im Forum mitdiskutieren >>

Ähnliche News //

News

Adobe führt Credit-basiertes Modell für generative KI ein (und die Creative Cloud ...

Zur IBC präsentierte Adobe aktuelle Beta-Versionen von Premiere Pro und After Effects mit interessanten Neuigkeiten, wie bereits beschrieben. Zeitgleich wurden auch die neuen ...

// 18:59 Mo, 18. Sep 2023von blip

News

Generative KI am Handy Mobile Adobe Express Beta-App bekommt Firefly-Funktionen

Bereits seit letztem Jahr lassen sich in Adobe Express KI-Funktionen nutzen, allerdings nur am Desktop. Nun ist auch in den mobilen Betaversionen der All-in-One-App die generative ...

// 17:13 Mo, 11. Mär 2024von blip

News

Neue freie Meta KI erstellt automatisch Masken für alle Objekte in Fotos oder Videos

Meta hat die extrem interessante KI zur Erstellung von Objektmasken veröffentlicht und auch gleich zur freien Verfügung ins Netz gestellt. "Segment Anything" (SAM) erkennt Objekte ...

// 12:18 So, 9. Apr 2023von Thomas Richter

News

Midjourney 5.2 und Stable Diffusion XL - jetzt auch mit einfachem Out-Painting

Kürzlich wurde eine neue Version 5.2 Midjourney bei Discord freigegeben, die nicht nur qualitativ weiter zugelegt haben soll, sondern auch ein leicht zu bedienendes Out-Painting .....

// 12:31 So, 25. Jun 2023von Rudi Schmidts

News

Blackmagic DaVinci Resolve 17.4 bringt 5fache Beschleunigung für neue MacBook Pros, ...

Die Versionsnummer läßt es nicht vermuten, aber das neue Update auf die Version 17.4 bringt Blackmagics Grading-, Schnitt-, Compositing- und Audio-Mastering-Programm DaVinci ...

// 12:33 Fr, 22. Okt 2021von Thomas Richter

zur Newsübersicht >

Generative Video-KI-Funktionen Adobe Firefly für Premiere Pro - Generative Extend, Object removal/addition

Zuletzt im Oktober hatte Adobe Firefly-Funktionen für Premiere Pro geteasert, darunter eine Generative Fill-Funktion - nun wird es konkret. Denn noch in diesem Jahr sollen über ...

// 15:08 Mo, 15. Apr 2024von blip

News

Übernahme ist durch RED ist nun eine Nikon-Tochter - und Jarred Land abgesetzt

Rechtzeitig zur NAB gab Nikon bekannt, die Übernahme von RED sei nun zu 100% vollzogen. Ab sofort werden Jarred Land zusammen mit James Jannard nur noch enge Berater der Nikon-...

// 14:13 So, 14. Apr 2024von blip

News

Günstiger und besser? Blackmagic stellt neues DaVinci Resolve Micro Color Panel für 495 Dollar vor

Blackmagic Design hat auf der NAB mit dem DaVinci Resolve Micro Color Panel ein weiteres, besonders erschwingliches Pult für die Farbkorrektur mit DaVinci Resolve angekündigt, ...

// 09:06 Sa, 13. Apr 2024von Rudi Schmidts

News

Blackmagic PYXIS 6K: Die Vollformat "Box"-Kamera mit Viewfinder, 2x SDI, Sideplates (!) uvm.

Am vielseitigsten riggbare Cam Blackmagic PYXIS 6K: Die Vollformat „Box“-Kamera mit Viewfinder, 2x SDI, Sideplates ...

Von vielen seit langem ersehnt und jetzt da: Blackmagic stellt mit der Pyxis 6K gleich drei leistungsstärkere Vollformat-Versionen seiner Cinema Camera 6K vor, die in ein ...

// 03:40 Sa, 13. Apr 2024von Rob

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Praxis

Mattepainting für Dummys - mit Photoshops Generative Fill Funktion

Wir hatten schon einmal kurz auf Photoshops "Generative Fill"-Möglichkeiten im Zusammenhang mit Videoaufnahmen hingewiesen. In diesem Workshop möchten wir zeigen, wie die ...

// 13:26 Mi, 16. Aug 2023von Rudi Schmidts

Meinung

Midjourney trifft Pika Labs: Generative KI -Videos - Was geht, was kommt?

Seitdem Midjourney oder Stable Diffusion fotorealistische Bilder generieren kann, will man natürlich auch realistische Bewegungen "digital erträumen". Doch das erweist sich für ...

// 10:22 Fr, 29. Sep 2023von Rudi Schmidts

zur Artikelübersicht >

Was hältst du von den neuen Bild/Video-KIs?
Toll, so viele neue Kreativtools!
Sie werden das Filmemachen vereinfachen
Sie werden das Filmen z.T. ersetzen
Sie werden mich arbeitslos machen
Die sind völlig überbewertet

Ergebnis ansehen

Aktuelle News //

News

Ohne Führerschein Mini 4K - DJIs günstigste 4K/30p Drohne kostet nur 299 US-Dollar

DJI´s neueste Kameradrohne, die Mini 4K - bleibt weiterhin unter 250 Gramm und darf deswegen ohne Führerschein geflogen werden. Mit einem Preis von 299 Dollar ist sie zugleich ...

// 13:45 Di, 30. Apr 2024von Rudi Schmidts

News

Mixed Reality Headset Apple Vision Pro - Bereits nachlassende Nachfrage in den USA?

Mittlerweile häufen sich die Hinweise, dass die Nachfrage nach Apples Vision Pro-Headset in den USA deutlich nachgelassen hat. Auch behauptet Apple-Analyst Ming-Chi Kuo, dass ...

// 12:16 Di, 30. Apr 2024von Rudi Schmidts

zur Newsübersicht >