CM3leon - neue generative Bild-KI verspricht präzisere Gestaltungsmöglichkeiten

// 10:18 Fr, 28. Jul 2023von

Meta hatte im April bereits ein ziemlich mächtiges KI-Modell zur Erstellung von Objektmasken vorgestellt, Segment Anything (SAM). Wenig überraschend arbeitet das Unternehmen auch an einem eigenen KI-Bildgenerator und verfolgt dabei einen ungewöhnlichen Ansatz. Das kürzlich vorgestellte, multimodale Modell CM3leon (auszusprechen wie das Tier) unterstützt nämlich sowohl eine Text-zu-Bild- als auch eine Bild-zu-Text-Generierung und setzt auf eine Transformer-Architektur. Letzteres kennt man bisher eher von KI-Systemen zur Texterstellung, während die bildgenerierende Konkurrenz (DALL-E, Stable Diffusion uä.) auf Diffusionsmodellen beruht. Dort wird ein Bild nach und nach aus Bildrauschen destilliert.


CM3Leons Systemarchitektur dagegen basiert auf einem decoder-only Transformer und wird sowohl an Bild- als auch an Text-Tokens trainiert (die verwendeten Bilder wurden von Shutterstock lizensiert). Daher ist das Modell laut Meta sehr gut darin, komplexe Bilder anhand eines detaillierten Prompts zu generieren (siehe das Kaktus-Beispiel unten), ebenso kann es Bildinhalte beschreiben und Bilder gezielt nach Texteingaben manipulieren.



Das Modell selbst ist noch nicht freigegeben, Meta stellt jedoch einige Bildbeispiele zur Verfügung. So wurden die folgenden Bilder aus diesen vier Prompts generiert:



(1) Ein kleiner Kaktus mit Strohhut und Neon-Sonnenbrille in der Wüste Sahara. (2) Eine Nahaufnahme einer menschlichen Hand, Handmodell. Hohe Qualität. (3) Eine Waschbär-Hauptfigur in einem Anime, die sich auf einen epischen Kampf mit einem Samurai-Schwert vorbereitet. Kampfhaltung. Fantasy, Illustration. (4) Ein Stoppschild im Fantasy-Stil mit der Aufschrift "1991".


Von CM3Leon generierte Bildbeispiele
Von CM3Leon generierte Bildbeispiele

Menschliche Hände waren (und sind z.T. noch) sehr schwierig für bisherige Bildgeneratoren umzusetzen, insofern sind diese Resultate schon ziemlich beeindruckend. Auch die Bildbearbeitung per Textkommando funktioniert grundsätzlich seht gut, wie folgendes Beispiel zeigt - für die Aufgabe sind keine weiteren Zusatztools nötig, die Funktionalität ist direkt im (multimodalen) Modell angelegt. So ist es dann natürlich auch kein weiter Schritt mehr, dem CM3Leon-Modell Bildbeschreibungen in Textform zu entlocken.


Bildmanipulation per Textkommando
Bildmanipulation per Textkommando

Vielversprechend hinsichtlich eines professionellen Einsatz dieser KI-Bildtechnologien ist ein sogenanntes "Structure-guided image editing", bei dem CM3leon beim Bildediting auch Informationen hinsichtlich der Bildstruktur berücksichtigen soll; leider gibt es dafür keine Bildbeispiele. Gezeigt wird dagegen, wie das Modell vorgegebene Objekte an spezifische Bildkoordinaten setzt bei der Bilderstellung, was eine Vorstellung davon gibt, wie gezielt man mit diesem Modell gestalten könnte:


Object-to-image
Object-to-image

Beim Vorgehen "Segmentation-to-image" wiederum nimmt CM3leon eine Alphamaske als Input und generiert ein Bild, das den jeweiligen Umriss enthält (und schließt damit quasi an das Segment Anything-Modell an).


Platzhalter
Segmentation-to-image



Während die von Meta gezeigten Bilder (noch) nicht den Grad an Fotorealismus aufweisen, den die Konkurrenz zT. beherrscht, ist eine beeindruckende Vielseitigkeit und Funktionalität in diesem multimodalen Modell enthalten. Wir sind gespannt, wann und wie es in Zukunft zur Verwendung veröffentlicht wird.


Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash