Tatsächlich heißt es, DALL-E 3 sei "built natively on ChatGPT", wobei es zur Modell-Architektur oder dem Training leider keine genauen technischen Deteils gibt. Durch den irgendwie multimodalen Ansatz entsteht ein anderes Verhältnis zwischen Sprache und Bild, was unter anderem in mehr Einfluss auf die Bildgeneration resultiert.
DALL-E 3 wird sogar direkt im Interface von ChatGPT laufen, sodass der Textgenerator gleich die genauen Prompts ausformulieren kann. Man müsse sich nur ein Bild wünschen und ChatGPT agiere dann als Vermittler zu DALL-E 3. Ein umständliches Prompt-Engineering gehöre damit der Vergangenheit an, so OpenAI. Wer möchte, kann natürlich auch selbst eine ausführliche Beschreibung seiner Bildidee eingeben.
Die von OpenAI ausgewählten Beispielsbilder - derzeit ist DALL-E 3 noch in einer geschlossenen Beta - zeigen in der Tat eine große Nähe zwischen Prompt und generiertem Bild:
Das folgende Bild wiederum basiert auf diesem Prompt - man beachte übrigens auch die tadellose Darstellung der Hände: "A middle-aged woman of Asian descent, her dark hair streaked with silver, appears fractured and splintered, intricately embedded within a sea of broken porcelain. The porcelain glistens with splatter paint patterns in a harmonious blend of glossy and matte blues, greens, oranges, and reds, capturing her dance in a surreal juxtaposition of movement and stillness. Her skin tone, a light hue like the porcelain, adds an almost mystical quality to her form."
Auch Text wird korrekt eingefügt, hauptsächlich wenn er im Prompt wörtlich vorgegeben wird; dies hat zuvor nicht geklappt.
Grundsätzlich läßt sich auch in Bildern von DALL-E 3 noch Kauderwelsch finden. So enthielt der Prompt für das folgende Poster die Vorgabe "The bottom text reads, Explore Venus: Beauty Behind the Mist" - das wurde großteils, aber nicht ganz übernommen, während das Kleingedruckte wie zuvor frei fabuliert wurde.
Laut OpenAI sind mehrere Filter im neuen KI-Bildgenerator implementiert, nicht nur um die Darstellung von Gewalt u.ä. zu verhindern. Es soll demnach ebenso wenig möglich sein, Bilder von bekannten Persönlichkeiten zu erstellen, zumindest indem ihr Name im Prompt genannt wird. Auch sollen sich keine Bilder mehr im Stile von noch lebenden Künstlern generieren lassen. Darüberhinaus soll das Unternehmen an einer internen Kennung arbeiten, um künftig erkennen zu können, welche Bilder mit DALL-E 3 generiert wurden.
DALL-E 3 soll Anfang Oktober für ChatGPT Plus und Enterprise Kunden zugänglich werden (also kostenpflichtig).
mehr Informationen
Kommentare lesen/schreiben
Passende News:
- Der nächste Schritt ist da: KI trainiert KI (und braucht den Menschen nicht mehr)
- Blender 4.0 ist da - kostenloses 3D-Softwarepaket mit zahlreichen Neuerungen
- Als die Bilder laufen lernten - Motion Brush bald in Runway Gen-2
- Canon stellt lichtstarkes RF 24-105mm F2.8 L IS USM Z inkl. Power Zoom Optionen u.a. vor
- Ich sehe was, was du auch siehst - Meta dekodiert Bilder aus Gehirnaktivität
- Mini ITX-Mainboard inkl. PCIe 5.0 und DDR5 - Minisforum BD770i
- Bing Image Creator - Microsoft bietet kostenlosen Zugang zu DALL-E 3
- Kann Chat GPT Bilder besser verlustfrei komprimieren als PNG?
- Google zeigt KI-Bullet-Time Effekt inkl. Slow Motion, Blur und Stabilizer - DynIBaR
- Aus Text wird nun auch Audio: Stable Audio generiert Musik und Soundeffekte per KI
- Atomos Edit bekommt engere Integration mit Adobe Premiere Pro
- Sony Burano ist offiziell - kleinere CineAlta-Kamera u.a. mit Autofokus