DALL-E 2: KI generiert und editiert Bilder nur anhand von Textbeschreibung

// 17:22 So, 10. Apr 2022von Thomas Richter

Vor etwas über einem Jahr hatte OpenAI die erste Version von DALL-E gestartet, einem neuronalen Netz, welches Bilder nur anhand einfacher Textbeschreibungen generieren kann. Jetzt wurde die neueste Version vorgestellt, welche zahlreiche Verbesserungen aufweist.

So erzeugt DALL-E 2 nicht nur überzeugendere Bilder, sondern auch mit einer vierfach höheren Auflösung (1.024 x 1.024) als bisher. Und erstmals können Bilder nicht nur generiert, sondern auch gezielt per Text editiert werden - auch können einzelne Bildelemente jetzt sowohl zum Bild hinzugefügt als auch entfernt werden.

Trainiert wurde DALL-E 2 (ein Portemanteau von (Salvador) Dali und WALL-E) anhand von einer Vielzahl von Bildern samt Bildbeschreibungen. Zudem hat das neuronale Netz die Beziehung zwischen Bildern und dem Text, der sie beschreibt, gelernt. Wer sich für die technischen Details interessiert, findet hier die Forschungsarbeit.

Wie funktioniert DALL-E 2? Beispiele

Als Input dient eine Beschreibung, was auf dem zu generierenden Bild zu sehen sein soll - dabei können nicht nur Objekte genannt werden, die im Bild auftauchen sollen, sondern auch Relationen zu anderen Objekten oder auch Handlungen, also etwa "ein Igel, der einen Taschenrechner bedient" oder "Hasendetektiv, der auf einer Parkbank sitzt und eine Zeitung liest in einer viktorianischen Umgebung".

Viele generierte Beispielbilder auf denen Koalas Motorrad fahren

Definiert werden kann auch der Bildstil, denn DALL-E 2 kann ebenso fotorealistische Bilder wie auch Cartoons oder abstrakte Malstile (wie zum Beispiel psychedelisch, Wachsmalstift oder Ölgemälde) oder Stile berühmter Maler (wie Dali, Monet, Picasso und anderen) nachempfinden.

Weitere schöne Beispiele, die DALL-E 2 auf Zuruf von Usern erzeugt hat, finden sich auf Twitter.

Noch gibt es Bildfehler

Wenn man die generierten Bild näher anschaut wird man manchmal einer Reihe von Bildfehlern gewahr, die aus der Entfernung nicht so leicht zu erkennen sind: manche Teilbereiche eines Objekts sind oft etwas eigenartig verzerrt und undeutlich.

A rabbit detective sitting on a park bench and reading a newspaper in a victorian setting - aus der Entfernung ganz ok

Wenn man näher hinschaut - Verzerrungen in einzelnen Bildteilen

Ebenso kann DALL-E 2 keine einzelnen Objekte darstellen, die es nicht kennt, d.h. mit denen es nicht trainiert wurde.

(Illustratoren-)Jobs in Gefahr?

Die Ergebnisse von DALL-E 2 sind trotzdem erstaunlich - sind der Phantasie doch keine Grenzen gesetzt. Es kann potentiell jedes Bild erzeugt werden, das man sich ausdenken und beschreiben kann - egal wie phantastisch oder absurd das Motiv ist. Befürchtet wird schon - sollte der Algorithmus allgemein zugänglich sein und die Bildqualität noch etwas besser werden - dass Illustratoren ihre Jobs verlieren könnten, da auch ganz spezielle Bildmotive ganz einfach nach freier Beschreibung mit DALL-E 2 in Sekundenschnelle - samt einer Unzahl von Bildalternativen in allen möglichen Stilen zur Auswahl - erzeugt werden können.

A photo of an astronaut riding a horse — An astronaut riding a horse in a photorealistic style

Solche neuen Entwicklungen in Sachen KI per neuronaler Netze zeigen, daß Vorhersagen über den Einfluss von künstlicher Intelligenz auf das Arbeitsleben nur sehr schwer zu treffen sind. Vor einem Jahrzehnt noch war die gängige Meinung, dass KI zuerst die körperlichen Arbeiten ersetzen würde, dann die kognitive Arbeit und dann vielleicht, eines Tages, die kreative Arbeit. Jetzt sieht es so aus, als würde die umgekehrte Reihenfolge zutreffen. Sind in einer zukünftigen Version erst einmal alle offensichtlichen Bildfehler ausgemerzt - wie soll dann noch unterschieden werden, ob ein Bild von einem Menschen oder einer KI produziert wurde?

An ibis in the wild, painted in the style of John Audubon

Noch mehr Beispiele finden sich auf Instagram.

Bilder per DALL-E 2 editieren

Die neue Möglichkeit des nachträglichen Editierens ("Inpainting") von Bildern per DALL-E 2 funktioniert ganz einfach - so wird erst grob ein Bildbereich markiert, an welchem die Änderung vollzogen werden soll und dann per Text beschrieben, was geändert werden soll. So kann zum Beispiel einer Person nachträglich ein Hut aufgesetzt werden oder ein Objekt im Bild hinzugefügt oder entfernt oder auch der Hintergrund ausgetauscht werden.

DALL-E 2: KI generiert und editiert Bilder nur anhand von Textbeschreibung

Das besondere dabei: es werden bei diesen Operationen auch Schatten, Reflexionen und Texturen der Objekte und des Hintergrunds automatisch berücksichtigt, ebenso wird der Stil (egal ob fotorealistisch oder verfremdet) an den des Bilde angepasst.

Ein Corgi im Museum - an verschiedenen Stellen ins Bild eingesetzt im jeweils passendem Stil

DALL-E 2 kann bei Eingabe eines Bildes auch Variationen davon generieren:

Die Gefahren durch KI-generierte Bilder

Das OpenAI-Team hat den direkten Zugriff auf die API von DALL-E 2, also die Möglichkeit für (potentiell) jedermann frei Bilder damit zu generieren, eingeschränkt und vorerst nur für eine kleine Gruppe ausgewählter User freigegeben. Die Möglichkeiten des Missbrauchs wird für zu gefährlich angesehen - seien es pornographische Bilder oder Gewaltdarstellungen.

Die Forscher haben sich deswegen auch bemüht, sexuelle und gewalttätige Inhalte aus den Trainingsdaten für DALL-E 2 herauszufiltern. Zudem sollen Filter für Texteingaben und hochgeladene Bilder einen Missbrauch des Systems abwehren. Ebenso wurde der Trainingsprozess geändert, um die Fähigkeit des DALL-E 2-Modells, sich Gesichter aus den Trainingsdaten zu merken, zu begrenzen, um zu verhindern, dass das Modell Bilder von Prominenten und anderen Personen des öffentlichen Lebens originalgetreu wiedergibt.

Verstehen wie das neuronale Netz funktioniert

Das Team von OpenAI hofft, daß DALL E 2 auch hilft zu verstehen, wie fortschrittliche KI-Systeme unsere Welt sehen und verstehen. Das ist wichtig, da DeepLearning Systeme eine Art Black Box darstellen, da sie selbstlernend sind und man oft nicht nachvollziehen kann, was genau gelernt wurde. Anhand von DALL-E 2 und den damit generierten Bildern - und auch anhand der misslungenen - gibt es die Möglichkeit, etwas tiefere Einblicke in die innere Funktionsweise des neuronalen Netzes von DALL-E 2 zu gewinnen.

Was bringt die Zukunft?

DALL-E 2 folgt auch einem weiteren wichtigen neuer Trend der Evolution der Schnittstelle zwischen Mensch und Computer: der Mensch sagt was er will - in natürlicher Sprache oder mit kontextuellen Hinweisen - und der Computer erledigt es. Was jetzt bei der Erzeugung und Manipulation von Bildern gilt, wird in Zukunft bei komplexen anderen Aufgaben funktionieren, ganz dem Beispiel von Siri und anderen virtuellen Assistenten folgend - nur noch funktionsmächtiger und weitere Arbeitsfelder umfassend.

Macro 35mm film photography of a large family of mice wearing hats cozy by the fireplace

Die neue Version von DALL E bestätigt uns auch in unserer schon zur ersten Generation getroffenen Vermutung, daß der nächste logische Schritt, die Generierung und auch das Verändern von bewegten Bildern nach Beschreibung, nicht mehr lange dauern wird. Denn das war schon bei vielen anderen KI Algorithmen zur Bildmanipulation der Fall, da Videos als Abfolgen von Einzelbildern nur eine weitere - wenn auch rechenintensivere - Dimension darstellen.

mehr Infos bei
openai.com

Auf Socials teilen:

Leserkommentare // Neueste

Createsomething // 21:19 am 10.4.2022

Was macht dann den Künstler wirklich aus? Das er ohne KI so ein Bild erzeugen kann? Wäre also gut unterscheiden zu können, ob ein Bild wirklich durch ein erlernetes Handwerk...weiterlesen

Im Forum mitdiskutieren >>

Ähnliche News //

News

Stockphoto-Portal Shutterstock integriert KI-Bilder und gibt eine Antwort auf die ...

Seit kurzem steht die Frage im Raum, wie Künstler und Stock-Fotodienste überleben können, wenn bildgenerierende KIs wie DALL-E 2, Stable Diffusion oder Midjourney beliebige Bilder ...

// 09:41 Sa, 5. Nov 2022von Thomas Richter

News

Text-zu-Video auf neuem Niveau OpenAI Sora - das ist der KI-Video Gamechanger!

OpenAI präsentiert nach ChatGPT und Dall-E soeben sein erstes KI-Modell für die Videogenerierung - es nennt sich Sora und erstellt bewegte Bilder auf einem absolut sensationellen ....

// 23:07 Do, 15. Feb 2024von blip

News

DALL-E 3 ist da und generiert exaktere KI-Bilder inkl. Text dank ChatGPT-Integration

OpenAI hat die neueste Version seines diffusionsbasierten KI-Bildgenerators DALL-E vorgestellt - er ist nun eng mit ChatGPT verzahnt, was gleich mehrere Vorteile bringt. So sollen ...

// 13:37 Do, 21. Sep 2023von blip

News

KI revolutioniert die Photographie: Objektbasiertes Editing mit Hilfe von DALL-E 2

Wir haben ja schon über die Bilder-KI DALLE-2 und ihre erstaunliche Fähigkeit, beeindruckende Bilder nur per Text-Prompt zu generieren berichtet. Der Photograph Nicholas Sherlock ....

// 12:23 Do, 30. Jun 2022von Thomas Richter

News

Zu erschwinglichem Preis? Revolutionäre Video-KI Sora soll noch dieses Jahr kommen

Als OpenAI seinen KI-Videogenerator Sora vor einem Monat vorstellte, betonte das Unternehmen, es würde noch dauern, bis das Text-zu-Video-Modell öffentlich zugänglich gemacht ...

// 16:34 Do, 14. Mär 2024von blip

zur Newsübersicht >

Generative Video-KI-Funktionen Adobe Firefly für Premiere Pro - Generative Extend, Object removal/addition

Zuletzt im Oktober hatte Adobe Firefly-Funktionen für Premiere Pro geteasert, darunter eine Generative Fill-Funktion - nun wird es konkret. Denn noch in diesem Jahr sollen über ...

// 15:08 Mo, 15. Apr 2024von blip

News

Übernahme ist durch RED ist nun eine Nikon-Tochter - und Jarred Land abgesetzt

Rechtzeitig zur NAB gab Nikon bekannt, die Übernahme von RED sei nun zu 100% vollzogen. Ab sofort werden Jarred Land zusammen mit James Jannard nur noch enge Berater der Nikon-...

// 14:13 So, 14. Apr 2024von blip

News

Günstiger und besser? Blackmagic stellt neues DaVinci Resolve Micro Color Panel für 495 Dollar vor

Blackmagic Design hat auf der NAB mit dem DaVinci Resolve Micro Color Panel ein weiteres, besonders erschwingliches Pult für die Farbkorrektur mit DaVinci Resolve angekündigt, ...

// 09:06 Sa, 13. Apr 2024von Rudi Schmidts

News

Blackmagic PYXIS 6K: Die Vollformat "Box"-Kamera mit Viewfinder, 2x SDI, Sideplates (!) uvm.

Am vielseitigsten riggbare Cam Blackmagic PYXIS 6K: Die Vollformat „Box“-Kamera mit Viewfinder, 2x SDI, Sideplates ...

Von vielen seit langem ersehnt und jetzt da: Blackmagic stellt mit der Pyxis 6K gleich drei leistungsstärkere Vollformat-Versionen seiner Cinema Camera 6K vor, die in ein ...

// 03:40 Sa, 13. Apr 2024von Rob

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Aktuelles

Stoppt Mickey Mouse die KI Kunst Revolution? Künstler protestieren gegen KI Konkurrenz

Die neuen bildgenerierenden KIs stellen eine Revolution dar: sie eröffnen erstmals die Möglichkeit, massenhaft hochqualitative Bilder nach Wunsch zu erzeugen - in beliebiger Menge,...

// 14:21 Di, 3. Jan 2023von Thomas Richter

Aktuelles

Die Stable Diffusion Revolution: Kostenlose Bildgenerierung per KI jetzt auch auf dem Heim-PC

Seit ein paar Tagen ist es endlich soweit: die Text-zu-Bild KI Stable Diffusion wurde veröffentlicht und kann kostenlos auf dem eigenen Computer genutzt werden - damit ist jetzt ...

// 15:03 Di, 30. Aug 2022von Thomas Richter

zur Artikelübersicht >

Was hältst du von den neuen Bild/Video-KIs?
Toll, so viele neue Kreativtools!
Sie werden das Filmemachen vereinfachen
Sie werden das Filmen z.T. ersetzen
Sie werden mich arbeitslos machen
Die sind völlig überbewertet

Ergebnis ansehen

Aktuelle News //

News

Calman Ready und 98% DCI-P3 Neue Monitorserie AOC Graphic Pro U3 für Profis

AOC hat die neue Graphic Pro U3 Monitorserie vorgestellt, die ganz auf professionelle User aus den Bereichen Video- und Bildbearbeitung zielt. Die Pro-Features umfassen die ...

// 13:57 So, 28. Apr 2024von Thomas Richter

News

Syncen am Set Tentacle Sync Timebar: Timecode-Generator mit integriertem Display

Der deutsche Timecode-Synchronisations-Spezialist Tentacle Sync hatte bereits auf der letzten NAB seine Timecode-Anzeige Timebar gezeigt, nun soll das Gerät in Kürze verfügbar ...

// 11:11 So, 28. Apr 2024von Thomas Richter

zur Newsübersicht >