Rasender KI-Fortschritt
Dieser Fortschritt spiegelt das momentan rasende Tempo der Entwicklung im Bereich KI wieder: es ist nur knapp 1 Jahr her, dass DALL-E2 die Bühne betrat und als erste Bild-KI demonstrierte, zu was ein solcher Algorithmus sowohl in Bezug auf die Bildqualität und Bildkomposition, als auch auf die "kreative" Umsetzung von komplexen Textprompts fähig war. Die Bilder wiesen zwar oft noch zahlreiche Darstellungsfehler und verschwommene Bereiche auf, aber sie ließen ahnen, welche überraschende Qualität per KI generierte Bildern haben können.
Bild-KIs im Wettstreit
Seitdem gibt es einen Wettlauf der großen Bild-KIs DALLE-E2, Midjourney und Stable Diffusion, welche ihre Modelle immer weiter optimieren und so ständig bessere Bilder erzeugen. Besonders vielfältig war die Entwicklung bisher bei Stable Diffusion aufgrund seiner offenen Natur, welche schon seit einiger Zeit mit dem passenden Modell fotorealistische Porträts erzeugen kann, auf einem Smartphone lokal läuft und dank ControlNet eine exakte Kontrolle über die Bildkomposition ermöglicht. Hier unser Einführungsartikel Stable Diffusion - Tipps und Tricks - Teil 1 - Einrichtung und Einstieg.
Midjourney Version Alpha 5
Doch Midjourney hat jetzt mit der Version 5 wieder vorgelegt - und die anderen Bild-KIs müssen nachziehen. So brilliert Midjourney jetzt besonders bei fotorealistischen Aufnahmen von natürlichen Szenerien und Menschen, die extrem detailreich dargestellt werden und von den Portraits "echter" Menschen nicht mehr unterscheidbar sind. Das berüchtigte Uncanny Valley ist damit (im Fotobereich) endgültig überwunden.
Ein Schwerpunkt wurde gelegt auf realistische Hauttexturen samt Unreinheiten und Makeln, welche Gesichter noch natürlicher erscheinen lassen. Möglich sind auch auch Portraits einer Person aus verschiedenen Perspektiven.
Aber auch andere Objekte werden enorm detailreich dargestellt.
So gut wie ausgemerzt sind die bisher typischen KI-Fehldarstellungen von Händen oder Zähnen, anhand derer man bislang noch oft KI Bilder von echten Fotografien unterscheiden konnte. Auch die Abbildung von Schriften ist jetzt besser, allerdings noch immer nicht perfekt und die dargestellten Texte bleiben sinnlos - das könnte sich aber bald ändern, zum Beispiel durch das Zusammenspiel mit einer multimodalen KI wie ChatGPT, welche sowohl mit Bildern als auch mit Texten umgehen kann und Texte in Bildern sowie den Kontext "versteht".
Auch können jetzt Bilder mit vielen neuen Seitenverhältnisse generiert werden. Darstellungsfehler treten dennoch weiterhin auf, etwa sind manchmal Objekte oder Personen - vor allem im Hintergrund - noch manchmal deformiert. Aber auch diese Probleme werden vermutlich bald der Vergangenheit angehören.
Midjourney versteht jetzt auch besser Textanweisungen in natürlicher Sprache, d.h. man muss nicht mehr kryptische Schlüsselwörter aneinanderreihen, um Bildinhalte und Darstellungsstile zu beschreiben. Das Ziel ist laut David Holz, dem Gründer von Midjourney, die Bedienung bedienerfreundlicher zu gestalten. Die aktuelle (Alpha)Version 5 ist nach seinen Worten noch weit von der finalen Version entfernt, es werde noch erhebliche Änderungen geben.
Die Möglichkeit, jetzt noch fotorealistischere und (KI-)fehlerfreie Bilder zu erzeugen, vergrößert zusammen mit der jetzt verbesserten Darstellung von bekannten Persönlichkeiten natürlich das bisher schon bestehende Risiko von Foto-Fakes:
Was kostet Midjourney?
Leider bietet Midjourney keine kostenlosen Bildgenerierungen an - im Gegensatz zu anderen Diensten muss man ein Abo für mindestens einen Monat abschließen. Dieses kostet 10 Dollar pro Monat im Basic Plan, der 200 Bildgenerierungen umfasst bzw. 30 Dollar für den Standard Plan, welcher 15 Stunden schnelle Generierungszeit bietet sowie unbegrenzt viele Bilder im relaxed Modus, welcher etwas länger dauert.
Stable Diffusion - die kostenlose Alternative
Es ist damit zu rechnen, dass das quelloffene Stable Diffusion bald mit ähnlichen Verbesserungen nachzieht und so fotorealistische Bilder auf jedem Home-PC (oder sogar Smartphone) kostenlos erzeugt werden können.
mehr Informationen
Kommentare lesen / schreiben
Passende News:
- Panasonic: Neuer organischer Sensor liefert verbesserte Farbwiedergabe
- VideoFusion: Erste Open Source Video-KI ist da - und läuft auch auf dem Heim-PC
- Gilt das Urheberrecht auch für per KI erzeugte Inhalte? Eher nicht
- Gerüchte zu Panasonics Lumix S1H II (Mk2) - 8K mit 60p und ProRes RAW
- Irix Cine-Objektive jetzt auch für Fujifilm X-Mount erhältlich
- Pro Bild nur 15 Sekunden: Stable Diffusion läuft auf Smartphone
- Smart Module: Benro Theta Reisestativ richtet sich selbst ein und streamt
- Wonder Studio: Virtuelle Figuren einfach und billig per KI in Filme integrieren
- GPT-4 kommt schon schon nächste Woche: KI für Text, Bild- und Video
- Apple: Neue Macs vor dem Start - kommt endlich der neue Mac Pro mit M2 Ultra?
- Neue Nvidia-KI generiert Bilder 30x schneller als Stable Diffusion
- Ronin 4D Flex macht Zenmuse X9 zur Mini-Gimbal-Kamera - optional endlich ProRes RAW