Stable Diffusion XL: KI-Bilder werden fotorealistischer

// 14:48 Sa, 10. Jun 2023von

Stable Diffusion ist ein Open Source KI Bildgenerator, der sich gerade aufgrund seiner Offenheit großer Beliebtheit erfreut. So ist Stable Diffusion grundsätzlich frei verfügbar und kann sogar lokal auf der eigenen Grafikkarte ausgeführt werden. Der bislang trainierte Datensatz war jedoch kaum Restriktionen unterworfen, was einige urheberrechtliche Fragen offen lässt.


Durch das offene Modell hat sich mittlerweile eine große Community um das Produkt gebildet, welche darauf aufbauend eigene Modelle mit spezifischen Schwerpunkten entwickelt. So gibt es mittlerweile auch zahlreiche Spezial-Ausführungen (sog. LoRAs) mit diversen Themen wie Anime, Interieur, Landschaft oder auch expliziten NSFW-Inhalten.



Stable Diffusion XL
Stable Diffusion XL


Was jedoch den Fotorealismus betrifft konnte Stable Diffusion bislang nicht der hierfür besten Anwendung das Wasser reichen: Denn solange man täuschend echt wirkende Fotos erzeugen will, führt Midjourney aktuell zweifellos das Feld an.



Stable Diffusion XL
Stable Diffusion XL


Doch nun steht mit Stable Diffusion XL vielleicht auch hier ein revolutionärer Sprung ins Haus. So sollen nicht nur auf Wunsch von betroffenen KünstlerInnen 80 Millionen Bilder entfernt worden sein. Gegenüber der letzten Version sollen die Gewichte des Modells mit 2,3 Milliarden Parametern mehr als doppelt so groß ausfallen. Aktuell verkündet Stability CEO Emad Mostaque auf Twitter, das man dennoch als Zielsystem GPUs mit 8GB Speicher im Auge habe und Stability XL auf diese Speichergröße komprimieren können werde.



Stable Diffusion XL
Stable Diffusion XL


Aktuelle Betaversionen sind bereits über das kostenpflichtige DreamStudio zugänglich und Anwender bestätigen, dass gerade im Bereich des Fotorealismus nun deutlich hochwertigere Ergebnisse möglich seien.



Stable Diffusion XL
Stable Diffusion XL




Auch soll Stable Diffusion XL in der Lage sein, sinnvollen und lesbaren Text auf Bildern zu generieren. Was trivial klingt, ist für generative KI-Modelle bislang ein großes Problem. Hundertprozentige Zuverlässigkeit sollte man allerdings hier noch erwarten - trotzdem dürfte Stability XL damit als das erste grundsätzlich textfähige generative KI-Modell in die Geschichte eingehen. Falls nicht vor dem offiziellen Start noch ein anderer üblicher Verdächtiger dieses Zielband reißt.


Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash