Stable Diffusion ist ein Open Source KI Bildgenerator, der sich gerade aufgrund seiner Offenheit großer Beliebtheit erfreut. So ist Stable Diffusion grundsätzlich frei verfügbar und kann sogar lokal auf der eigenen Grafikkarte ausgeführt werden. Der bislang trainierte Datensatz war jedoch kaum Restriktionen unterworfen, was einige urheberrechtliche Fragen offen lässt.
Durch das offene Modell hat sich mittlerweile eine große Community um das Produkt gebildet, welche darauf aufbauend eigene Modelle mit spezifischen Schwerpunkten entwickelt. So gibt es mittlerweile auch zahlreiche Spezial-Ausführungen (sog. LoRAs) mit diversen Themen wie Anime, Interieur, Landschaft oder auch expliziten NSFW-Inhalten.
Was jedoch den Fotorealismus betrifft konnte Stable Diffusion bislang nicht der hierfür besten Anwendung das Wasser reichen: Denn solange man täuschend echt wirkende Fotos erzeugen will, führt Midjourney aktuell zweifellos das Feld an.
Doch nun steht mit Stable Diffusion XL vielleicht auch hier ein revolutionärer Sprung ins Haus. So sollen nicht nur auf Wunsch von betroffenen KünstlerInnen 80 Millionen Bilder entfernt worden sein. Gegenüber der letzten Version sollen die Gewichte des Modells mit 2,3 Milliarden Parametern mehr als doppelt so groß ausfallen. Aktuell verkündet Stability CEO Emad Mostaque auf Twitter, das man dennoch als Zielsystem GPUs mit 8GB Speicher im Auge habe und Stability XL auf diese Speichergröße komprimieren können werde.
Aktuelle Betaversionen sind bereits über das kostenpflichtige DreamStudio zugänglich und Anwender bestätigen, dass gerade im Bereich des Fotorealismus nun deutlich hochwertigere Ergebnisse möglich seien.
Auch soll Stable Diffusion XL in der Lage sein, sinnvollen und lesbaren Text auf Bildern zu generieren. Was trivial klingt, ist für generative KI-Modelle bislang ein großes Problem. Hundertprozentige Zuverlässigkeit sollte man allerdings hier noch erwarten - trotzdem dürfte Stability XL damit als das erste grundsätzlich textfähige generative KI-Modell in die Geschichte eingehen. Falls nicht vor dem offiziellen Start noch ein anderer üblicher Verdächtiger dieses Zielband reißt.