Schluss mit Kauderwelsch - neue Bild-KI DeepFloyd / IF kann auch schreiben

// 15:02 Di, 2. Mai 2023von

Die Firma Stability AI (die unter anderem auch das quelloffene Stable-Diffusion maßgeblich fördert) hat mit DeepFloyd/IF einen weiteren Bildgenerator vorgestellt. Dieser soll sich besonders gut für Schrift und Grafik eignen.


Wer bereits eigene Erfahrungen mit diffusionsbasierten KI-Bildgeneratoren gesammelt hat, kennt das Problem: Korrekte Schrift - egal in welcher Sprache- ist praktisch nicht generierbar. Zu sehen bekommt man in der Regel - wenn überhaupt - einen sprachlichen Kauderwelsch aus halluzinierten Buchstaben.



Stable Diffusions Sprache scheint nicht von dieser Welt.
Stable Diffusions Sprache scheint nicht von dieser Welt.


Doch mit diesem Problem soll nun Schluss sein, denn das neue DeepFloyd/IF-Modell soll fotorealistische Darstellungen mit Schriftzügen ermöglichen. Außerdem soll es sich besonders gut für grafische Aufgaben wie Logo-Design eignen.



In seinen Grundzügen basiert DeepFloyd auf Googles KI-Bildgenerator Imagen. Dieser arbeitet etwas anders als Stable Diffusion und verbindet ein Open Source Large-Language-Model (LLM) von Google ( T5-XXL-1.1) mit einem Pixel-Diffusions-Modell.



Letzteres arbeitet dreistufig und generiert primär nur 64 x 64 Pixel große Bilder, die dann zweimal per Superresolution über 256 x 256 Pixel auf die Ausgabe-Auflösung von 1024 x 1024 Pixel hochskaliert werden. Der Bildgenerator wurde dabei mit dem bewährten LAION-A-Datensatz mit 1,2 Milliarden Bildern trainiert.



DeepFloyd/IF kann lesbare Texte und Grafiken generieren
DeepFloyd/IF kann lesbare Texte und Grafiken generieren


Einen offiziellen Web-Bildgenerator, um DeepFloyd/IF einmal online auszuprobieren, gibt es bislang nicht - weil die aktuelle Lizenz einzig den Einsatz für die Forschung und nicht für kommerzielle Zwecke erlaubt. Wer jedoch selbst "daran forschen" will, findet auf Github entsprechende Pakete zum Download.



Gleichzeitig läutet DeepFloyd/IF jedoch auch ein neues Zeitalter für den KI-Heimeinsatz ein. Denn während bisherige Stable Diffusion Modelle bereits mit Grafikkarten ab ca. 6 GB Speicher funktionieren, fordert DeepFloyd nun mindestens 16 GB GPU-Speicher. Für das qualitativ bessere (und damit größere Modell) sind sogar 24 GB obligatorisch. Derart stark steigende Anforderungen für GPU-Speicher bei den kommenden KI-Anwendungen hatten wir bei slashCAM bereits vor kurzem thematisiert.


Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash