News: Schluss mit Kauderwelsch - neue Bild-KI DeepFloyd / IF kann auch schreiben

2.5.2023 - 15:02 Uhr

Die Firma Stability AI (die unter anderem auch das quelloffene Stable-Diffusion maßgeblich fördert) hat mit DeepFloyd/IF einen weiteren Bildgenerator vorgestellt. Dieser soll sich besonders gut für Schrift und Grafik eignen.

Wer bereits eigene Erfahrungen mit diffusionsbasierten KI-Bildgeneratoren gesammelt hat, kennt das Problem: Korrekte Schrift - egal in welcher Sprache- ist praktisch nicht generierbar. Zu sehen bekommt man in der Regel - wenn überhaupt - einen sprachlichen Kauderwelsch aus halluzinierten Buchstaben.

Stable Diffusions Sprache scheint nicht von dieser Welt.
Stable Diffusions Sprache scheint nicht von dieser Welt.

Doch mit diesem Problem soll nun Schluss sein, denn das neue DeepFloyd/IF-Modell soll fotorealistische Darstellungen mit Schriftzügen ermöglichen. Außerdem soll es sich besonders gut für grafische Aufgaben wie Logo-Design eignen.

In seinen Grundzügen basiert DeepFloyd auf Googles KI-Bildgenerator Imagen. Dieser arbeitet etwas anders als Stable Diffusion und verbindet ein Open Source Large-Language-Model (LLM) von Google ( T5-XXL-1.1) mit einem Pixel-Diffusions-Modell.

Letzteres arbeitet dreistufig und generiert primär nur 64 x 64 Pixel große Bilder, die dann zweimal per Superresolution über 256 x 256 Pixel auf die Ausgabe-Auflösung von 1024 x 1024 Pixel hochskaliert werden. Der Bildgenerator wurde dabei mit dem bewährten LAION-A-Datensatz mit 1,2 Milliarden Bildern trainiert.

DeepFloyd/IF kann lesbare Texte und Grafiken generieren
DeepFloyd/IF kann lesbare Texte und Grafiken generieren

Einen offiziellen Web-Bildgenerator, um DeepFloyd/IF einmal online auszuprobieren, gibt es bislang nicht - weil die aktuelle Lizenz einzig den Einsatz für die Forschung und nicht für kommerzielle Zwecke erlaubt. Wer jedoch selbst "daran forschen" will, findet auf Github entsprechende Pakete zum Download.

Gleichzeitig läutet DeepFloyd/IF jedoch auch ein neues Zeitalter für den KI-Heimeinsatz ein. Denn während bisherige Stable Diffusion Modelle bereits mit Grafikkarten ab ca. 6 GB Speicher funktionieren, fordert DeepFloyd nun mindestens 16 GB GPU-Speicher. Für das qualitativ bessere (und damit größere Modell) sind sogar 24 GB obligatorisch. Derart stark steigende Anforderungen für GPU-Speicher bei den kommenden KI-Anwendungen hatten wir bei slashCAM bereits vor kurzem thematisiert.

(rudi)

mehr Informationen
Kommentare lesen / schreiben

zur Newsmeldung auf slashCAM

   


die Seite in Desktopansicht

Passende News:

 

Top

AKTUELLE ARTIKEL

AKTUELLE NEWS

8.Juni 2023 - 12:57 Uhr
KI-Videogenerator der zweiten Generation - Runway Gen-2 Zugang jetzt offen

7.Juni 2023 - 14:46 Uhr
Packaging-Kapazitäten ausgebucht - Befeuert KI die nächste GPU-Verknappung?

7.Juni 2023 - 11:59 Uhr
Zeiss steigt NICHT aus Fotoobjektiv-Markt aus (sondern aus dem Spiegelreflex-Segment …)

6.Juni 2023 - 11:44 Uhr
Apple stellt mit 15" MacBook Air den dünnsten 15" Laptop der Welt vor. Preise ab 1.599,- Euro



weitere News: