News: Schluss mit Kauderwelsch - neue Bild-KI DeepFloyd / IF kann auch schreiben

2.5.2023 - 15:02 Uhr

Die Firma Stability AI (die unter anderem auch das quelloffene Stable-Diffusion maßgeblich fördert) hat mit DeepFloyd/IF einen weiteren Bildgenerator vorgestellt. Dieser soll sich besonders gut für Schrift und Grafik eignen.

Wer bereits eigene Erfahrungen mit diffusionsbasierten KI-Bildgeneratoren gesammelt hat, kennt das Problem: Korrekte Schrift - egal in welcher Sprache- ist praktisch nicht generierbar. Zu sehen bekommt man in der Regel - wenn überhaupt - einen sprachlichen Kauderwelsch aus halluzinierten Buchstaben.

Stable Diffusions Sprache scheint nicht von dieser Welt.
Stable Diffusions Sprache scheint nicht von dieser Welt.

Doch mit diesem Problem soll nun Schluss sein, denn das neue DeepFloyd/IF-Modell soll fotorealistische Darstellungen mit Schriftzügen ermöglichen. Außerdem soll es sich besonders gut für grafische Aufgaben wie Logo-Design eignen.

In seinen Grundzügen basiert DeepFloyd auf Googles KI-Bildgenerator Imagen. Dieser arbeitet etwas anders als Stable Diffusion und verbindet ein Open Source Large-Language-Model (LLM) von Google ( T5-XXL-1.1) mit einem Pixel-Diffusions-Modell.

Letzteres arbeitet dreistufig und generiert primär nur 64 x 64 Pixel große Bilder, die dann zweimal per Superresolution über 256 x 256 Pixel auf die Ausgabe-Auflösung von 1024 x 1024 Pixel hochskaliert werden. Der Bildgenerator wurde dabei mit dem bewährten LAION-A-Datensatz mit 1,2 Milliarden Bildern trainiert.

DeepFloyd/IF kann lesbare Texte und Grafiken generieren
DeepFloyd/IF kann lesbare Texte und Grafiken generieren

Einen offiziellen Web-Bildgenerator, um DeepFloyd/IF einmal online auszuprobieren, gibt es bislang nicht - weil die aktuelle Lizenz einzig den Einsatz für die Forschung und nicht für kommerzielle Zwecke erlaubt. Wer jedoch selbst "daran forschen" will, findet auf Github entsprechende Pakete zum Download.

Gleichzeitig läutet DeepFloyd/IF jedoch auch ein neues Zeitalter für den KI-Heimeinsatz ein. Denn während bisherige Stable Diffusion Modelle bereits mit Grafikkarten ab ca. 6 GB Speicher funktionieren, fordert DeepFloyd nun mindestens 16 GB GPU-Speicher. Für das qualitativ bessere (und damit größere Modell) sind sogar 24 GB obligatorisch. Derart stark steigende Anforderungen für GPU-Speicher bei den kommenden KI-Anwendungen hatten wir bei slashCAM bereits vor kurzem thematisiert.

(Rudi Schmidts)

mehr Informationen

Kommentare lesen/schreiben

zur Newsmeldung auf slashCAM

   


die Seite in Desktopansicht

Passende News:

 

Top

AKTUELLE ARTIKEL

AKTUELLE NEWS

25. 2024 - 11:45 Uhr
Sony PDT-FP1 - stabile und einfache Datenübertragung beim Dreh

24. 2024 - 12:00 Uhr
Elevenlabs bietet demnächst auch KI-generierte Soundeffekte an

23. 2024 - 18:35 Uhr
SmallRig bringt umfassendes Retro-Zubehörsystem für Fujifilm X100VI

23. 2024 - 10:46 Uhr
Blackmagic URSA Broadcast G2 mit Cloud Upload und geringerer SDI-Latenz



weitere News: