Wer bereits eigene Erfahrungen mit diffusionsbasierten KI-Bildgeneratoren gesammelt hat, kennt das Problem: Korrekte Schrift - egal in welcher Sprache- ist praktisch nicht generierbar. Zu sehen bekommt man in der Regel - wenn überhaupt - einen sprachlichen Kauderwelsch aus halluzinierten Buchstaben.
Doch mit diesem Problem soll nun Schluss sein, denn das neue DeepFloyd/IF-Modell soll fotorealistische Darstellungen mit Schriftzügen ermöglichen. Außerdem soll es sich besonders gut für grafische Aufgaben wie Logo-Design eignen.
In seinen Grundzügen basiert DeepFloyd auf Googles KI-Bildgenerator Imagen. Dieser arbeitet etwas anders als Stable Diffusion und verbindet ein Open Source Large-Language-Model (LLM) von Google ( T5-XXL-1.1) mit einem Pixel-Diffusions-Modell.
Letzteres arbeitet dreistufig und generiert primär nur 64 x 64 Pixel große Bilder, die dann zweimal per Superresolution über 256 x 256 Pixel auf die Ausgabe-Auflösung von 1024 x 1024 Pixel hochskaliert werden. Der Bildgenerator wurde dabei mit dem bewährten LAION-A-Datensatz mit 1,2 Milliarden Bildern trainiert.
Einen offiziellen Web-Bildgenerator, um DeepFloyd/IF einmal online auszuprobieren, gibt es bislang nicht - weil die aktuelle Lizenz einzig den Einsatz für die Forschung und nicht für kommerzielle Zwecke erlaubt. Wer jedoch selbst "daran forschen" will, findet auf Github entsprechende Pakete zum Download.
Gleichzeitig läutet DeepFloyd/IF jedoch auch ein neues Zeitalter für den KI-Heimeinsatz ein. Denn während bisherige Stable Diffusion Modelle bereits mit Grafikkarten ab ca. 6 GB Speicher funktionieren, fordert DeepFloyd nun mindestens 16 GB GPU-Speicher. Für das qualitativ bessere (und damit größere Modell) sind sogar 24 GB obligatorisch. Derart stark steigende Anforderungen für GPU-Speicher bei den kommenden KI-Anwendungen hatten wir bei slashCAM bereits vor kurzem thematisiert.
mehr Informationen
Kommentare lesen / schreiben
Passende News:
- Apple stellt mit 15" MacBook Air den dünnsten 15" Laptop der Welt vor. Preise ab 1.599,- Euro
- Generative KI: Googles StyleDrop lernt und imitiert Stil nach einem einzigen Bild
- Sony kündigt FX6 Firmware Version 4.0 mit Anamorphic Desqueeze und Venice 2 Firmware Roadmap an
- AMDs neue Adrenalin Treiber 23.5.1 verdoppeln Rechenleistung in Stable Diffusion
- Japan und Israel mit liberalen Copyright Positionen beim KI-Training
- ARRI stellt 7“ Camera Control Monitor CCM-1 zusammen mit SmallHD vor
- Leica Q3 mit 8K Videoaufnahme, Phasen-Autofokus, LOG und ProRes-Aufnahme vorgestellt
- Canon stellt mit Canon EOS R100 günstigen Smartphone-Konkurrenten mit APS-C Sensor und 4K Video vor
- RØDE PodMic USB: Studio-Mikrofon mit XLR und USB
- Atomos unterstützt neue ProRes RAW-Plug-ins
- FUJIFILM X-S20 - Klein und kompakt mit 6K30p-S35-Sensor
- Neue Fuji-X Objektive: Voigtländer Ultron 27mm f2.0 und Tamron 11-20mm F/2.8