Schlägt Meta Stable Diffusion XL mit Ästhetik? Emu trainiert "vom Feinsten"

// 10:49 Mo, 16. Okt 2023von

Nachdem Open AI ja gerade mit Dall-E 3 die KI-News beherrscht, holt Meta zum nächsten Streich in der Liga der generativen Diffusions-Modelle aus. Zwar wurde "Emu" noch nicht offiziell angekündigt, jedoch gibt es bereits ein eingereichtes Paper, welches in der Szene nun große Neugier weckt.


Das Paper führt mit Emu letztlich zwei sehr interessante Neuigkeiten ins Feld. Erstens fand Meta bei der Architektur, dass eine Erhöhung der Kanäle im Autoencoder von 4 auf 16 die Rekonstruktion feiner Details signifikant erhöhte. Kleine Schriften bleiben hiermit beispielsweise deutlich lesbar.



Metas Emu nutzt im Autoencoder 16 Kanäle und erhält damit mehr Details
Metas Emu nutzt im Autoencoder 16 Kanäle und erhält damit mehr Details


Die wichtigste neue Erkenntnis durch Emu ist laut Meta jedoch, dass ein überwachtes Feintuning mit einem Satz überraschend kleiner, aber extrem visuell ansprechender Bilder die Generierungs-Qualität erheblich verbessern kann.



So ist Emu ein ziemlich normales, latentes Diffusionsmodell, das anhand von 1,1 Milliarden Bild-Text-Paaren trainiert wurde. Das anschließende Feintuning wurde jedoch mit nur "einigen Tausend" Bildern durchgeführt. Diese waren jedoch sorgfältig aufgrund ihrer "ästhetischen Exzellenz" ausgewählt worden. Mit dieser Strategie "Klasse statt Masse" übertraf das Modell nach einer Open User Einschätzung in 82,9 Prozent aller Fälle sich selbst ohne Finetuning. Auch gegenüber Stable Diffusion XL bevorzugten Anwender in einem Webtest die Ergebnisse von Emu in mehr als 2 von 3 Fällen.



Metas Emu - Generativer Bildgenerator mit ästhetisch kuratiertem Feintuning
Metas Emu - Generativer Bildgenerator mit ästhetisch kuratiertem Feintuning


Nun bleibt es natürlich spannend, was Meta letztlich mit seinem Modell anfangen wird. Das letzte große Sprachmodell (LLMs) von Meta (LLama) fand schnell seinen Weg in die Hände der Open Source Gemeinde - was nun natürlich auch entsprechende Erwartungen gegenüber Emu aufkommen lässt. Ein paar Tage müssen wir uns allerdings wohl noch gedulden, bis Meta hier seine konkreten Pläne verlautbaren wird.



Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash