Das Paper führt mit Emu letztlich zwei sehr interessante Neuigkeiten ins Feld. Erstens fand Meta bei der Architektur, dass eine Erhöhung der Kanäle im Autoencoder von 4 auf 16 die Rekonstruktion feiner Details signifikant erhöhte. Kleine Schriften bleiben hiermit beispielsweise deutlich lesbar.
Die wichtigste neue Erkenntnis durch Emu ist laut Meta jedoch, dass ein überwachtes Feintuning mit einem Satz überraschend kleiner, aber extrem visuell ansprechender Bilder die Generierungs-Qualität erheblich verbessern kann.
So ist Emu ein ziemlich normales, latentes Diffusionsmodell, das anhand von 1,1 Milliarden Bild-Text-Paaren trainiert wurde. Das anschließende Feintuning wurde jedoch mit nur "einigen Tausend" Bildern durchgeführt. Diese waren jedoch sorgfältig aufgrund ihrer "ästhetischen Exzellenz" ausgewählt worden. Mit dieser Strategie "Klasse statt Masse" übertraf das Modell nach einer Open User Einschätzung in 82,9 Prozent aller Fälle sich selbst ohne Finetuning. Auch gegenüber Stable Diffusion XL bevorzugten Anwender in einem Webtest die Ergebnisse von Emu in mehr als 2 von 3 Fällen.
Nun bleibt es natürlich spannend, was Meta letztlich mit seinem Modell anfangen wird. Das letzte große Sprachmodell (LLMs) von Meta (LLama) fand schnell seinen Weg in die Hände der Open Source Gemeinde - was nun natürlich auch entsprechende Erwartungen gegenüber Emu aufkommen lässt. Ein paar Tage müssen wir uns allerdings wohl noch gedulden, bis Meta hier seine konkreten Pläne verlautbaren wird.
mehr Informationen
Kommentare lesen/schreiben
Passende News:
- Nikon Z8/Z9 demnächst mit Open Gate Anamorphoten-Aufnahme. neuem N-Log, 8,3K 120p Burst ...?
- Team Group T-CREATE CinemaPr P31 - Externe USB-C SSD mit Mounting-Holes
- Neue Tutorial Clips von Blackmagic Design: Erste Schritte mit der Camera App und Filesync mit BM Cloud
- PIKA 1.0 angekündigt - Generative KI-Videos mit erstaunlicher Qualität
- Der nächste Schritt ist da: KI trainiert KI (und braucht den Menschen nicht mehr)
- Insta360 Ace Pro - Action Cam mit 8K-Sensor, Leica Optik und viel KI
- Kodak stellt Super 8 Filmkamera mit Digitaltechnik und C-Mount für 5.495,- Dollar vor
- Stable Video Diffusion - Freies KI-Diffusionsmodell zur Videoerzeugung vorgestellt
- Quad Pixel AF und Mini-R5C (S35) mit IBIS? Spannende, neue Patente von Canon
- Und noch mehr Black Friday 2023 für Foto+Video – Teil 3 mit Canon, Panasonic, Tilta, Rotolight, Aputure etc.
- Meta Emu Video / Edit - verbessert Konsistenz in generativen KI Videos
- Noch mehr Black Friday-Deals 2023 für Foto+Video – Teil 2 mit Sony, Smallrig, MSI, WD, TopazAI u.a.