So wird die Generierung von Bildern per Text, die bisher nur einem eher engen Kreis von Menschen zugänglich war (oder nur wenige kostenlose Generierungen zuließ), wie etwa per DALL-E 2 und Midjourney), bald für sehr viel mehr Menschen erfahrbar, die damit selbst ohne jede Beschränkung experimentieren können.
Interessant ist in diesem Zusammenhang auch die Aussage von David Holz, dem CEO der Bild-KI Midjourney in einem Interview über die Kosten. Ihm zufolge kostet ein Trainingslauf zum Einlesen eines Pools von Milliarden von Bildern rund 50.000 Dollar und muss meist 10-20 mal wiederholt werden, um zu einem befriedigenden Ergebnis zu kommen. Stable Diffusion trainiert sein Modell mittels 4.000 Nvidia A100 Tensor-Core-GPUs, die jeweils eine Speicherbandbreite von über 2 TB/s besitzen. Sind die Trainingsdaten und damit das Modell erst einmal erstellt, wird viel weniger Rechenleistung benötigt, um den eigentlichen Job auszuführen, also Bilder zu generieren.
Diese Asymmetrie ist typische für neuronale Netzwerke, bei denen viel Rechenpower in das Training gesteckt werden muss, das daraus resultierende spezifische Modell, also das neuronale Netz mit all seinen Gewichtungen der einzelnen Knotenpunkte, dann aber viel weniger Leistung benötigt. Kein Wunder - besteht doch zum Beispiel das für Stable Diffusion verwendete, öffentliche Laion B5 Dataset aus einer 240 TB großen Sammlung von 5 Milliarden Bildern samt mehrsprachigen Bildbeschreibungen (das hier durchsucht werden kann), das für ein Trainingslauf eingelesen und gelernt werden muss. Wir sind jedenfalls gespannt auf die ersten selbst erzeugten Bilder und freuen uns auf die Experimente damit. Bis dahin hier ein schöner Vergleich einiger aktueller bildgeneriernder KIs und ihrer besonderen Stile und zwar DALL-E 2, Stable Duffusion, Crayon, Midjourney und DALL-E Flow.
mehr Informationen
Kommentare lesen/schreiben
Passende News:
- Filmic Pro - Team aus dem Rennen, Pferd läuft noch weiter
- Größere Final Cut Pro Updates für iOS und MacOS verfügbar: Autom. Timelinescrolling, Voice-Over uvm.
- SmallRig und Mikevisuals stellen Tracking POV-Kit für 119,- Dollar vor
- Benutzerdefinierte Gitternetzlinien in Sony Alpha-Kameras - für 149 Dollar!
- DIVEVOLK SeaTouch 4 Max - Touch-fähiges Unterwassergehäuse für iPhones
- Viltrox stellt PL-L Mount Adapter für 178,- Dollar vor
- Kodak stellt Super 8 Filmkamera mit Digitaltechnik und C-Mount für 5.495,- Dollar vor
- Und noch mehr Black Friday 2023 für Foto+Video – Teil 3 mit Canon, Panasonic, Tilta, Rotolight, Aputure etc.
- Noch mehr Black Friday-Deals 2023 für Foto+Video – Teil 2 mit Sony, Smallrig, MSI, WD, TopazAI u.a.
- Sigma stellt 70-200mm F2,8 DG DN OS Sports für E- und L-Mount offiziell vor
- Black Friday-Deals 2023 für Foto+Video – Teil 1 mit DJI, AVID, DZOfilm, Hollyland, Zhiyun..
- Nikon Global Shutter Z9 H Flaggschiff-DSLM für olympische Spiele geplant?