News: Bald für jedermann: Kostenlose Bildgenerierung per KI auf dem Heim-PC

15.8.2022 - 10:41 Uhr

Der KI-Algorithmus zum Austauschen von Videohintergründen, dem wir gerade eine eigene News gewidmet haben, nutzt als Grundlage zur Bilderstellung die offene bildgenerierende KI Stable Diffusion. Sie wurde von den KI Forschern Patrick Esser und Robin Rombach entwickelt und gerade als geschlossene Beta gestartet. Das Spannendste ist, daß Stable Diffusion schon bald als Software veröffentlicht werden wird, welche auf Consumer-PCs läuft. Es reicht schon eine Grafikkarte mit 5 GB VRAM (wie etwa eine Nvidia GeForce GTX 1660, RTX 2060 oder eine AMD Radeon RX 5600) aus, um 512x512 Pixel große Bilder in wenigen Sekunden zu erzeugen.

Mit Stable Diffusion generiertes Bild
Mit Stable Diffusion generiertes Bild

So wird die Generierung von Bildern per Text, die bisher nur einem eher engen Kreis von Menschen zugänglich war (oder nur wenige kostenlose Generierungen zuließ), wie etwa per DALL-E 2 und Midjourney), bald für sehr viel mehr Menschen erfahrbar, die damit selbst ohne jede Beschränkung experimentieren können.

!

Interessant ist in diesem Zusammenhang auch die Aussage von David Holz, dem CEO der Bild-KI Midjourney in einem Interview über die Kosten. Ihm zufolge kostet ein Trainingslauf zum Einlesen eines Pools von Milliarden von Bildern rund 50.000 Dollar und muss meist 10-20 mal wiederholt werden, um zu einem befriedigenden Ergebnis zu kommen. Stable Diffusion trainiert sein Modell mittels 4.000 Nvidia A100 Tensor-Core-GPUs, die jeweils eine Speicherbandbreite von über 2 TB/s besitzen. Sind die Trainingsdaten und damit das Modell erst einmal erstellt, wird viel weniger Rechenleistung benötigt, um den eigentlichen Job auszuführen, also Bilder zu generieren.

Diese Asymmetrie ist typische für neuronale Netzwerke, bei denen viel Rechenpower in das Training gesteckt werden muss, das daraus resultierende spezifische Modell, also das neuronale Netz mit all seinen Gewichtungen der einzelnen Knotenpunkte, dann aber viel weniger Leistung benötigt. Kein Wunder - besteht doch zum Beispiel das für Stable Diffusion verwendete, öffentliche Laion B5 Dataset aus einer 240 TB großen Sammlung von 5 Milliarden Bildern samt mehrsprachigen Bildbeschreibungen (das hier durchsucht werden kann), das für ein Trainingslauf eingelesen und gelernt werden muss. Wir sind jedenfalls gespannt auf die ersten selbst erzeugten Bilder und freuen uns auf die Experimente damit. Bis dahin hier ein schöner Vergleich einiger aktueller bildgeneriernder KIs und ihrer besonderen Stile und zwar DALL-E 2, Stable Duffusion, Crayon, Midjourney und DALL-E Flow.

(thomas)

mehr Informationen
Kommentare lesen / schreiben

zur Newsmeldung auf slashCAM

   


die Seite in Desktopansicht

Passende News:

 

Top

AKTUELLE ARTIKEL

AKTUELLE NEWS

28.November 2022 - 11:15 Uhr
Mofage POCO PL nach E/RF/L/Z Mount-Adapter inkl. Drop-In Filter für Vari-ND für 329,- Dollar

27.November 2022 - 10:43 Uhr
UPDATE 3: Noch laufende Black Friday Deals von Dedolight, Sennheiser, Asus, Samyang, Lowepro,...

26.November 2022 - 13:14 Uhr
Sony baut wieder Consumer Monitore: Inzone M3 mit 240 Hz und 99% sRGB

25.November 2022 - 12:44 Uhr
UPDATE 2: Black Friday und Cyber Monday Angebote von Avid, Laowa, Filmconvert, Viltrox und mehr



weitere News: