Nvidia Perfusion - Personen und Objekte in KI-Modelle einfach einbringen

// 11:44 Di, 8. Aug 2023von Rudi Schmidts

Und schon wieder ein großer Fortschritt in der generativen KI-Forschung, den Nvidia zur Siggraph 2023 offiziell präsentieren will und wird: "Perfusion" nennt sich eine neue Text zu Bild (Text-to-Imange, T2I)-Individualisierungs-Methode, die es besonders einfach erlauben soll, eigene Personen und Objekte in einen KI-Bildgenerator "einzutrainieren".

Bislang war es nur mit Spezialwissen möglich, KI-Modelle wie Stable Diffusion um eigene Inhalte zu erweitern. Über sogenanntes Lora-Finetuning lässt sich beispielsweise die eigene Person in künstlich geschaffenen Bildern über einen Text-Prompt ins Modell einbringen. Das neuronale Netz muss dafür anhand von Beispielfotos und den richtigen Prompt die zusätzliche Person lernen, was bislang jedoch nicht mit einem einfachen Mausklick zu bewerkstelligen war. Außerdem muss man die Finetuning-Änderungen an den Gewichten irgendwie als eine Art Patch ins Modell bringen, was bei Cloud-Anwendungen manchmal mit sehr großen Datentransfers für die neuen, veränderten Gewichte einhergeht.

All das soll nun laut Nvidias Perfusion-Paper in Zukunft in mehrfacher Hinsicht leichter werden. So sollen eigene Objekte auf einer einzigen A100 GPU (mit ca. 27GB Speicherverbrauch) in nur 4 Minuten hinzutrainiert werden können. Zugleich soll die Modifikations-Datei mit den veränderten Gewichten gerade einmal 100 Kilobyte (!!, richtig gelesen) klein sein. Die Personalisierung eines Diffusion-Modells für die eigenen Anwendungsfälle sollte hiermit in naher Zukunft für jedermann also einfach möglich werden.

Auch die Anwendung ist denkbar einfach. Man präsentiert dem Netz einfach ein paar Photos und liefert dazu einen Text-Prompt, der beschreibt, welche typische Kategorie in den Bildern zu sehen ist, direkt gefolgt von einem Stern (*).

Dieser Begriff mit dem Stern lässt sich anschließend im Diffusions-Modell einfach mit den übrigen Prompt-Worten zur Bildbeschreibung nutzen. Es sollen sogar mehrere Objekte auf diesem Wege "eintrainiert" werden können.

Die Schlüsselinnovation in Perfusion nennt sich "Key-Locking". Bei diesem Ansatz werden neue, vom Benutzer gewünschte Konzepte, wie z. B. eine bestimmte Katze oder ein Stuhl, während der Bilderzeugung mit einer breiteren Kategorie verknüpft. So wird beispielsweise die Katze mit der allgemeinen Vorstellung einer "Katze" verknüpft. Diese Technik ermöglicht eine präzisere Anpassung, wobei das Spezielle der hinzu trainierten Objekte in der Darstellung der allgemeinen Kategorie berücksichtigt wird. Es ist also anzunehmen, dass in der Folge alle Katzen der hinzutrainierten Katze stark ähneln werden. Was ein Training mehrerer unterschiedlicher Katzen oder Personen erschweren könnte.

Der breiten, lokalen Anwendung wird trotz einer zeitnahen Veröffentlichung des Codes jedoch die benötigte GPU-Speichergröße von 27GB entgegenstehen. Denn die größten Consumer-GPUs von Nvidia werden aktuell nur mit maximal 24GB ausgeliefert und sind damit knapp zu klein, um Perfusion auszuprobieren.

Genau auf solche kommenden Probleme hatten wir zuletzt in einem speziellen SlashCAM Artikel im April 2023 hingewiesen. Dieser ist leider aktueller denn je, nur mit dem Unterschied, dass AMD tatsächlich in der Software-Unterstützung mächtig aufholt. Doch gerade Perfusion wird mit Sicherheit zuerst einmal nur auf Nvidias Karten laufen...

mehr Infos bei
research.nvidia.com

Auf Socials teilen:

Leserkommentare // Neueste

iasi // 20:55 am 8.8.2023

Das ist dann die Weiterentwicklung des Pflasters im Raw-Editor. Schon eine feine Sache. Früher musste man noch aufwändig stempeln.

macaw // 19:36 am 8.8.2023

Firefly in Photoshop ist auch krass gut zum entfernen ungewollter Objekte, hab ich soeben das erste Mal für zwei Werbejobs benutzt...

medienonkel // 12:44 am 8.8.2023

Das hier angesprochene Expertenwissen ist so speziell nun auch wieder nicht. Zu loras gibt es dutzende gute Tutorials.

Im Forum mitdiskutieren >>

Ähnliche News //

News

Social Media Posts per KI Adobe Firefly KI jetzt auch mobil in neuer Express App verfügbar

Adobe will mit seiner neuen Express App die Content-Erstellung für Social Media erleichtern. Per Firefly KI lassen sich damit auf die Schnelle passende Bilder generieren - direkt ....

// 14:13 Di, 23. Apr 2024von Thomas Richter

News

Bild-KI Midjourney V5 liefert fotorealistische Bilder - und endlich auch korrekte ...

Midjourney, eine der drei großen bildgenerierenden KIs, hat mit der eben erschienenen neuen (Alpha)Version 5 einen weiteren großen Schritt gemacht: die produzierten Bilder weisen ....

// 12:24 So, 19. Mär 2023von Thomas Richter

News

VideoFusion: Erste Open Source Video-KI ist da - und läuft auch auf dem Heim-PC

Ein chinesisches Forscherteam hat eine neue Text-to-Video KI veröffentlicht, mit der sich Videos per Texteingabe erzeugten lassen. Ähnliche Algorithmen haben zwar schon Meta mit .....

// 13:41 Mo, 20. Mär 2023von Thomas Richter

News

VFX-Updates: Mocha Pro 2023 und Silhouette 2023 erschienen

BorisFX stellt neue Versionen des Planaren Trackers Mocha Pro sowie von Silhouette (Rotoscoping / Compositing) vor. Das 2023er Update für Mocha Pro soll durch einige ...

// 15:21 Sa, 29. Apr 2023von blip

News

Adobe Premiere Elements 2023 mit Styletransfer per KI und schnellerem Start

Adobe hat die neuen Versionen Premiere Elements 2023 (und Photoshop Elements 2023) vorgestellt, welche einige neue Funktionen bzw. Verbesserungen mitbringen wie zum Beispiel die .....

// 11:55 Mo, 3. Okt 2022von Thomas Richter

zur Newsübersicht >

Mobile Videoproduktion Apple stellt neue Final Cut Pro Versionen für iPad und Mac vor

Zusammen mit der Einführung der neuen iPad Pro und iPad Air Modelle hat Apple auch neue Versionen von Final Cut Pro für Mac und Final Cut Pro für iPad zusammen mit neuen Logic Pro ...

// 17:57 Di, 7. Mai 2024von Rob

News

Frische Tablets von Apple iPad Pro und Air jetzt auch mit OLED und M4-Prozessor von 699 bis 3.100 Euro

Die zwei neuen iPad-Air-Modelle sind mit einem M2-SoC ausgestattet und unterscheiden sich vor allem durch ihre Displaygröße. Das große Modell mit 13 Zoll soll zudem gegenüber dem ...

// 17:33 Di, 7. Mai 2024von Rudi Schmidts

News

Für rund 500 Euro Hollyland Pyro H 4K: HDMI Videofunkstrecke sendet an bis zu vier Empfänger

Hollyland hat gerade das neue Videoübertragungssystem Pyro H 4K auf den Markt gebracht, welches UltraHD 4K Video mit bis zu 30 fps über Strecken von bis zu 400 Metern drahtlos ...

// 14:17 So, 5. Mai 2024von Thomas Richter

News

Ohne Führerschein Mini 4K - DJIs günstigste 4K/30p Drohne kostet nur 299 US-Dollar

DJIs neueste Kameradrohne, die Mini 4K, bleibt weiterhin unter 250 Gramm und darf deswegen ohne Führerschein geflogen werden. Mit einem Preis von 299 Dollar ist sie zugleich DJIs ....

// 13:45 Di, 30. Apr 2024von Rudi Schmidts

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Meinung

Midjourney trifft Pika Labs: Generative KI -Videos - Was geht, was kommt?

Seitdem Midjourney oder Stable Diffusion fotorealistische Bilder generieren kann, will man natürlich auch realistische Bewegungen "digital erträumen". Doch das erweist sich für ...

// 10:22 Fr, 29. Sep 2023von Rudi Schmidts

Test

Kameratests auf einen Blick Die besten Kameras 2023: Welche Kameras haben uns in diesem Jahr besonders beeindruckt?

Acht Kameras haben es auf unsere Liste der besten Kameras 2023 geschafft. Tatsächlich könnten die Kameras kaum unterschiedlicher sein: Von kostenlos bis 70.000 Euro, von Ultra-...

// 09:10 Sa, 23. Dez 2023von Rob

zur Artikelübersicht >

Aktuelle News //

News

126 Grad Bildwinkel Laowa: Neue verzerrungsfreie Superweitwinkel-Objektive für DJI Drohnen

Anders als bei DJIs populären Consumer-Drohnen wie der Mavic oder der Mini lassen sich mit DJIs professionelle Drohnen aufgrund ihres (proprietären) DL-Mounts auch Wechseloptiken ....

// 17:47 Mo, 13. Mai 2024von Thomas Richter

News

Prozessor Kooperation Windows KI-Laptops für den Massenmarkt - auch von MediaTek und Nvidia ab 2025?

Einige Gerüchte-Quellen wie das taiwanesische Medienunternehmen Economic Daily wollen in den letzten Stunden mehr Hinweise bekommen haben, dass MediaTek zusammen mit Nvidia einen ....

// 11:31 Mo, 13. Mai 2024von Rudi Schmidts

zur Newsübersicht >