Neuer Algorithmus ermöglicht eigene Objekte in KI-generierten Bildern

// 12:59 Do, 15. Sep 2022von

In rasendem Tempo geht die Entwicklung der textbasierten Bildgenerierung per KI weiter und ermöglicht immer weitere, praktische Funktionen. So hat jetzt ein Team von Forschern von Nvidia und der Universität Tel Aviv einen neuen Algorithmus vorgestellt, der die bisherige Funktionalität um die Möglichkeit erweitert, eigene Objekte in die Bildsynthesen zu integrieren. So lassen sich ganz spezifische Objekte (wie zum Beispiel die eigene Katze oder das eigene Auto) in den erzeugten Bildern nutzen.


Dazu gibt man dem "Textual Inversion" (oder auch "Personalized Text-to-Image Generation") getauften Algorithmus einige unterschiedliche Bilder des gewünschten Objektes (optimal sind 3-5 Stück) und trainiert ihn damit. Wird dieses neue Trainingsmaterial daraufhin in das Modell einer Bild-KI importiert, kann es mittels eines besonderen Kennworts (analog zu einer Variable) aufgerufen und in Texteingaben genutzt werden.



Das kann außerdem dazu genutzt werden, um in einem vorgegebenen Bild das eigene Objekt einfach per Text zu manipulieren, etwa um seine Farbe gezielt zu ändern, es in einer anderen Umgebung oder Malstil darzustellen, es in eine Statue oder ähnliches zu verwandeln. Der neue Algorithmus gibt damit einen Vorgeschmack auf die zukünftigen Möglichkeiten dder objektbasierten KI-Bildbearbeitung (und bald auch Videoediting) per Text.



Doch nicht nur spezielle Objekte lassen sich per Kommando in die KI-generierten Bilder einfügen. Auch abstraktere Konzepte wie etwa ein abstrakter Malstil (bzw. Look) kann der KI antrainiert werden, der dann eingesetzt werden kann, um Bildern einen spezifisches Aussehen zu verpassen.



So wird im folgenden Beispiel der Textual Inversion Algorithmus etwa mit einer kopflose Statue im Schneidersitz trainiert - diese kann dann in anderen Stilen (u.a. als Ölgemälde, Icon oder auch als Häkelfigur) reproduziert werden.



Und dank der sehr aktiven Community rund um den jüngst veröffentlichten, quelloffenen KI-Bildgenerator Stable Diffusion ist die Textual Inversion Funktion ( hier der zugehörige Programmcode ) auch schon integriert in eine spezielle Version von Stable Diffusion sowie die Web UI Version mit graphischem Benutzerinterface. Die Funktion ist allerdings noch rudimentär und erfordert etwas Programmierkenntnisse und eine leistungsstarke GPU. Interessanterweise hat ein Team von Google nahezu zeitgleich ein DreamBooth getauften Algorithmus entwickelt, der ähnliches leistet.



Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash