Dazu gibt man dem "Textual Inversion" (oder auch "Personalized Text-to-Image Generation") getauften Algorithmus einige unterschiedliche Bilder des gewünschten Objektes (optimal sind 3-5 Stück) und trainiert ihn damit. Wird dieses neue Trainingsmaterial daraufhin in das Modell einer Bild-KI importiert, kann es mittels eines besonderen Kennworts (analog zu einer Variable) aufgerufen und in Texteingaben genutzt werden.
Das kann außerdem dazu genutzt werden, um in einem vorgegebenen Bild das eigene Objekt einfach per Text zu manipulieren, etwa um seine Farbe gezielt zu ändern, es in einer anderen Umgebung oder Malstil darzustellen, es in eine Statue oder ähnliches zu verwandeln. Der neue Algorithmus gibt damit einen Vorgeschmack auf die zukünftigen Möglichkeiten dder objektbasierten KI-Bildbearbeitung (und bald auch Videoediting) per Text.
Doch nicht nur spezielle Objekte lassen sich per Kommando in die KI-generierten Bilder einfügen. Auch abstraktere Konzepte wie etwa ein abstrakter Malstil (bzw. Look) kann der KI antrainiert werden, der dann eingesetzt werden kann, um Bildern einen spezifisches Aussehen zu verpassen.
So wird im folgenden Beispiel der Textual Inversion Algorithmus etwa mit einer kopflose Statue im Schneidersitz trainiert - diese kann dann in anderen Stilen (u.a. als Ölgemälde, Icon oder auch als Häkelfigur) reproduziert werden.
Und dank der sehr aktiven Community rund um den jüngst veröffentlichten, quelloffenen KI-Bildgenerator Stable Diffusion ist die Textual Inversion Funktion ( hier der zugehörige Programmcode ) auch schon integriert in eine spezielle Version von Stable Diffusion sowie die Web UI Version mit graphischem Benutzerinterface. Die Funktion ist allerdings noch rudimentär und erfordert etwas Programmierkenntnisse und eine leistungsstarke GPU. Interessanterweise hat ein Team von Google nahezu zeitgleich ein DreamBooth getauften Algorithmus entwickelt, der ähnliches leistet.
mehr Informationen
Kommentare lesen / schreiben
Passende News:
- Runway Gen1: Neue Video-KI stilisiert Videos, maskiert Objekte, rendert 3D-Modelle
- Neuer KI-Effekt NVIDIA Eye Contact: Bye bye Teleprompter?
- Sony Star Sphere: Nanosatellit mit Alpha-Kamera ermöglicht eigene Fotos und Videos vom Wetall aus
- Neuer DJI RS3 Gimbal im Anflug?
- DaVinci Resolve fürs iPad: Neuer Hack schaltet alle Funktionen frei
- Sony DWT-P30: Neuer professioneller Aufstecksender für DWX-Serie
- Heavy Metal meets Midjourney: Musikvideo aus 10.000 KI-generierten Bildern
- Neu gewählt: Die 100 besten Filme der Welt - mit neuer Überraschungs-Nummer 1
- Nvidia Magic3D - beliebige 3D-Objekte durch Textbeschreibung erzeugen
- Neuer Apple Mac Pro mit M2 Extreme mit bis zu 48 CPU- und 152 GPU-Cores verspätet sich
- Neuer DisplayPort 2.1 Standard bringt bessere Unterstützung für USB-C und USB4
- Sonnet: Neuer professioneller Dual-Slot Kartenleser für AJA PAK Medien mit Thunderbolt 4