Vielmehr werden Milliarden von Bildern in einem sogenannten Latent Space komprimiert abgelegt. Und zwar so, dass sie aufgrund ihrer Ähnlichkeit in verschiedenen Dimensionen nahe beieinanderliegen. Diese extrem vieldimensionale Speicherung lässt sich für Menschen schlecht vorstellen - obwohl oder wir in unseren Gehirnen vielleicht sogar unser Wissen mit ähnlichen Schemata "verwalten". So liegen beispielsweise alle lächelnden Personen in einer Dimensions-Achse nahe beieinander.
Um ein KI-Bild zu erzeugen, müssen wir "nur" dessen Koordinaten in diesem Raum angeben. Und diese Koordinaten entsprechen - einfach gesagt- den Begriffen im zugehörigen Prompt. Schon bisher konnte man durch Prompting versuchen, sich auf diesen Dimensions-Achsen im Latent Space zu bewegen, um nur Kleinigkeiten im Output zu ändern. "Negative Prompting" macht sich diese Idee ebenfalls zunutze.
Was jedoch bisher noch nicht funktioniert hat: Bildbereiche direkt durch die Maus zu bewegen. Man zieht also beispielsweise den Mundwinkel einfach durch Anfassen mit der Maus nach oben. Im Gegensatz zum einfachen Morphing, verändert sich bei "Drag your GAN" anschließend das gesamte Objekt passend hierzu. So können sich dadurch eventuell auch die Lippen etwas öffnen, Falten hinzukommen und/oder auch die Augen etwas schließen.
Das Ganze funktioniert jedoch nicht mit einem herkömmlichen Foto. Aufgrund des notwendigen Latent Space kann die Manipulation nur mit einem von der KI hieraus generierten Bild erfolgen. Dafür sind anschließend die Manipulationsmöglichkeiten so einfach wie noch nie zuvor. Eine große Zahl an animierten Beispielen hält die Projektwebseite bereit.
"Drag your GAN" stellt somit wohl den nächsten Meilenstein in der rasanten Entwicklung generativer KI-Modelle dar. Der entsprechende Code soll bereits im Juni zur Verfügung gestellt werden.
mehr Informationen
Kommentare lesen / schreiben
Passende News:
- KI-Videogenerator der zweiten Generation - Runway Gen-2 Zugang jetzt offen
- Apple stellt mit 15" MacBook Air den dünnsten 15" Laptop der Welt vor. Preise ab 1.599,- Euro
- Apple Vision Pro: Lang erwartetes Mixed Reality Headset - der Beginn einer neuen Geräte-Ära?
- Die Paragraphica KI-Kamera ist da: Bilder ohne Objektiv von der Umgebung durch KI aufnehmen?
- Sony kündigt FX6 Firmware Version 4.0 mit Anamorphic Desqueeze und Venice 2 Firmware Roadmap an
- Japan und Israel mit liberalen Copyright Positionen beim KI-Training
- ARRI stellt 7“ Camera Control Monitor CCM-1 zusammen mit SmallHD vor
- Leica Q3 mit 8K Videoaufnahme, Phasen-Autofokus, LOG und ProRes-Aufnahme vorgestellt
- Canon stellt mit Canon EOS R100 günstigen Smartphone-Konkurrenten mit APS-C Sensor und 4K Video vor
- RØDE PodMic USB: Studio-Mikrofon mit XLR und USB
- FUJIFILM X-S20 - Klein und kompakt mit 6K30p-S35-Sensor
- Adobe Generative Fill - KI-Bildergänzung in Photoshop, einfach für jedermann!