Neue KI generiert photorealistische Bilder auf Wunsch

// 10:48 So, 28. Mär 2021von

Die neue Folge von "Two Minute Papers" stellt ein sehr interessantes neues DeepLearning Projekt vor, daß gleich auf mehrere Arten für die kreative Arbeit eingesetzt werden kann, denn es ist spezialisiert auf das Generieren hochauflösender photorealistischer Bilder.





Zwar konnte auch schon das auf Transformer-Netzwerk Algorithmen basierende GPT-3 von Open AI, ( hier einige interessante Beispiele für seine Universalität), nicht nur sinnvolle Texte, sondern per Image-GPT auch Bilder generieren, aber diese waren in der Qualität (im Gegensatz zu den Texten) mit einer maximalen Auflösung von 192x192 Pixeln noch ziemlich schlecht.






Die neue Technik, die an der Universität Heidelberg entwickelt wurde, verbessert dagegen gerade die Fähigkeiten des neuronalen Transformer Netzwerks in Bezug auf Bilder durch seine Kombination einem Convolutional Netzwerk (CNN) radikal. Sie ereicht dies, indem Bilder nicht nur als Sequenzen von Pixeln gesehen werden (wie von einem bloßen Transformer Netzwerk), sondern vor dem Training damit erst von einem CNN in visuell sinnvolle (semantische) Bildbestandteile abstrahiert werden, was im Resultat Bilder mit viel höheren Auflösungen möglich macht.


Bild-Generierung per Depth Map
Bild-Generierung per Depth Map

So kann der neue Algorithmus auf Basis des gelernten Bildmaterials sowohl aus einfachen Depth-Maps beliebige passende Bilder und 3D-Objekte erzeugen, als auch aus einer schematischen Skizze (hier Himmel, dort Wasser und Berge) photorealistische Landschaftsaufnahmen generieren, aus unscharfen Bildern per Superresolution detaillierte Versionen zaubern, Photos von Menschen generieren, die eine per Skizze vorgegebene Pose einnehmen oder die abgeschnittene Hälfte von Photos zu ergänzen.



Bild-Generierung von Landschaften per Skizze
Bild-Generierung von Landschaften per Skizze




Superresolution
Superresolution


Landschaften ergänzt
Landschaften ergänzt


Wie immer dokumentiert Károly Zsolnai-Fehér durch Vergleiche auch die erstaunlich schnelle Entwicklung der verschiedenen KI-Algorithmen - was vor einem Jahr noch mehr schlecht als recht möglich war, ist jetzt schon passabel und ein, zwei Projekte und Weiterentwicklungen später schon nahezu perfekt möglich. Und meist folgen auf KI-Anwendungen für Photos auch Versionen für Videos, die aufgrund der Vielzahl von Bildern und deren zeitlichen Zusammenhang zwar schwieriger zu berechnen sind, aber im Grunde nach den gleichen Prinzipien manipuliert werden können wie Photos.



Wie wir schon in unserem Artikel Schnitt- und Compositing-Trends 2030 - Videoanwendungen im nächsten Jahrzehnt spekuliert hatten, werden in Zukunft durch solche KI-Algorithmen immer intelligentere Arten des (objektbasierten)-Videoeditings möglich.



Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash