News: Videomasken einfach per Beschreibung definieren durch neuen KI-Algorithmus

1.12.2021 - 13:21 Uhr

Dieser neue Deep Learning Algorithmus (https://arxiv.org/abs/2111.14821 (End-to-End Referring Video Object Segmentation with Multimodal Transformers) ) eines Teams aus Israel macht etwas für den Videoschnitt sehr interessantes: aufgrund einer simplen Beschreibung eines Objekts in Form eines kurzen Satzes erkennt er das Objekt in einem Video und stellt es per dynamischer Maske frei.

!

Dabei kann die Beschreibung des gewünschten Objekts recht komplex sein und es auch durch dynamische Beziehungen zu anderen Objekten beschreiben oder seine Lage im Raum, wie etwa "ein Mann in einem weißen T-Shirt und blauen Hosen, der ein Surfbrett reitet", "ein großer Affe, der mit einem Affenbaby spielt", "das Zebra hinten rechts, welches hinter einem anderen steht, das nach links schaut" oder "eine Person auf einem Motorrad".

!

Der KI-Algorithmus erledigt dazu eine ganze Reihe komplexer Aufgaben aus den Bereichen Text- und Videoverständnis: erst muss er den eingegebenen Text "verstehen", dann alle Objekte in einem Video samt dynamischer Beziehungen korrekt erkennen und aufgrund der vom User gegebenen Beschreibung das korrekte Objekt identifizieren (samt seiner Eigenschaften, wie etwa der Farbe und Beziehungen zu einem anderen Objekt wie etwa "der Tennisschläger in der Hand des Spielers mit dem roten Hemd").

Dann muss das Objekt vom Hintergrund getrennt und über alle Frames, in denen es auftaucht, verfolgt und daraus eine dynamische Maske gebildet werden - auch wenn das Objekt sein Aussehen durch Bewegungen und Perspektivwechsel verändert. Die Maske muss idealerweise nicht mehr per Hand nachträglich angepasst werden. Sogar dynamische Handlungen, die sich über eine Videosequenz erstrecken, werden korrekt in einem längeren Video erkannt, wie etwa "die Hand, die dem Hund einen Ball gibt".

!

Der neue Algorithmus demonstriert sehr anschaulich, welche komplexen Aufgaben durch die Kombination verschiedener Deep Learning Methoden inzwischen bewältigt werden können. In seinem jetzigen Zustand könnte die Methode schon verwendet werden, um in einem Videoarchiv bestimmte Objekte samt ihrer Beziehung zu anderen Objekten zu finden und sie zu extrahieren. Ein kleiner weiterer Schritt würde zum Beispiel auch die Suche per natürlicher Spracheingabe ermöglichen, ein größerer weiterer Schritt könnte das Editieren von Objekten samt deren Austausch in einem Video per Spracheingabe ermöglichen.

Der entsprechende Porgrammcode kann wie immer auch selbst ausprobiert werden - das entsprechende Vorwissen vorausgesetzt.

(thomas)

mehr Informationen
Kommentare lesen / schreiben

zur Newsmeldung auf slashCAM

   


die Seite in Desktopansicht

Passende News:

 

Top

AKTUELLE ARTIKEL

AKTUELLE NEWS

25.Januar 2022 - 10:48 Uhr
Neue Firmware für DJI Mavic 3 bringt QuickShots, Burst, Panorama-Modus, QuickTransfer uvm.

25.Januar 2022 - 09:50 Uhr
Kostenloses Apple Webinar (dt): "MacBook Pro - Supercharged for Pros" - Teil 2

24.Januar 2022 - 15:07 Uhr
Tokina veröffentlicht 21mm T1.5 und 29mm T1.5 Cinema Vista Prime Objektive

24.Januar 2022 - 09:12 Uhr
CAME-TV 5.4" OnCamera Monitor mit 3G-SDI und HDMI 2.0



weitere News: