Dessen noch aktueller Vorläufer GPT3(.5) befeuert unter anderem das gerade omnipräsente ChatGPT von OpenAI. An OpenAI hält Microsoft mittlerweile signifikante Geschäftsanteile und dürfte deswegen in die internen Abläufe entsprechend eingeweiht sein.
Noch konkreter wurde Andreas Braun, CTO Microsoft Germany und Lead Data & AI STU, so wörtlich: "Wir werden nächste Woche GPT-4 vorstellen, da haben wir multimodale Modelle, die noch ganz andere Möglichkeiten bieten werden – zum Beispiel Videos".
Im Gegensatz zu "großen Sprachmodellen" (Large Language Modells, LLMs) sind multimodale Modelle nicht auf Sprache zur Eingabe und Ausgabe limitiert. Man kann, aber muss keinen Text als Input nutzen, sondern kann neben Text auch ein Bild, einen Ton oder -nach Microsofts Andeutung- sogar ein Video "eingeben".
Erst vor ein paar Tagen hatte Microsoft sein eigenes erstes, großes Multimodales Modell Kosmos-1 vorgestellt. Dieses MLLM (Multimodal Large Language Model) kann nach der Betrachtung von Bildern konkrete Aussagen zum Bildinhalt beantworten oder auch Bilderrätsel lösen.
Kosmos-1 ist nun NICHT GPT-4 und hat damit auch nur gemein, dass GPT-4 ebenfalls multimodal arbeiten kann.
Ähnliches könnte also auch bei der Eingabe von Videos bald möglich sein. Es ist zudem zu erwarten, dass in Zukunft auch multimodaler Output nutzbar sein wird. Ob es bei GPT-4 schon soweit ist, wird sich nächste Woche klären. Auf jeden Fall dürften wir in Kürze das Zusammenwachsen von GPT- und Diffusion-Modellen erleben.
Die Geschäftsführerin von Microsoft Germany, Marianne Janik, betonte auf der gleichen Veranstaltung übrigens, dass es bei KI nicht darum gehe, Jobs zu ersetzen, sondern repetitive Aufgaben auf andere Weise als bisher zu erledigen. Man werde auch weiterhin viele Menschen als Experten benötigen, um die Nutzung von KI wertschöpfend zu machen.
Also lieber schon mal das Prompten üben, liebe Leute...
mehr Informationen
Kommentare lesen/schreiben
Passende News:
- AnimateAnyone - Foto und animierte Pose macht Video
- Größere Final Cut Pro Updates für iOS und MacOS verfügbar: Autom. Timelinescrolling, Voice-Over uvm.
- SmallRig und Mikevisuals stellen Tracking POV-Kit für 119,- Dollar vor
- Sony und Associated Press vs Bild-Manipulation: Digitale-Signatur demnächst in Sony-Kameras
- Benutzerdefinierte Gitternetzlinien in Sony Alpha-Kameras - für 149 Dollar!
- Der nächste Schritt ist da: KI trainiert KI (und braucht den Menschen nicht mehr)
- DIVEVOLK SeaTouch 4 Max - Touch-fähiges Unterwassergehäuse für iPhones
- Viltrox stellt PL-L Mount Adapter für 178,- Dollar vor
- Kodak stellt Super 8 Filmkamera mit Digitaltechnik und C-Mount für 5.495,- Dollar vor
- Stable Video Diffusion - Freies KI-Diffusionsmodell zur Videoerzeugung vorgestellt
- Und noch mehr Black Friday 2023 für Foto+Video – Teil 3 mit Canon, Panasonic, Tilta, Rotolight, Aputure etc.
- Meta Emu Video / Edit - verbessert Konsistenz in generativen KI Videos