Erst Bilder, dann Sounds: Neue Google-KI generiert beliebige Musik nach Textbeschreibung

Forscher von Google haben eine neue KI vorgestellt, die nach einem ähnlichen Muster wie die gerade sehr populären Text-2-Image KIs wie DALL-E 2, Midjourney oder Stable Diffusion per Textprompt Musik (statt Bilder) generiert.

Robot Musiker - imaginiert von Stable Diffusion
Robot Musiker - imaginiert von Stable Diffusion


Die neue Text-to-Music KI mit dem Namen "MusicLM" kann aus Textbeschreibungen Musik mit 24 kHz erzeugen, welche über mehrere Minuten hinweg konsistent bleibt. MusicLM wurde mit einem Datensatz von 280.000 Stunden Musik trainiert, um zu lernen, Musikstücke nach komplexen Beschreibungen wie zum Beispiel "Eine Verschmelzung von Reggaeton und elektronischer Tanzmusik, mit einem spacigen, jenseitigen Sound. Die Musik soll ein Gefühl von Staunen und Ehrfurcht hervorrufen und gleichzeitig tanzbar sein" zu generieren.



Erstaunlich ist die Bandbreite der von MusicML erzeugten Musik - sie reicht von Volksmusik und klassischer Musik über Jazz, Pop, Rap und Reggae bis hin zu Techno, 8-Bit Computermusik oder Death Metal. Wie schon bei den Bild- und Text-KIs zeigt sich, daß ein Bild-/Text- oder auch Musik-Stil für eine KI auch nur ein Parameter ist - ebenso die Instrumentierung. So lassen sich mit der Musik-KI beliebige wilde Crossovermixe generieren wie Metalmusik mit Akkordeons, rappende Streichquartette und alle möglichen anderen Kombinationen.





Erst Bilder, dann Sounds: Neue Google-KI generiert beliebige Musik nach Textbeschreibung


Interessant ist auch die Möglichkeit, der KI eine zum Beispiel gepfiffene oder gesummte Melodie zu präsentieren, welche dann als Vorlage dient, um darauf basierende Musik in einem per Textbeschreibung definierten Stil zu produzieren.



Hier ein Input durch ein gesummtes "Bella Ciao":




per Music ML wird daraus eine elektronische Synthie-Version:




oder Jazz mit Saxophon:




oder ein Piano-Solo:




Als Textprompt für MusicML können neben anderen Instrumentierungen ebenso auch abstrakte Beschreibungen dienen wie auch ein bestimmter Ort (z. B. Konzertsaal), Stimmungen, Musikstile oder Kombinationen aus diesen. Für jede Beschreibung können auch immer beliebige Variationen erzeugt werden - im Programm gibt es vermutlich wie auch bei den Bild- oder Text-KIs noch eine Reihe von Parametern, anhand derer man die Variationsbandbreite der Resultate beeinflussen kann. Die Länge der generierten Sounds reicht von kurzen Jingels bis hin zu mehrminütigen Musikstücken. Die resultierenden Tracks sind oft überraschend kohärent und die Instrumentierung klingt realistisch, manchmal sind die erzeugten Melodien und Töne aber auch etwas schräg. Wie immer gilt aber auch hier: bei der rasenden Entwicklung im Bereich KI wird schon die nächste und erst recht übernächste Generation deutlich besser sein.



Electro Swing Tänzer - imaginiert von Midjourney
Electro Swing Tänzer - imaginiert von Midjourney




Eher misslungen der Versuch von MusicML von Swing:




Ideal zum Beispiel für Filmmusik ist der Story Mode, in welchem ein dynamischer Soundtrack anhand einer Reihe aufeinanderfolgender Textbeschreibungen generiert werden kann und die so definierten Sounds lückenlos ineinander übergehen. Im folgenden Stück lauten die entsprechenden Prompts in 15 Sekunden Abständen "time to meditate", "time to wake up" , "time to run" und "time to give 100%":





Erst Bilder, dann Sounds: Neue Google-KI generiert beliebige Musik nach Textbeschreibung



Noch nicht öffentlich wegen Copyrightbedenken

Da bei Tests rund 1% der generierten Musikstücke schlichte Kopien aus dem Trainingsmaterial waren, hat Google das MusicML Modell selbst noch nicht öffentlich zugänglich gemacht. Man kann sich aber anhand der zahlreichen Audiobeispiele ein Bild von den Fähigkeiten von MusicML machen, welche auf der Webseite des Projekts präsentiert werden. Wir sind aber sicher, das demnächst konkurrierende Text-to-Music KIs erscheinen werden, darunter bestimmt auch Open Source Versionen.



Lustigerweise hat die neue Musik-KI ähnliche Probleme mit menschlicher Sprache wie die Bild KIs Probleme mit Texten haben - sie kann zwar Gesang generieren, aber nur in einer Art Kauderwelsch, der sich wie eine Sprache anhört, wie hier bei einem Versuch von Operngesang und Indie Folk Hip Hop zu hören:







Robot Musiker - imaginiert von Midjourney
Robot Musiker - imaginiert von Midjourney



Per KI wird jeder zum Künstler - oder nicht?

Nach Text-to-Image, Text-to-Text (und den noch in den Kinderschuhen steckenden Text-to-Video) KIs kommen jetzt also Text-to-Music KIs, welche das Zeug dazu haben, auch diesen Bereich menschlichen Schaffens zu revolutionieren - zum Guten wie zum Schlechten. Jeder kann so per KI zum Autor, Maler oder Komponisten werden, ohne es wirklich zu sein. Klar ist, daß es eine Flut von neuen, mehr oder weniger automatisch erzeugten (KI-)Schöpfungen geben wird, seien es Texte, Bilder oder Sounds. In allen Bereichen der Gesellschaft wird dies Folgen haben und einerseits Menschen arbeitslos machen, andererseits sicher auch wunderbare neue Werke hervorbringen, die nicht mehr von menschengeschaffenen unterscheidbar sein werden. Was ist, wenn die Simulation von Kreativität nicht mehr von "echter" Kreativität unterschieden werden kann?


Robot Musiker - imaginiert von Stable Diffusion
Robot Musiker - imaginiert von Stable Diffusion



Begleitet werden wird der Aufstieg der Kreativ-KIs von vielen juristischen Auseinandersetzungen. Enthalten zum Beispiel KI-generierte Songs noch eindeutig identifizierbare Spuren der Originalsongs, mit denen die KI trainiert wurde, dann würde der Urheberrechtsschutz auch hier greifen und eine Lizenzierung notwendig machen.



Im Bereich Musik werden solche Text-2-Music KIs wohl in naher Zukunft die Portale mit GEMA-freier Musik überflüssig machen, denn sie können beliebige Variationen beliebiger Musikstile zum quasi Nulltarif neu generieren, und noch viel besser an die eigenen Wünsche anpassen als die bisherigen, eher simplen Software-Tools.


Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash