News: Aus Text wird nun auch Audio: Stable Audio generiert Musik und Soundeffekte per KI

18.9.2023 - 13:08 Uhr

Mit Stable Diffusion hat Stability AI bereits einen guten Text-to-Image KI-Bildgenerator am Start. Seit kurzem ist nun auch Stable Audio online verfügbar, ein neues Diffusionsmodell mit dem sich - der Name sagt es schon - Audio und Musik aus Textprompts erstellen läßt.

!

Das Stable Audio Modell wurde zu diesem Zweck anstelle von Bildern mit verschiedenen Audioinputs trainiert. Verwendet wurden über 800.000 - lizensierte - Dateien der Audiobibliothek AudioSparks inklusive der jeweiligen Metadaten. Durch dieses kontextreiche Training ist das Modell in der Lage, gepromptete Vorgaben bezüglich Inhalt und Form recht gut einzuhalten, und auch den Output auf die genaue Länge zu timen. Um das Modell auf eine Verbindung zwischen Text und Audio zu konditionieren, wurde beim Training eine Technik namens Contrastive Language Audio Pretraining (CLAP) eingesetzt - genaueres dazu in diesem Blog-Beitrag, in dem auch gute Audiobeispiele eingebettet sind.

Stable Audio, latentes Diffusionsmodell
Stable Audio, latentes Diffusionsmodell

Generieren lassen sich sowohl Musikstücke mit bis zu 90 Sekunden Länge, als auch einzelne Instrumentspuren oder auch Soundeffekte. Vorgeben lassen sich das Genre, der Stil, die Stimmung, die Instrumentierung, die Geschwindigkeit in BPM und mehr - im Grunde alles, was bei Audiobibliotheken üblicherweise über die Metadaten definiert wird. In einem User-Guide hat StabilityAI einige Prompt-Beispiele zusammengetragen, die von kurz und knackig bis mehrzeilig ausfallen.

Die resultierenden Musikstücke klingen wenig hitverdächtig, um nicht zu sagen teilweise recht erratisch "komponiert". Wobei es auch auf die Art Musik ankommt und auf die Länge; ruhige, ambient-artige Tracks lassen sich z.T. kaum von der typischen, GEMA-freien Hintergrundmusik unterscheiden. Eher brauchbar scheinen uns grundsätzlich die kürzeren Sound-Schnipsel, welche sich als Effektuntermalung generieren lassen, oder vielleicht minimalistisch gehaltene Instrumentausgaben.

Stable Audio ist in einer kostenlosen Version zugänglich, mit welcher sich pro Monat 20x bis zu 45 Sekunden lange Tracks generieren lassen. Das Pro-Abo für 12 Dollar im Monat erlaubt 500 Generierungen von bis zu 90 Sekunden Länge, welch auch in kommerziellen Projekten genutzt werden dürfen. Der Download erfolgt in 44.1 kHz Stereo.

Auch ein Open Source-Modell von Stable Audio soll demnächst veröffentlicht werden, allerdings wird dies mit einem anderen Datensatz trainiert worden sein, aus Lizenzgründen darf man annehmen.

(heidi)

mehr Informationen

Kommentare lesen/schreiben

zur Newsmeldung auf slashCAM

   


die Seite in Desktopansicht

Passende News:

 

Top

AKTUELLE ARTIKEL

AKTUELLE NEWS

5.Dezember 2023 - 12:15 Uhr
Panasonic G9II erhält Blackmagic RAW und ProRes RAW Aufnahme via HDMI

5.Dezember 2023 - 09:55 Uhr
Blackmagic DaVinci Resolve 18.6.4 Update - RAW SDK 3.6 und erweiterte Scripting API

4.Dezember 2023 - 16:17 Uhr
Filmic Pro - Team aus dem Rennen, Pferd läuft noch weiter

4.Dezember 2023 - 12:03 Uhr
Nikon Z8/Z9 demnächst mit Open Gate Anamorphoten-Aufnahme. neuem N-Log, 8,3K 120p Burst ...?



weitere News: