Audio-KI von StabilityAI Stable Audio 2.0 produziert kostenlos Musik per KI

StabilityAI, vor allem bekannt durch seine Open-Source Bild-KI Stable Diffusion, hat die zweite Version seiner Audio-KI veröffentlicht. Sie ist jetzt in der Lage, ist bis zu drei Minuten lange Audiotracks mit 44,1 KHz Stereo per Textprompt zu erzeugen.


Es sind mehrere interessante Neuerungen seit der ersten Version vom September 2023 dazugekommen, wie zum Beispiel die Möglichkeit, Sounds auch per Audio-zu-Audio-Funktion zu erzeugen. Man kann also Audiosamples hochladen und diese Samples per Textprompt in eine breite Palette von Klängen umwandeln. Die neue Version erweitert auch die Erzeugung von Soundeffekten und die Übertragung von Stilen (aka Style Transfer) und bietet speziell für Musiker mehr Flexibilität und Kontrolle bei der Erzeugung neuer Sounds - so können gezielt Melodien, Backing Tracks, Stems und Soundeffekte generiert werden.




Stable Audio 2.0 produziert kostenlos Musik per KI


Stable Audio 2.0 nimmt für sich in Anspruch, sich von anderen State-of-the-Art Audio-KI Modellen abzuheben, indem es Songs mit einer Länge von bis zu drei Minuten erzeugen kann. Diese sind komplett strukturierte "Kompositionen" samt Intro, Entwicklung und Outro und können auch Stereo-Sound-Effekte beinhalten. Stable Audio 2.0 kann ab sofort kostenlos mittels der Stable Audio-Website unter einer sehr übersichtlichen Benutzeroberfläche genutzt werden und wird in Kürze auch über die Stable Audio API verfügbar sein.






Die neuen Funktionen im Einzelnen:



Audio-zu-Audio



Per Upload von Audiodateien können eigene Soundskizzen in Songs verwandelt werden.







Erstellung von Soundeffekten



Für Filmemacher besonders interessant ist wohl die Möglichkeit, Soundeffekte per Textprompt zu generieren bzw. vorhandene Samples zu variieren. So können vom Klopfen auf einer Tastatur bis zum Brüllen einer Menschenmenge oder dem Summen der Straßen einer Stadt alle möglichen Sounds erzeugt werden, um Clips passend nachträglich zu untermalen. Elevenlabs bietet seit kurzem einen ähnlichen Dienst zur Generierung von SFX an und die Video-KI Pika erschafft sogar schon automatisch passende Soundeffekte zu vorgegebenen Videos.





Style Transfer



Ähnlich wie der bekannte Stiltransfer von Bild-KIs funktioniert auch der Style Tansfer bei Musik per Stable Audio 2.0: so können neu generierte oder hochgeladene Sounds per Prompt beliebig verändert und so an den spezifischen Stil und Ton eines Projekts angepasst werden.




StabilityAI, das früher ziemlich unbekümmert mit der rechtlichen Frage nach der Herkunft des Trainingsmaterials für seine Bild-KI umgegangen ist, hat aus den anhängigen Klagen gelernt und betont jetzt dessen legale Herkunft. So sollen zum Training die Daten von AudioSparx, einer großen Stock-Audio-Website, verwendet worden sein, welche aus über 800.000 Audiodateien mit Musik, Soundeffekten und Stems einzelner Instrumente sowie den entsprechenden Textmetadaten bestehen. Alle Künstler von AudioSparx hatten laut StabilityAI die Möglichkeit, ihre Sounds vom Training des Stable Audio-Modells auszuschliessen; es fragt sich allerdings, wie sichtbar diese Option umgesetzt war.



Um die Urheberrechte der Künstler zu schützen, will StabilityAI Audio-Uploads mittels der ACR-Technologie (Content Recognition) Technologie von Audible Magic in Echtzeit scannen, um so Urheberrechtsverletzungen zu verhindern.



Stable Audio 2.0 Benutzeroberfläche
Stable Audio 2.0 Benutzeroberfläche



Und die Qualität der Tracks?

Doch wie klingen die KI-generierten Tracks? Nach den Beispielen, die wir bisher gehört haben, muss man sagen: sehr generisch. Zwar erreichen die Audioclips die Qualität von vielen (schon vor KI oftmals automatisch erzeugten) Stock Audio Tracks, aber sie klingen ebenso austauschbar (ganz abgesehen von manchen Samplingartefakten).



Die Möglichkeit aber, per Audio-2-Audio direkt im Zusammenspiel mit der KI Musik zu produzieren, könnte eine interessante neue Möglichkeit bieten, eigene Sounds sehr gezielt zu erstellen, ganz intuitiv durch Vorsummen einer Melodie oder Beatboxing eines Rhythmus:





Die Konkurrenz wie etwa Suno AI ist zum Teil allerdings schon technisch etwas weiter und erzeugt passend zur Musik auch gleich den Gesang (nach beliebiger Textvorlage).



Abgesehen davon: wie es mit StabilityAI nach dem erzwungen Abgang des Gründers und CEOs Emad Mostaqe, dem Exodus der führenden Forscher und den erheblichen Geldsorgen weitergeht, steht wohl in den Sternen.



Wer Eindrücke der generierten Musik bekommen will, hier das 24/7 Stable Radio:






Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash