Neue Audio KI generiert neben Musik auch beliebige Soundeffekte

// 10:26 Do, 2. Feb 2023von Thomas Richter

Wie rasant die Entwicklung im Bereich KIs voranschreitet, zeigt sich u.a. gerade im Feld "Text-to-Music", also von KIs, welche per Textbeschreibung beliebige Musik generieren: hatte Google gerade noch MusicLM vorgestellt, folgt nun wenige Tage später AudioLDM eines Forscherteams der University of Surrey und des Imperial College. Ein auch für Filmemacher sehr vielversprechendes Projekt, denn es synthetisiert nicht nur Musikstücke samt Instrumenten per Textprompt, sondern auch Geräusche (SFX aka Sound Effects). So kann AudioLDM auf Wunsch auch ganze Geräuschkulissen, ideal für die Sounduntermalung von Filmen, produzieren.

Zudem will das Team von AudioLDM das Programm samt Modell per Open Source online stellen, was hieße, dass es nicht nur frei auf dem eigenen Computer genutzt, sondern auch verbessert und in andere Programme eingebunden werden könnte. So könnte es zum Beispiel in Form eines Plugins in Videoschnittprogrammen wie Adobe Premiere oder Blackmagics DaVinci Resolve zur Generierung von Soundkulissen genutzt werden. Für die Nutzung zuhause spricht auch, dass AudioLDM sehr effizient sein soll (d.h. dass es relativ wenig Rechenleistung erfordert) und das Training - zum Beispiel mit eigenen Soundbeispielen - mittels nur einer GPU (wie zum Beispiel einer NVIDIA RTX 3090) erfolgen kann.

Neue Audio KI generiert neben Musik auch beliebige Soundeffekte

Zudem beherrscht AudioLDM praktische Funktionen, welche schon von den Bild-KIs her bekannt sind, wie InPainting (ein Teil einer Audioaufnahme wird passend zum Rest per Textprompt durch einen anderen Sound ersetzt), Styletransfer (eine Melodie wird von einem anderen Instrument gespielt) oder Super Resolution (d.h. bei einer Audioaufnahme von Musik oder Sprache mit geringer Samplingauflösung, wird die Auflösung und damit die Audioqualität per Upsampling erhöht).

Hier ein Beispiel für Styletransfer: Trompete zu Kindergesang

Neben der Beschreibung der Töne, die generiert werden sollen, lassen sich auch noch andere Parameter eingeben, welche den Sound beeinflussen, wie etwa die Art der akustischen Umgebung (Hall), welche Art Objekte die Töne machen sollen (etwa das Material, z.B. Holz, Blech) sowie die zeitliche Reihenfolge.

Der Klang einer Dampfmaschine:

Fleisch auf einem Holztisch schneiden:

Für komplexere Geräuschkulissen greifen die Forscher auf die Hilfe der Text-KI ChatGPT zurück, welche zum Beispiel auf den Prompt "Beschreibe den Sound des Weltalls" mit einer ausführlichen Beschreibung antwortet ("Radioemissionen von Sternen, Planeten, Galaxien und anderen Himmelskörpern, High Fidelity, sowie die Geräusche von Sonnenwinden und kosmischer Strahlung"), welche dann als Prompt für MusicLDM verwendet werden kann und folgnden Output generiert:

Eigentlich sollte der Quellcode schon zusammen mit der Forschungsarbeit am Montag veröffentlicht werden, das Team hat jedoch aufgrund der gerade angekündigten Urheberrechtsklagen gegen mehrere Bild-KIs jetzt noch davon abgesehen, das Modell (also das Ergebnis des Trainingsprozesses) online zu stellen. Denn zum Training wurde u.a. die bekannte BBC SFX Bibliothek verwendet, welche zwar zum nichtkommerziellen Gebrauch frei verwendet werden darf. Aufgrund der noch ungeklärten Rechtslage ist allerdings nicht klar, ob das auch für das Training von KIs gilt. Nach Klärung soll der Code aber samt Modell veröffentlicht werden.

Beispiele von Musikgenerierung:

Weitere Audio KI Projekte - Video-to-Audio

Wie rasant gerade die Entwicklung im Bereich Audio-KIs voranschreitet, demonstriert die folgende

Timeline:

Innerhalb weniger Tage wurden gleiche mehrere Text-to-Audio KIs ganz unterschiedlicher Qualität wie etwa

Noise-to-Music und Moûsai: Text-to-Audio with Long-Context Latent Diffusion veröffentlicht. Besonders erwähnenswert erscheint uns auch das chinesische Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models Projekt, denn es ermöglicht neben Audio-to-audio auch Image-to-Audio und Video-to-Audio, d.h. es werden Sounds passend zu einem Videoclip produziert.

Hier etwa generiert "Make-An-Audio" automatisch(!) zum Videoclip eines vorbeifahrenden Zuges (Video oben) den entsprechende Sound (Audioclip darunter):

mehr Infos bei
audioldm.github.io

Auf Socials teilen:

Leserkommentare // Neueste

Frank Glencairn // 11:29 am 8.2.2023

Also was Musik betrifft hält sich mein Vertrauen u AI aktuell noch eher in Grenzen :D image_2023-02-08_021332197.png

Drushba // 14:20 am 2.2.2023

Fett.) Gerade im Bereich Kurzfilm/Experimentalfilm genial. Wer sich hier nach Soundlibraries umschaut und seine Mails für Gratiseffekte dalässt, wird mit Audio-super-sales-Spam...weiterlesen

Im Forum mitdiskutieren >>

Ähnliche News //

News

Erst Bilder, dann Sounds: Neue Google-KI generiert beliebige Musik nach ...

Forscher von Google haben eine neue KI vorgestellt, die nach einem ähnlichen Muster wie die gerade sehr populären Text-2-Image KIs wie DALL-E 2, Midjourney oder Stable Diffusion .....

// 10:57 Mo, 30. Jan 2023von Thomas Richter

News

Text-zu-Video KI jetzt auch von Google: Imagen Video

Nachdem Meta gerade seine Make-a-Video KI zur Generierung von Videos nach Textbeschreibung vorgestellt hatte, hat Google jetzt nachgezogen und mit Imagen Video auch eine solche KI ...

// 16:48 Do, 6. Okt 2022von Thomas Richter

News

Nach der Bild- die Videorevolution: Neue KI "Make-a-Video" generiert Videos nach Text

KIs generieren immer bessere Bilder nach Textbeschreibungen und es war klar, was der nächste Schritt sein würde: das Erstellen von Videos. Jetzt hat Meta AI, die KI ...

// 14:11 Fr, 30. Sep 2022von Thomas Richter

News

Künstler vs KIs: Neues Tool macht Kunstwerke für KIs unverdaulich

Der Boom bildgenerierender KIs, die per Prompt beliebige Bilder erzeugen, hat bei Künstlern große Ängste ausgelöst, kann doch jeder Kunst- oder Künstlerstil - egal ob Malerei, ...

// 19:51 Mo, 20. Feb 2023von Thomas Richter

News

DreamFusion: Neue Google KI generiert beliebige 3D Modelle - nur per Textbeschreibung

Nach der Generierung beliebiger Bilder und Videos mittels einer einfachen Textbeschreibung kommt jetzt der nächste logische Entwicklungsschritt - die Erzeugung beliebiger 3D-...

// 10:14 Di, 11. Okt 2022von Thomas Richter

zur Newsübersicht >

Generative Video-KI-Funktionen Adobe Firefly für Premiere Pro - Generative Extend, Object removal/addition

Zuletzt im Oktober hatte Adobe Firefly-Funktionen für Premiere Pro geteasert, darunter eine Generative Fill-Funktion - nun wird es konkret. Denn noch in diesem Jahr sollen über ...

// 15:08 Mo, 15. Apr 2024von blip

News

Übernahme ist durch RED ist nun eine Nikon-Tochter - und Jarred Land abgesetzt

Rechtzeitig zur NAB gab Nikon bekannt, die Übernahme von RED sei nun zu 100% vollzogen. Ab sofort werden Jarred Land zusammen mit James Jannard nur noch enge Berater der Nikon-...

// 14:13 So, 14. Apr 2024von blip

News

Günstiger und besser? Blackmagic stellt neues DaVinci Resolve Micro Color Panel für 495 Dollar vor

Blackmagic Design hat auf der NAB mit dem DaVinci Resolve Micro Color Panel ein weiteres, besonders erschwingliches Pult für die Farbkorrektur mit DaVinci Resolve angekündigt, ...

// 09:06 Sa, 13. Apr 2024von Rudi Schmidts

News

Blackmagic PYXIS 6K: Die Vollformat "Box"-Kamera mit Viewfinder, 2x SDI, Sideplates (!) uvm.

Am vielseitigsten riggbare Cam Blackmagic PYXIS 6K: Die Vollformat „Box“-Kamera mit Viewfinder, 2x SDI, Sideplates ...

Von vielen seit langem ersehnt und jetzt da: Blackmagic stellt mit der Pyxis 6K gleich drei leistungsstärkere Vollformat-Versionen seiner Cinema Camera 6K vor, die in ein ...

// 03:40 Sa, 13. Apr 2024von Rob

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Aktuelles

Stoppt Mickey Mouse die KI Kunst Revolution? Künstler protestieren gegen KI Konkurrenz

Die neuen bildgenerierenden KIs stellen eine Revolution dar: sie eröffnen erstmals die Möglichkeit, massenhaft hochqualitative Bilder nach Wunsch zu erzeugen - in beliebiger Menge,...

// 14:21 Di, 3. Jan 2023von Thomas Richter

Aktuelles

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von ...

// 19:47 Mo, 6. Feb 2023von Thomas Richter

zur Artikelübersicht >

Was hältst du von den neuen Bild/Video-KIs?
Toll, so viele neue Kreativtools!
Sie werden das Filmemachen vereinfachen
Sie werden das Filmen z.T. ersetzen
Sie werden mich arbeitslos machen
Die sind völlig überbewertet

Ergebnis ansehen

Aktuelle News //

News

iPhone als Pro-Kamera Tilta Khronos Zubehör-System fürs iPhone 15 Pro

Tilta hat speziell für Smartphone-Filmer das Khronos System vorgestellt, mit dessen Hilfe das iPhone 15 Pro (Max) um eine ganze Reihe von Zubehörteilen für Filmdrehs aufgerüstet .....

// 11:01 Sa, 20. Apr 2024von Thomas Richter

News

High-End Cinema Kamera Blackmagic URSA Cine 12K erklärt: Dynamikumfang, Monitoring-Setup uvm...

Keine andere Kamera von Blackmagic Design ist bislang in der Lage gewesen, 16 Blendenstufen an Dynamikumfang darzustellen. Hinzu kommen neue Assist-Monitoring Funktionen, hohe ...

// 11:37 Fr, 19. Apr 2024von Rob

zur Newsübersicht >