WhisperX: Kostenlose lautgenaue Audiotranskription mit Sprechererkennung

// 11:28 Mi, 1. Feb 2023von Thomas Richter

Im September hatte OpenAI, die Entwickler unter anderem der Text-KI ChatGPT und der Bildgenerierungs-KI DALL-E 2, das Spracherkennungssystem Whisper vorgestellt, welches gesprochene Worte in Text transkribieren kann. Da OpenAI erfreulicherweise das zugehörige Programm samt Modell frei veröffentlicht hatte, entwickelte sich bald eine Vielzahl darauf basierender Open Source Projekte. Eines davon ist WhisperX, das von dem Computerwissenschaftler Max Bain gestartet und gerade veröffentlicht wurde. Es ist für Filmer besonders interessant, da es einige spezifische Schwächen von Whisper behebt, die dessen Nutzung als automatischer Untertitelgenerator bisher verhinderten.

So erkennt WhisperX in der Version 2.0 (anders als das Original-Whisper) unterschiedliche Sprecher und macht diese im transkribierten Sprechertext kenntlich. In Whisper können ferner die Timestamps um mehrere Sekunden falsch liegen - um dies zu verhindern, wird der Audio-Input unter anderem vorgefiltert um zu erkennen, wann überhaupt gesprochen wird, was die Qualität erheblich verbessern soll (allerdings auch mehr Grafikkartenspeicher benötigt). In WhisperX sollen die Timestamps, welche in der Transkription anzeigen, wann ein Sprecher zu reden anfängt und aufhört, jetzt bis auf die Lautebene genau sein.

Diese Verbesserungen vereinfachen den Einsatz von Whisper zum Beispiel für die Erstellung von Untertiteln beträchtlich, da nun Dank WhispherX viel weniger manuell nachgebessert werden muss. So stimmt nicht nur das Timing jetzt genau, d.h. wenn ein Schauspieler zu sprechen anfängt, erscheint auch synchron der jeweilige Untertitel, sondern die Kennzeichnung, wer etwas sagt (wichtig zum Beispiel für die Hörgeschädigten-Fassung), erfolgt automatisch.

Derzeit werden Standardmodelle unter anderem für Englisch, Französisch, Deutsch, Spanisch, Italienisch, Japanisch, Niederländisch und Polnisch bereitgestellt. WhisperX nutzt mehrere freie Tools unabhängig, um eine robuste Segmentierung auf Wortebene mit Sprecherbeschriftungen zu erzeugen und zwar neben OpenAIs Whisper noch MetaAIs wav2vec2.0 (zuständig für die Lauterkennung auf Phonemebene) sowie pyannote.audio (für die Voice Activity Detection).

WhisperX ist wie Whisper selbst kostenlos und auf Github samt Quellcode frei verfügbar. WhisperX ist in Python geschrieben und kann - das entsprechende Wissen vorausgesetzt - per Commandline angesprochen werden. Wir gehen allerdings davon aus, daß WhisperX bald auch anwenderfreundlicher in ersten (Online) Untertitel-Tools oder -Plugins integriert werden wird.

mehr Infos bei
github.com

Auf Socials teilen:

Leserkommentare // Neueste

hexeric // 22:18 am 3.2.2023

für WHISPER hat jemand eine feine MAC APP programmiert, die es speziell in der pro version um einmalig 12€ in sich hat: https://goodsnooze.gumroad.... eigentlich braucht man...weiterlesen

berlin123 // 12:50 am 3.2.2023

Fand das Feature in Premiere auch richtig gut. Die Texterkennung war erstaunlicherweise besser, als das was Google im Vergleich produzierte. Aber die Entwicklung in dem Bereich...weiterlesen

freezer // 07:47 am 2.2.2023

Frank, ich hab hier eine Anleitung der Schritte geschrieben, die bei mir funktioniert haben: https://forum.blackmagicdes... ... 09#p906109

Im Forum mitdiskutieren >>

Ähnliche News //

News

Whisper: Neue kostenlose KI verwandelt Sprache in Text und übersetzt automatisch in ...

OpenAI, die Entwickler unter anderem der Text-KI GPT3 und der Bildgenerierungs KI DALL-E 2 haben das Spracherkennungssystem "Whisper" vorgestellt, welches nicht nur gesprochene ...

// 15:28 Mo, 26. Sep 2022von Thomas Richter

News

DALL-E 2: KI generiert und editiert Bilder nur anhand von Textbeschreibung

Vor etwas über einem Jahr hatte OpenAI die erste Version von DALL-E gestartet, einem neuronalen Netz, welches Bilder nur anhand einfacher Textbeschreibungen generieren kann. Jetzt ...

// 17:22 So, 10. Apr 2022von Thomas Richter

News

DALL-E 3 ist da und generiert exaktere KI-Bilder inkl. Text dank ChatGPT-Integration

OpenAI hat die neueste Version seines diffusionsbasierten KI-Bildgenerators DALL-E vorgestellt - er ist nun eng mit ChatGPT verzahnt, was gleich mehrere Vorteile bringt. So sollen ...

// 13:37 Do, 21. Sep 2023von blip

News

Stockphoto-Portal Shutterstock integriert KI-Bilder und gibt eine Antwort auf die ...

Seit kurzem steht die Frage im Raum, wie Künstler und Stock-Fotodienste überleben können, wenn bildgenerierende KIs wie DALL-E 2, Stable Diffusion oder Midjourney beliebige Bilder ...

// 09:41 Sa, 5. Nov 2022von Thomas Richter

News

StoryToolkitAI: Kostenlose Transkription und Übersetzung für DaVinci Resolve 18

Wir hatten ja vor kurzem über OpenAIs offenes KI Transkriptions- und Übersetzungsprogramm Whisper berichtet - jetzt hat der deutsche Filmemacher Octavian Mot ein kostenloses ...

// 15:48 Mi, 12. Okt 2022von Thomas Richter

zur Newsübersicht >

Generative Video-KI-Funktionen Adobe Firefly für Premiere Pro - Generative Extend, Object removal/addition

Zuletzt im Oktober hatte Adobe Firefly-Funktionen für Premiere Pro geteasert, darunter eine Generative Fill-Funktion - nun wird es konkret. Denn noch in diesem Jahr sollen über ...

// 15:08 Mo, 15. Apr 2024von blip

News

Übernahme ist durch RED ist nun eine Nikon-Tochter - und Jarred Land abgesetzt

Rechtzeitig zur NAB gab Nikon bekannt, die Übernahme von RED sei nun zu 100% vollzogen. Ab sofort werden Jarred Land zusammen mit James Jannard nur noch enge Berater der Nikon-...

// 14:13 So, 14. Apr 2024von blip

News

Günstiger und besser? Blackmagic stellt neues DaVinci Resolve Micro Color Panel für 495 Dollar vor

Blackmagic Design hat auf der NAB mit dem DaVinci Resolve Micro Color Panel ein weiteres, besonders erschwingliches Pult für die Farbkorrektur mit DaVinci Resolve angekündigt, ...

// 09:06 Sa, 13. Apr 2024von Rudi Schmidts

News

Blackmagic PYXIS 6K: Die Vollformat "Box"-Kamera mit Viewfinder, 2x SDI, Sideplates (!) uvm.

Am vielseitigsten riggbare Cam Blackmagic PYXIS 6K: Die Vollformat „Box“-Kamera mit Viewfinder, 2x SDI, Sideplates ...

Von vielen seit langem ersehnt und jetzt da: Blackmagic stellt mit der Pyxis 6K gleich drei leistungsstärkere Vollformat-Versionen seiner Cinema Camera 6K vor, die in ein ...

// 03:40 Sa, 13. Apr 2024von Rob

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Aktuelles

Stoppt Mickey Mouse die KI Kunst Revolution? Künstler protestieren gegen KI Konkurrenz

Die neuen bildgenerierenden KIs stellen eine Revolution dar: sie eröffnen erstmals die Möglichkeit, massenhaft hochqualitative Bilder nach Wunsch zu erzeugen - in beliebiger Menge,...

// 14:21 Di, 3. Jan 2023von Thomas Richter

Aktuelles

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von ...

// 19:47 Mo, 6. Feb 2023von Thomas Richter

zur Artikelübersicht >

Was hältst du von den neuen Bild/Video-KIs?
Toll, so viele neue Kreativtools!
Sie werden das Filmemachen vereinfachen
Sie werden das Filmen z.T. ersetzen
Sie werden mich arbeitslos machen
Die sind völlig überbewertet

Ergebnis ansehen

Aktuelle News //

News

Tools für DITs am Set AJA: ColorBox 2.1 ACES-Workflow und DRM2 für das DIT-Cart erklärt

AJA hat spannende neue Werkzeuge für DITs mitgebracht. Wir schauen uns hier u.a. den zertifizierten ACES-Workflow der ColorBox 2.1 und mit dem DRM2 Case eine Lösung für mehr ...

// 15:47 Do, 25. Apr 2024von Rob

News

8x Video-Upscaling VideoGigaGAN - Adobe zeigt generative KI Super Resolution für Bewegtbilder

Unter Super Resolution versteht man Algorithmen, welche die Auflösung eines Bildes künstlich erhöhen können - also mehr Bildinformationen hinzu erfinden, als ursprünglich von ...

// 11:41 Do, 25. Apr 2024von Rudi Schmidts

zur Newsübersicht >