StoryToolkitAI: Kostenlose Transkription und Übersetzung für DaVinci Resolve 18

// 15:48 Mi, 12. Okt 2022von

Wir hatten ja vor kurzem über OpenAIs offenes KI Transkriptions- und Übersetzungsprogramm Whisper berichtet - jetzt hat der deutsche Filmemacher Octavian Mot ein kostenloses Plugin namens StoryToolkitAI (macOS/Windows) für Blackmagics Grading-, Schnitt-, Compositing- und Audio-Mastering-Programm DaVinci Resolve (Studio) 18 entwickelt, welches diese Fähigkeiten nutzt. StoryToolkitAI rendert direkt aus der Timeline von Resolve ein reines Audio-File und schickt dieses an eine lokal installierte Version von OpenAI Whisper, welche dieses dann in Text transkribiert. Das hat u.a. den Vorteil, daß im Gegensatz zu anderen Transkriptionslösungen, welche Online-Dienste nutzen, das Audio nie den eigenen PC verlässt.

StoryToolkitAI GUI
StoryToolkitAI GUI


Das Tool kann dank Whisper nicht nur Sprachaufzeichnungen aus verschiedenen Sprachen in Text (kostenlos!) transkribieren, sondern diesen Text auch ins Englische übersetzen. Implementiert wurden zudem noch praktische Zusatzfunktionen, wie etwa eine Suche oder eine Navigation in der Timeline mittels Textstellen der Transkription. In Arbeit sind weitere Funktionen wie etwa eine Teiltranskription mittels Markern, mehr Einstellungsmöglichkeiten oder eine automatische Erkennung von Sprechern (wichtig bei der Transkription von Dialogen).



Die Qualität der Ergebnisse von Whisper sind sehr hoch - die Transkription klappt auch bei schlechter Audioqualität (z.B. aufgrund einer niedrigen Bitrate). Laut OpenAI wurden die Whisper-Modelle mittels Daten von 98 verschiedenen Sprachen trainiert (ca. 65% der Daten auf Englisch) und zeigen gute Ergebnisse bei der automatischen Spracherkennung in ~10 Sprachen. Für Filmemacher bzw. Videopodcaster besonders interessant ist unter anderem die Möglichkeit, dank Transkription und Übersetzung Untertitel in mehreren Sprachen zu erstellen und diese je nach Herkunft des Zielpublikums anzubieten.



StoryToolkitAI befindet sich noch in einem frühen Entwicklungsstadium (die GUI ist noch sehr simpel), ist aber schon voll funktionsfähig. Voraussetzung ist allerdings eine Installation mehrerer Komponenten per Commandline ( hier die Anleitung).


StoryToolkitAI: Kostenlose Transkription und Übersetzung für DaVinci Resolve 18



Geschwindigkeit der Transkription

Voraussetzung für eine flotte Transkription ist ein einigermaßen aktueller Computer - idealerweise mit einer leistungsstarken GPU. Groben Tests zufolge transkribiert ein Apple M1 Macbook Pro mit 16GB RAM eine 30 sekündige Timeline in ca. 45 Sekunden (1.5x) und eine Windows Workstation mit einer Nvidia GTX 1070 eine 60 sekündige Zeitleiste in ca. 20 Sekunden (0,25-fache Zeitlänge des Audios) - neuere RTX-GPUs sind aber nochmals deutlich schneller (0,05-0,10-fache der Audiodauer).(Danke an Constantin für die Meldung!)




Hauptfunktionen von StoryToolkitAI

- Kostenlose automatische Transkription in vielen Sprachen auf einem lokalen Rechner direkt aus Resolve


- Kostenlose automatische Übersetzung aus vielen Sprachen ins Englische auf einem lokalen Rechner direkt aus Resolve heraus


- Export von Transkripten in mehrere Formate, einschließlich SRT


- Importieren einer SRT-Transkriptionsdatei direkt in Resolve


- Transkriptions-Warteschlange, die Folgendes ermöglicht:


- Navigation in der Transkriptionszeitachse - durch Klicken auf eine Phrase wird der Resolve-Abspielkopf an die entsprechende Stelle in der Timeline gesetzt


- Transkript-Wortsuche: ermöglicht es, bestimmte Wörter oder Phrasen in einem Transkript zu finden


- Kopieren von Markierungen zwischen Resolve-Timelines und Timeline-Quellclip


- Rendern von Resolve-Markern in Standbilder oder Clips


- Transkription von Audiodateien, auch wenn Resolve nicht auf dem Rechner installiert ist






Funktionen in Entwicklung

- Mark In / Mark Out direkt aus dem Tool in Resolve


- Erweiterte Transkriptionen mit mehr Benutzereingaben, wie Quellensprache und Auswahl


- Globale Suche, um Wörter oder Phrasen in Projekttranskripten zu finden


- Transkriptbearbeitung vom Tool aus


- Geschnittene Transkriptionen basierend auf Resolve-Dauer-Markierungen, um nur Teile der Zeitachse zu transkribieren


- Erkennung von Sprechern


- Integration mit anderen AI/ML-Tools


Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash