Whisper: Neue kostenlose KI verwandelt Sprache in Text und übersetzt automatisch in alle Sprachen

// 15:28 Mo, 26. Sep 2022von

OpenAI, die Entwickler unter anderem der Text-KI GPT3 und der Bildgenerierungs KI DALL-E 2 haben das Spracherkennungssystem "Whisper" vorgestellt, welches nicht nur gesprochene Worte in Text transkribieren, sondern diese auch in eine beliebige andere Sprache übersetzen kann. Erfreulicherweise hat sich OpenAI ein Vorbild an Stability.ais Vorgehen mit dessen Text-2-Image KI Stable Diffusion genommen und das zugehörige Programm samt Modell frei zugänglich und somit auch kostenlos veröffentlicht.

Whisper: Neue kostenlose KI verwandelt Sprache in Text und übersetzt automatisch in alle Sprachen


Der Open-Source Code von Whisper liegt in Form von fünf verschieden großen Versionen mit unterschiedlichen Genauigkeiten und Arbeitsgeschwindigkeiten auf Github vor, die alle auf mit einer Grafikkarte ausgestatteten Heim-PCs laufen. Je nach Modell sind dafür GPUs von 1 bis 10 GB VRAM erforderlich. Die ersten vier Modelle umfassen nur Englisch, nur das größte wurde mit vielen anderen Sprachen trainiert und bietet deswegen auch die Möglichkeit, gesprochene Worte aus einer Sprache in eine andere zu übersetzen und als Text auszugeben.


Whisper Modelle
Whisper Modelle

Trainiert wurde der Encoder-Decoder-Transformer Whisper anhand von 680.000 Stunden Audiomaterial (samt Transkriptionen) aus dem Internet, davon waren zwei Drittel englischsprachig, der Rest in anderen Sprachen. Die Spracherkennung funktioniert dabei überraschend gut - auch bei undeutlicher Sprache oder störenden Hintergrundgeräuschen.







Erste Anwendungen und Tools nutzen Whisper

Die Bedienung erfolgt ganz simpel per Kommandozeile - aber ähnlich wie bei Stable Diffusion sorgt der offen zugängliche Quellcode auch bei Whisper dafür, daß gerade massenhaft Tools programmiert werden, die dessen Fähigkeiten für besondere Aufgaben nutzen oder auch einfach die Handhabung durch eine graphische Benutzeroberfläche (GUI) vereinfachen.


Simon Says Audio-Transkriptionsdienst
Whisper Architektur

Zur Nutzung von Whisper muss nicht einmal ein Programm auf dem eigenen PC installiert werden, Whisper kann auch über Webdienste genutzt werden. So gibt es auf dem KI-Community Huggingface zum Beispiel ein einfaches Tool, YouTube Whisperer, mit dessen Hilfe die gesprochenen Worte eines YouTube Videos automatisch in Text transkribiert werden können. Ein anderes, noch sehr simples Tool erlaubt es, den Live-Audioinput per Mikrofon in Text umzuwandeln. Es gibt auch ein eher spielerisches Google Colab Projekt, welches Whisper mit Stable Diffusion integriert und es so ermöglicht, automatisch Bilder aus englischsprachigen mp3-Dateien zu erzeugen.



YouTube Whisperer
YouTube Whisperer





Die Zukunft: KI Tools für Alle - und automatische Untertitelung

Für die User ist Whisper ein weitere interessante und praktische KI-Funktion, die in Zukunft (kostenlos!) für alle möglichen Aufgaben genutzt werden kann. Audio-Transkription ist damit kein Herrschaftswissen mehr, das nur in speziellen Pay-Apps nutzbar ist (oder auf OS Ebene wie in Android oder per Siri). Wir sind gespannt auf die kommenden Programme, welche Whisper für neue interessante Funktionalitäten im Bereich Video nutzen werden, wie zum Beispiel eine automatische Indizierung Filmarchiven nach in den Clips gesprochenen Worten, welche dann per Text nach Dialogstellen durchsuchbar sind oder die automatische Erstellung von Textabschriften von Telefonanrufen oder anderen Audioaufzeichnungen. Für Filmemacher bzw. Videopodcaster besonders interessant ist natürlich auch die Möglichkeit, automatisch Untertitel in mehreren Sprachen zu erstellen und diese je nach Herkunft des Zielpublikums anzubieten.


Simon Says Audio-Transkriptionsdienst
Whisper Architektur



Das Ende von Audio-Transkriptionsdiensten?

Für Anbieter von speziellen bezahlten KI-Transkriptionsdiensten wie etwa Simon Says für Videos ist Whisper eine schlechte Nachricht, wird doch deren Geschäftsmodell dadurch nahezu hinfällig - ihnen bleibt nur noch das Anbieten eines besonderen Interfaces und von nützlichen Zusatzfunktionen. Adobe hatte ja bereits das Ende solcher externen Pay-Services für Videos eingeläutet, indem es eine Audio-Transkription in Adobe Premiere Pro per


Adobe Sensei integrierte.




mehr Bilder zur News:
Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash