Whisper: Neue kostenlose KI verwandelt Sprache in Text und übersetzt automatisch in alle Sprachen

// 15:28 Mo, 26. Sep 2022von Thomas Richter

OpenAI, die Entwickler unter anderem der Text-KI GPT3 und der Bildgenerierungs KI DALL-E 2 haben das Spracherkennungssystem "Whisper" vorgestellt, welches nicht nur gesprochene Worte in Text transkribieren, sondern diese auch in eine beliebige andere Sprache übersetzen kann. Erfreulicherweise hat sich OpenAI ein Vorbild an Stability.ais Vorgehen mit dessen Text-2-Image KI Stable Diffusion genommen und das zugehörige Programm samt Modell frei zugänglich und somit auch kostenlos veröffentlicht.

Whisper: Neue kostenlose KI verwandelt Sprache in Text und übersetzt automatisch in alle Sprachen

Der Open-Source Code von Whisper liegt in Form von fünf verschieden großen Versionen mit unterschiedlichen Genauigkeiten und Arbeitsgeschwindigkeiten auf Github vor, die alle auf mit einer Grafikkarte ausgestatteten Heim-PCs laufen. Je nach Modell sind dafür GPUs von 1 bis 10 GB VRAM erforderlich. Die ersten vier Modelle umfassen nur Englisch, nur das größte wurde mit vielen anderen Sprachen trainiert und bietet deswegen auch die Möglichkeit, gesprochene Worte aus einer Sprache in eine andere zu übersetzen und als Text auszugeben.

Trainiert wurde der Encoder-Decoder-Transformer Whisper anhand von 680.000 Stunden Audiomaterial (samt Transkriptionen) aus dem Internet, davon waren zwei Drittel englischsprachig, der Rest in anderen Sprachen. Die Spracherkennung funktioniert dabei überraschend gut - auch bei undeutlicher Sprache oder störenden Hintergrundgeräuschen.

Erste Anwendungen und Tools nutzen Whisper

Die Bedienung erfolgt ganz simpel per Kommandozeile - aber ähnlich wie bei Stable Diffusion sorgt der offen zugängliche Quellcode auch bei Whisper dafür, daß gerade massenhaft Tools programmiert werden, die dessen Fähigkeiten für besondere Aufgaben nutzen oder auch einfach die Handhabung durch eine graphische Benutzeroberfläche (GUI) vereinfachen.

Simon Says Audio-Transkriptionsdienst — Whisper Architektur

Zur Nutzung von Whisper muss nicht einmal ein Programm auf dem eigenen PC installiert werden, Whisper kann auch über Webdienste genutzt werden. So gibt es auf dem KI-Community Huggingface zum Beispiel ein einfaches Tool, YouTube Whisperer, mit dessen Hilfe die gesprochenen Worte eines YouTube Videos automatisch in Text transkribiert werden können. Ein anderes, noch sehr simples Tool erlaubt es, den Live-Audioinput per Mikrofon in Text umzuwandeln. Es gibt auch ein eher spielerisches Google Colab Projekt, welches Whisper mit Stable Diffusion integriert und es so ermöglicht, automatisch Bilder aus englischsprachigen mp3-Dateien zu erzeugen.

Die Zukunft: KI Tools für Alle - und automatische Untertitelung

Für die User ist Whisper ein weitere interessante und praktische KI-Funktion, die in Zukunft (kostenlos!) für alle möglichen Aufgaben genutzt werden kann. Audio-Transkription ist damit kein Herrschaftswissen mehr, das nur in speziellen Pay-Apps nutzbar ist (oder auf OS Ebene wie in Android oder per Siri). Wir sind gespannt auf die kommenden Programme, welche Whisper für neue interessante Funktionalitäten im Bereich Video nutzen werden, wie zum Beispiel eine automatische Indizierung Filmarchiven nach in den Clips gesprochenen Worten, welche dann per Text nach Dialogstellen durchsuchbar sind oder die automatische Erstellung von Textabschriften von Telefonanrufen oder anderen Audioaufzeichnungen. Für Filmemacher bzw. Videopodcaster besonders interessant ist natürlich auch die Möglichkeit, automatisch Untertitel in mehreren Sprachen zu erstellen und diese je nach Herkunft des Zielpublikums anzubieten.

Das Ende von Audio-Transkriptionsdiensten?

Für Anbieter von speziellen bezahlten KI-Transkriptionsdiensten wie etwa Simon Says für Videos ist Whisper eine schlechte Nachricht, wird doch deren Geschäftsmodell dadurch nahezu hinfällig - ihnen bleibt nur noch das Anbieten eines besonderen Interfaces und von nützlichen Zusatzfunktionen. Adobe hatte ja bereits das Ende solcher externen Pay-Services für Videos eingeläutet, indem es eine Audio-Transkription in Adobe Premiere Pro per

Adobe Sensei integrierte.

mehr Bilder zur News:

mehr Infos bei
openai.com

Auf Socials teilen:

Leserkommentare // Neueste

R S K // 12:36 am 30.9.2022

Und wenn man null Interesse an nur halbwegs korrekter Transkription, nicht ein einziges Satzzeichen und das ignorieren sämtlicher Pausen u.v.m. hat—was man dann stundenlang...weiterlesen

Frank Glencairn // 12:07 am 30.9.2022

Wenn's nicht eilt, kann man ein Video auch einfach auf YT hochladen, und dann das fertige Transcript wieder runter landen.

R S K // 11:45 am 30.9.2022

Abgesehen von dem sehr fragwürdigen Deutsch (und das von einem nicht native) ist die Aussage bzgl. Descript „Sie erhalten Ihre Aufgabe(?) innerhalb von nur 24 Stunden”...weiterlesen

Im Forum mitdiskutieren >>

Ähnliche News //

News

DALL-E 2: KI generiert und editiert Bilder nur anhand von Textbeschreibung

Vor etwas über einem Jahr hatte OpenAI die erste Version von DALL-E gestartet, einem neuronalen Netz, welches Bilder nur anhand einfacher Textbeschreibungen generieren kann. Jetzt ...

// 17:22 So, 10. Apr 2022von Thomas Richter

News

Stockphoto-Portal Shutterstock integriert KI-Bilder und gibt eine Antwort auf die ...

Seit kurzem steht die Frage im Raum, wie Künstler und Stock-Fotodienste überleben können, wenn bildgenerierende KIs wie DALL-E 2, Stable Diffusion oder Midjourney beliebige Bilder ...

// 09:41 Sa, 5. Nov 2022von Thomas Richter

News

WhisperX: Kostenlose lautgenaue Audiotranskription mit Sprechererkennung

Im September hatte OpenAI, die Entwickler unter anderem der Text-KI ChatGPT und der Bildgenerierungs-KI DALL-E 2, das Spracherkennungssystem Whisper vorgestellt, welches ...

// 11:28 Mi, 1. Feb 2023von Thomas Richter

News

StoryToolkitAI: Kostenlose Transkription und Übersetzung für DaVinci Resolve 18

Wir hatten ja vor kurzem über OpenAIs offenes KI Transkriptions- und Übersetzungsprogramm Whisper berichtet - jetzt hat der deutsche Filmemacher Octavian Mot ein kostenloses ...

// 15:48 Mi, 12. Okt 2022von Thomas Richter

News

KI revolutioniert die Photographie: Objektbasiertes Editing mit Hilfe von DALL-E 2

Wir haben ja schon über die Bilder-KI DALLE-2 und ihre erstaunliche Fähigkeit, beeindruckende Bilder nur per Text-Prompt zu generieren berichtet. Der Photograph Nicholas Sherlock ....

// 12:23 Do, 30. Jun 2022von Thomas Richter

zur Newsübersicht >

Generative Video-KI-Funktionen Adobe Firefly für Premiere Pro - Generative Extend, Object removal/addition

Zuletzt im Oktober hatte Adobe Firefly-Funktionen für Premiere Pro geteasert, darunter eine Generative Fill-Funktion - nun wird es konkret. Denn noch in diesem Jahr sollen über ...

// 15:08 Mo, 15. Apr 2024von blip

News

Übernahme ist durch RED ist nun eine Nikon-Tochter - und Jarred Land abgesetzt

Rechtzeitig zur NAB gab Nikon bekannt, die Übernahme von RED sei nun zu 100% vollzogen. Ab sofort werden Jarred Land zusammen mit James Jannard nur noch enge Berater der Nikon-...

// 14:13 So, 14. Apr 2024von blip

News

Günstiger und besser? Blackmagic stellt neues DaVinci Resolve Micro Color Panel für 495 Dollar vor

Blackmagic Design hat auf der NAB mit dem DaVinci Resolve Micro Color Panel ein weiteres, besonders erschwingliches Pult für die Farbkorrektur mit DaVinci Resolve angekündigt, ...

// 09:06 Sa, 13. Apr 2024von Rudi Schmidts

News

Blackmagic PYXIS 6K: Die Vollformat "Box"-Kamera mit Viewfinder, 2x SDI, Sideplates (!) uvm.

Am vielseitigsten riggbare Cam Blackmagic PYXIS 6K: Die Vollformat „Box“-Kamera mit Viewfinder, 2x SDI, Sideplates ...

Von vielen seit langem ersehnt und jetzt da: Blackmagic stellt mit der Pyxis 6K gleich drei leistungsstärkere Vollformat-Versionen seiner Cinema Camera 6K vor, die in ein ...

// 03:40 Sa, 13. Apr 2024von Rob

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Aktuelles

Stoppt Mickey Mouse die KI Kunst Revolution? Künstler protestieren gegen KI Konkurrenz

Die neuen bildgenerierenden KIs stellen eine Revolution dar: sie eröffnen erstmals die Möglichkeit, massenhaft hochqualitative Bilder nach Wunsch zu erzeugen - in beliebiger Menge,...

// 14:21 Di, 3. Jan 2023von Thomas Richter

Aktuelles

Die Stable Diffusion Revolution: Kostenlose Bildgenerierung per KI jetzt auch auf dem Heim-PC

Seit ein paar Tagen ist es endlich soweit: die Text-zu-Bild KI Stable Diffusion wurde veröffentlicht und kann kostenlos auf dem eigenen Computer genutzt werden - damit ist jetzt ...

// 15:03 Di, 30. Aug 2022von Thomas Richter

zur Artikelübersicht >

Was hältst du von den neuen Bild/Video-KIs?
Toll, so viele neue Kreativtools!
Sie werden das Filmemachen vereinfachen
Sie werden das Filmen z.T. ersetzen
Sie werden mich arbeitslos machen
Die sind völlig überbewertet

Ergebnis ansehen

Aktuelle News //

News

Innovatives Kamerazubehör SmallRig @ NAB 2024: Potato Jet Stativ, Brandon Li Cage, VB212 Akku

Am SmallRig Stand auf der NAB 2024 gab es viel neue Produkte zu sehen. Die spektakulärste Neuvorstellung dürfte das in Zusammenarbeit mit dem bekannten YouTuber Potato Jet ...

// 12:34 Mi, 24. Apr 2024von Rob

News

Drohnen schneller laden DJI Power 500 und 1000: Mobile Powerstations mit bis zu 1.024 Wh

Weit entfernt von einem Stromanschluss bei einem Ganztages-Dreh mit Drohnen? Damit der Strom dabei nicht ausgeht, hat DJI jetzt zwei neue mobile Powerstations vorgestellt. Die ...

// 09:24 Mi, 24. Apr 2024von Thomas Richter

zur Newsübersicht >