Der Open-Source Code von Whisper liegt in Form von fünf verschieden großen Versionen mit unterschiedlichen Genauigkeiten und Arbeitsgeschwindigkeiten auf Github vor, die alle auf mit einer Grafikkarte ausgestatteten Heim-PCs laufen. Je nach Modell sind dafür GPUs von 1 bis 10 GB VRAM erforderlich. Die ersten vier Modelle umfassen nur Englisch, nur das größte wurde mit vielen anderen Sprachen trainiert und bietet deswegen auch die Möglichkeit, gesprochene Worte aus einer Sprache in eine andere zu übersetzen und als Text auszugeben.
Trainiert wurde der Encoder-Decoder-Transformer Whisper anhand von 680.000 Stunden Audiomaterial (samt Transkriptionen) aus dem Internet, davon waren zwei Drittel englischsprachig, der Rest in anderen Sprachen. Die Spracherkennung funktioniert dabei überraschend gut - auch bei undeutlicher Sprache oder störenden Hintergrundgeräuschen.
Erste Anwendungen und Tools nutzen Whisper
Die Bedienung erfolgt ganz simpel per Kommandozeile - aber ähnlich wie bei Stable Diffusion sorgt der offen zugängliche Quellcode auch bei Whisper dafür, daß gerade massenhaft Tools programmiert werden, die dessen Fähigkeiten für besondere Aufgaben nutzen oder auch einfach die Handhabung durch eine graphische Benutzeroberfläche (GUI) vereinfachen.
Zur Nutzung von Whisper muss nicht einmal ein Programm auf dem eigenen PC installiert werden, Whisper kann auch über Webdienste genutzt werden. So gibt es auf dem KI-Community Huggingface zum Beispiel ein einfaches Tool, YouTube Whisperer, mit dessen Hilfe die gesprochenen Worte eines YouTube Videos automatisch in Text transkribiert werden können. Ein anderes, noch sehr simples Tool erlaubt es, den Live-Audioinput per Mikrofon in Text umzuwandeln. Es gibt auch ein eher spielerisches Google Colab Projekt, welches Whisper mit Stable Diffusion integriert und es so ermöglicht, automatisch Bilder aus englischsprachigen mp3-Dateien zu erzeugen.
Die Zukunft: KI Tools für Alle - und automatische Untertitelung
Für die User ist Whisper ein weitere interessante und praktische KI-Funktion, die in Zukunft (kostenlos!) für alle möglichen Aufgaben genutzt werden kann. Audio-Transkription ist damit kein Herrschaftswissen mehr, das nur in speziellen Pay-Apps nutzbar ist (oder auf OS Ebene wie in Android oder per Siri). Wir sind gespannt auf die kommenden Programme, welche Whisper für neue interessante Funktionalitäten im Bereich Video nutzen werden, wie zum Beispiel eine automatische Indizierung Filmarchiven nach in den Clips gesprochenen Worten, welche dann per Text nach Dialogstellen durchsuchbar sind oder die automatische Erstellung von Textabschriften von Telefonanrufen oder anderen Audioaufzeichnungen. Für Filmemacher bzw. Videopodcaster besonders interessant ist natürlich auch die Möglichkeit, automatisch Untertitel in mehreren Sprachen zu erstellen und diese je nach Herkunft des Zielpublikums anzubieten.
Das Ende von Audio-Transkriptionsdiensten?
Für Anbieter von speziellen bezahlten KI-Transkriptionsdiensten wie etwa Simon Says für Videos ist Whisper eine schlechte Nachricht, wird doch deren Geschäftsmodell dadurch nahezu hinfällig - ihnen bleibt nur noch das Anbieten eines besonderen Interfaces und von nützlichen Zusatzfunktionen. Adobe hatte ja bereits das Ende solcher externen Pay-Services für Videos eingeläutet, indem es eine Audio-Transkription in Adobe Premiere Pro per
Adobe Sensei integrierte.
mehr Bilder zur News:
mehr Informationen
Kommentare lesen / schreiben
Passende News:
- Runway Gen2: Stable Diffusion Schöpfer stellen neue Text-to-Video-KI vor
- VideoFusion: Erste Open Source Video-KI ist da - und läuft auch auf dem Heim-PC
- Bild-KI Midjourney V5 liefert fotorealistische Bilder - und endlich auch korrekte Hände
- KI verwandelt WLAN Router in Raum-Radar
- Gerüchte zu Panasonics Lumix S1H II (Mk2) - 8K mit 60p und ProRes RAW
- ARRI Tech Talk: wie die neue REVEAL Color Science die Farbdarstellung verbessert
- Smart Module: Benro Theta Reisestativ richtet sich selbst ein und streamt
- Wonder Studio: Virtuelle Figuren einfach und billig per KI in Filme integrieren
- GPT-4 kommt schon schon nächste Woche: KI für Text, Bild- und Video
- Apple: Neue Macs vor dem Start - kommt endlich der neue Mac Pro mit M2 Ultra?
- Neue Nvidia-KI generiert Bilder 30x schneller als Stable Diffusion
- Blackmagic: Camera Update 8.0 und neue Empfehlungen für USB-C SSDs für BRAW-Aufnahme