KIs imitieren Stimmen perfekt - Vorsicht vor anrollenden Betrugswellen

// 13:16 Do, 9. Mär 2023von Thomas Richter

Befürchtet war es ja schon länger - jetzt ist es so weit: Die ersten Telefontrickbetrüger nutzen Stimmen-KIs, um alte Menschen durch einen vorgeblichen Notfall eines ihrer Kinder oder Enkel zu veranlassen, Geld an die Betrüger zu überweisen. Das funktioniert natürlich noch viel besser mit einer Stimme, die sich wirklich wie die des (Enkel-)Kindes anhört - und genau das ist mit modernen Stimmen-KIs, die jede Stimme täuschend echt nachahmen können, möglich.

Nur wenige Sekunden lange Audioaufnahmen (je nach verwendeter KI 3-30s) einer Stimme reichen, um diese täuschend echt zu imitieren. Solche Sprachaufnahmen zu finden, ist heutzutage kein Problem: auf YouTube, TikTok oder anderen Portalen finden sich leicht Videos samt Sprachaufnahmen von sehr vielen Menschen. Über soziale Netzwerke wie Facebook oder Instagram sind dann auch schnell ältere nähere Verwandte samt zugehöriger Telefonnummer ausfindig gemacht.

Die Washington Post berichtet jetzt von genau einem solchen Fall, in welchem Eltern einen Anruf von einem angeblichen Anwalt erhielten, der ihnen mitteilte, ihr 39-jähriger Sohn habe jemanden bei einem Autounfall getötet, säße jetzt im Gefängnis und bräuchte Geld für seine Anwaltskosten. Der scheinbare Anwalt holte dann den Sohn ans Telefon, der überzeugend seinen Eltern versicherte, dass er sie liebe und jetzt dringend 21.000 Dollar für das Gericht brauche.

Welche KI die Betrüger verwendet haben, ist nicht bekannt, aber es gibt mehrere Online-Dienste wie zum Beispiel ElevenLabs und Respeecher, die das Klonen von Stimmen per KI anbieten - mal mit mehr, mal mit weniger Schutzvorrichtungen um Missbrauch zu verhindern. Diese können für einen solchen Betrug genutzt werden, und die Verantwortlichen eines solchen Betrugs zu belangen, ist schwer - sie sitzen meist in anderen Ländern und könnten nur mit Mithilfe der örtlichen Behörden (wenn überhaupt) ermittelt werden.

Telefonbanking adé?

Beunruhigend ist auch der Versuch eines Reporters, der sich erfolgreich mit seiner per KI synthetisierten Stimme über Telefonbanking in sein Konto einloggte. Das bedeutet, dass ein Authentifizierungssystem, welches nur mittels des Geburtsdatums und der Authentifizierung mittels Stimme - "Bitte sagen Sie: Meine Stimme ist mein Passwort" - jetzt nicht mehr ausreicht. Die neuen KIs ahmen Stimmen gut genug nach, um die Stimmverifikationssysteme von Banken zu täuschen. Da von vielen Menschen sowohl Stimmaufzeichnungen als auch die Geburtsdaten online leicht aufzufinden sind, sind solche Sicherheitsvorkehrungen nun leicht zu umgehen.

Bisher galt ein Stimm-Sample als extrem sicheres Ausweisverfahren - Aussagen wie beispielseweise der Bank of Scotland (bei vielen anderen Banken finden sich ähnliche Statements) sind ab sofort überholt: "Ihre Stimme ist einzigartig. Um Voice ID zu verwenden, nehmen wir Ihre Stimme auf (per Telefon), wenn Sie einen bestimmten Satz sagen... Voice ID vergleicht mehr Merkmale in Ihrer Stimme, als das menschliche Ohr wahrnehmen kann. Wir können über 100 einzigartige Merkmale in Ihrer Stimme finden. Wenn Sie uns in Zukunft anrufen, werden wir den Stimmabdruck der Voice ID mit Ihrer Stimme vergleichen. Auf diese Weise wissen wir, dass wir mit Ihnen sprechen. Die Verwendung von Voice ID für Anrufe bei Telephone Banking ist schnell, einfach und sicher."

Ein solcher Voice ID Algorithmus, der eine Stimme analysiert und daraufhin verifizieren kann, wird nun überlistet durch eine Stimmen-KI, welche ebensogut Stimmen mitsamt allen ihren Merkmalen entschlüsseln kann, anhand dieser Daten die Stimme aber auch täuschend echt simulieren kann. Noch ist kein Fall bekannt, in welchem das Telefonbanking per Stimm-KI tatsächlich gehackt wurde, aber technologisch ist die Authentifizierung per Stimme (zumindest ohne zusätzliche starke Sicherheitsmaßnahmen) jetzt überholt.

In Zukunft

Anhand solcher simulierter Stimmen sind natürlich auch mit etwas mehr Aufwand noch viel gezieltere Scams möglich - so könnte etwa die Buchhaltung einer Firma durch den Anruf des Chef dazu gebracht werden, grössere Summen zu überweisen, oder ähnliches. Der Kreativität sind keine Grenzen gesetzt, was die Einsatzmöglichkeiten von Stimmfälschungen im großen und kleinen Rahmen angeht - gerade, wenn damit Geld verdient oder eine Person diskreditiert werden kann. Wir werden vermutlich noch viel "interessantes" in dieser Richtung sehen.

Eine erste Warnung waren die Geschehnisse vom Ende Januar 2023, als User der berüchtigten Internetplattform 4chan Elvenlabs Sprach-AI dazu nutzten, Audiofakes mit den Stimmen von bekannten Persönlichkeiten zu produzieren. So zirkulierten unter anderem Clips, in welchen die Schauspielerin Emma Watson einen Auszug aus Adolf Hitlers "Mein Kampf" liest und der amerikanische Präsident Joe Biden ankündigt, Truppen in die Ukraine zu schicken - zum Teil auch noch per DeepFake als Video einigermaßen realistisch animiert.

Gibt es Schutz vor Nachahmung der eigenen Stimme?

Für die sehr nahe Zukunft bedeutet diese Entwicklung, dass bloße Stimmen nicht mehr zur Identifizierung einer Person ausreichen. Um zu vermeiden, dass die eigene Stimme nachgeahmt wird, müsste man versuchen, keine eigenen Sprachaufnahmen, die für ein Stimmensampling genutzt werden können, öffentlich zu hinterlassen. Doch das würde bedeuten, überhaupt keine Videoclips, in denen gesprochen wird, im Netz zu posten oder solche Aufnahmen durch jemand anders zu verhindern - ein in vielen Fällen unmögliches Unterfangen. Von vielen Menschen sind ohnehin bereits (Video-) samt Sprachaufnahme im Netz zu finden und nicht mehr zu löschen - das Kind ist also schon in den Brunnen gefallen. Und da schon wenige Sekunden / wenige Worte Sprachaufnahmen ausreichen, könnte auch das nicht reichen - alleine schon durch ein Telefongespräch, in welchem man mit wenigen Sätzen dem Anrufer antwortet, könnte genügend Sprachmaterial zur Simulation anfallen.

KIs imitieren Stimmen perfekt - Vorsicht vor anrollenden Betrugswellen

Misstraue jeder Stimme?

Dies bedeutet, dass man ab sofort jeder Audioaufnahme einer Stimme - oder sogar einem Wortwechsel in Echtzeit - misstrauen sollte, wenn das Gesagte in irgendeiner Form einen Betrug vermuten läßt oder ungewöhnlich ist, es sei denn, der Anruf kommt tatsächlich von der zur Person passenden Telefonnummer oder kann anders authentifiziert werden. Paranoides Misstrauen als Grundeinstellung - eine unschöne Aussicht. Und im gesellschaftlichen Kontext gilt das natürlich auch: ab jetzt ist keiner reinen Audioaufnahme einer bekannten Persönlichkeit mehr zu trauen, wenn deren Authentizität nicht eindeutig verifizierbar ist. Ähnliches droht demnächst, wenn die Bildqualität gut genug ist, auch Videos.

mehr Infos bei
www.washingtonpost.com

Auf Socials teilen:

Leserkommentare // Neueste

Paralkar // 13:47 am 12.3.2023

Beeindruckend, Was ich mich bei so einer Möglichkeit frage, im Bezug auf die Medienwelt und auch Gesetze, inwieweit müssen wir definieren was Sprache rechtlich ist. Nehmen wir...weiterlesen

MK // 19:05 am 9.3.2023

Wahrscheinlich kam in den genannten Fällen sowieso keine KI zum Einsatz. Die Eltern wollten nicht zugeben die Stimme des Sohnes falsch erkannt zu haben, und die Bank schwafelt...weiterlesen

medienonkel // 17:54 am 9.3.2023

Gute Frage. Ist aber gut möglich, dass das in Echtzeit funktioniert. Ist ja nur text to speech. Denke ich mal. Und zusätzlich kommt noch dazu, dass da einerseits ein...weiterlesen

Im Forum mitdiskutieren >>

Ähnliche News //

News

Künstler vs KIs: Neues Tool macht Kunstwerke für KIs unverdaulich

Der Boom bildgenerierender KIs, die per Prompt beliebige Bilder erzeugen, hat bei Künstlern große Ängste ausgelöst, kann doch jeder Kunst- oder Künstlerstil - egal ob Malerei, ...

// 19:51 Mo, 20. Feb 2023von Thomas Richter

News

Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Generative KIs können mittlerweile Texte erstellen, die wie aus Menschenhand klingen, fotorealistische Bilder aus dem Nichts zaubern und nichtzuletzt - wie schon öfters an dieser ....

// 13:26 So, 21. Mai 2023von blip

News

OpenAI VALL-E: Neue KI macht jede Stimme nach - nur anhand von 3s Stimmsample

Es gibt ja schon seit längerem verschiedene DeepLearning Algorithmen, welche die unterschiedlichsten Stimmen täuschend echt nachahmen können - allerdings war bisher immer eine ...

// 16:42 Mo, 9. Jan 2023von Thomas Richter

News

Erst Bilder, dann Sounds: Neue Google-KI generiert beliebige Musik nach ...

Forscher von Google haben eine neue KI vorgestellt, die nach einem ähnlichen Muster wie die gerade sehr populären Text-2-Image KIs wie DALL-E 2, Midjourney oder Stable Diffusion .....

// 10:57 Mo, 30. Jan 2023von Thomas Richter

News

Stockphoto-Portal Shutterstock integriert KI-Bilder und gibt eine Antwort auf die ...

Seit kurzem steht die Frage im Raum, wie Künstler und Stock-Fotodienste überleben können, wenn bildgenerierende KIs wie DALL-E 2, Stable Diffusion oder Midjourney beliebige Bilder ...

// 09:41 Sa, 5. Nov 2022von Thomas Richter

zur Newsübersicht >

Generative Video-KI-Funktionen Adobe Firefly für Premiere Pro - Generative Extend, Object removal/addition

Zuletzt im Oktober hatte Adobe Firefly-Funktionen für Premiere Pro geteasert, darunter eine Generative Fill-Funktion - nun wird es konkret. Denn noch in diesem Jahr sollen über ...

// 15:08 Mo, 15. Apr 2024von blip

News

Übernahme ist durch RED ist nun eine Nikon-Tochter - und Jarred Land abgesetzt

Rechtzeitig zur NAB gab Nikon bekannt, die Übernahme von RED sei nun zu 100% vollzogen. Ab sofort werden Jarred Land zusammen mit James Jannard nur noch enge Berater der Nikon-...

// 14:13 So, 14. Apr 2024von blip

News

Günstiger und besser? Blackmagic stellt neues DaVinci Resolve Micro Color Panel für 495 Dollar vor

Blackmagic Design hat auf der NAB mit dem DaVinci Resolve Micro Color Panel ein weiteres, besonders erschwingliches Pult für die Farbkorrektur mit DaVinci Resolve angekündigt, ...

// 09:06 Sa, 13. Apr 2024von Rudi Schmidts

News

Blackmagic PYXIS 6K: Die Vollformat "Box"-Kamera mit Viewfinder, 2x SDI, Sideplates (!) uvm.

Am vielseitigsten riggbare Cam Blackmagic PYXIS 6K: Die Vollformat „Box“-Kamera mit Viewfinder, 2x SDI, Sideplates ...

Von vielen seit langem ersehnt und jetzt da: Blackmagic stellt mit der Pyxis 6K gleich drei leistungsstärkere Vollformat-Versionen seiner Cinema Camera 6K vor, die in ein ...

// 03:40 Sa, 13. Apr 2024von Rob

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Aktuelles

Stoppt Mickey Mouse die KI Kunst Revolution? Künstler protestieren gegen KI Konkurrenz

Die neuen bildgenerierenden KIs stellen eine Revolution dar: sie eröffnen erstmals die Möglichkeit, massenhaft hochqualitative Bilder nach Wunsch zu erzeugen - in beliebiger Menge,...

// 14:21 Di, 3. Jan 2023von Thomas Richter

Aktuelles

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von ...

// 19:47 Mo, 6. Feb 2023von Thomas Richter

zur Artikelübersicht >

Was hältst du von den neuen Bild/Video-KIs?
Toll, so viele neue Kreativtools!
Sie werden das Filmemachen vereinfachen
Sie werden das Filmen z.T. ersetzen
Sie werden mich arbeitslos machen
Die sind völlig überbewertet

Ergebnis ansehen

Aktuelle News //

News

Tools für DITs am Set AJA: ColorBox 2.1 ACES-Workflow und DRM2 für das DIT-Cart erklärt

AJA hat spannende neue Werkzeuge für DITs mitgebracht. Wir schauen uns hier u.a. den zertifizierten ACES-Workflow der ColorBox 2.1 und mit dem DRM2 Case eine Lösung für mehr ...

// 15:47 Do, 25. Apr 2024von Rob

News

8x Video-Upscaling VideoGigaGAN - Adobe zeigt generative KI Super Resolution für Bewegtbilder

Unter Super Resolution versteht man Algorithmen, welche die Auflösung eines Bildes künstlich erhöhen können - also mehr Bildinformationen hinzu erfinden, als ursprünglich von ...

// 11:41 Do, 25. Apr 2024von Rudi Schmidts

zur Newsübersicht >