Künstliche Intelligenz

Sprach-Deepfakes werden oft nicht erkannt

Mit künstlicher Intelligenz (KI) können Sprachaufnahmen so täuschend echt gefälscht werden, dass Menschen sie oft nicht von der echten Stimme einer Person unterscheiden können. Das zeigt eine neue Studie aus England. Auch Versuche, die Studienteilnehmerinnen und -teilnehmer darin zu schulen, diese Deepfakes zu erkennen, verbesserten die Ergebnisse kaum.

3. August 2023, 8.15 Uhr

Im März 2022 verbreitete sich ein Video im Internet, unter anderem auf Facebook, in dem der Präsident der Ukraine, Wolodymyr Selenskyj, die ukrainischen Soldaten und Soldatinnen auffordert, sich zu ergeben – eine Erklärung, die Selenskyj nie abgegeben hatte. Kurz danach wurde das Deepfake-Video vom Facebook-Konzern Meta als gefälscht identifiziert und gelöscht: Man habe „dieses Video schnell überprüft und entfernt, da es gegen unsere Richtlinie gegen irreführende, manipulierte Medien verstößt.“

Mit Hilfe künstlicher Intelligenz (KI) können nicht nur Texte und Bilder, sondern auch Audio- und Videoaufnahmen von Personen täuschend echt produziert werden. Die Software sorgt dafür, dass die Stimme echt klingt und die Mimik zur gesprochenen Sprache passt. Und genauso wie Falschmeldungen können diese realistisch wirkenden Deepfakes zur Täuschung und Manipulation verwendet werden – wie etwa im Fall des gefälschten Videos des ukrainischen Präsidenten.

Unterschiedliche Merkmale in Englisch und Mandarin

Bisherige Forschung zur Erkennung von Deepfakes konzentrierte sich in erster Linie auf technische Erkennungssysteme – nur wenige Studien befassten sich hingegen mit den Fähigkeiten von Menschen, manipulierte Audiosequenzen zu erkennen. An der Studie, die nun im Fachjournal „PLoS ONE“ veröffentlicht wurde, nahmen 529 Probandinnen und Probanden teil. Für die Sprachsynthese, also die künstliche Erzeugung der menschlichen Sprechstimme, verwendete das Forschungsteam um Kimberly Mai vom University College London (UCL) einen Text-to-Speech-Algorithmus (TTS), der mit zwei Datensätzen trainiert wurde, einem in Englisch und einem in Mandarin.

Mit Hilfe der KI wurden 50 Audioclips in jeder der beiden Sprachen erzeugt. Zusammen mit Sprachaufnahmen von „echten“ Menschen wurden diese Clips den Teilnehmerinnen und Teilnehmern vorgespielt. Das Ergebnis: In nur 73 Prozent der Fälle wurden die Unterschiede erkannt und die Deepfakes enttarnt. Zwischen den beiden Sprachen gab es kaum Unterschiede in der Erfolgsrate. Auf die Frage, an welchen Details sie die manipulierte Audioaufnahmen erkannten, nannten Englisch-Sprecherinnen und -Sprecher jedoch häufiger die Atmung, Mandarin-Sprecherinnen und -Sprecher hingegen Redefluss und Modulation.

„Noch schlechtere Ergebnisse in realen Situationen“

Einem Teil der Probandinnen und Probanden wurden anschließend Beispiele von gefälschten Sprachaufnahmen vorgelegt, um sie darin zu schulen, Deepfakes zu erkennen. Doch auch diese Bemühungen hatten nur geringe Auswirkungen auf das Ergebnis. Weil die Studienteilnehmerinnen und -teilnehmer wussten, dass es sich bei einigen der Audios um Deepfakes handelte, würden Menschen in realen Situationen zudem wahrscheinlich noch schlechter abschneiden, so das Forschungsteam.

„Unsere Ergebnisse bestätigen, dass Menschen nicht in der Lage sind, gefälschte Sprache zuverlässig zu erkennen, unabhängig davon, ob sie ein Training erhalten haben, das ihnen hilft, künstliche Inhalte zu erkennen, oder nicht“, so Erstautorin Mai in einer Aussendung. Die Sprachaufnahmen, die in der Studie verwendet wurden, seien zudem mit relativ alten Algorithmen erstellt wurden.

Weil es in Zukunft durch verbesserte Technologien noch schwieriger sein wird, Deepfakes zu erkennen, kommen die Forscherinnen und Forscher in ihrer Studie zu dem Schluss, dass eine Verbesserung dieser Fähigkeiten wenig zielführend sei. In erster Linie müsse sich die Forschung auf die Entwicklung besserer Sprachdetektoren konzentrieren – Systeme, die Deepfakes erkennen. Lediglich die Bewertung von unter Manipulationsverdacht stehenden Videos durch große Mengen von Userinnen und Usern stelle eine sinnvolle Abhilfe dar, zumindest vorerst.

Drei-Sekunden-Audioclip reicht aus

Während frühere Text-to-Speech-Algorithmen Tausende von Stimmproben einer Person benötigten, um deren Stimme originalgetreu wiederzugeben, reicht für die neuesten, bereits trainierten Algorithmen schon eine drei Sekunden lange Audiosequenz. Open-Source-Algorithmen sind frei verfügbar, und obwohl ein gewisses Maß an Fachwissen von Vorteil ist, könnte eine Einzelperson sie innerhalb weniger Tage trainieren, schreibt das Forschungsteam. Das Technologieunternehmen Apple kündigte im Mai eine Software für iPhone und iPad an, mit der lediglich 15 Minuten Sprachaufnahmen ausreichen, um die Kopie einer Stimme zu erstellen.

Die Studienautorinnen und -autoren weisen auch auf die zahlreichen Vorteile von Text-to-Speech-Systemen auf Basis von KI hin, etwa im Bereich der Barrierefreiheit von Websites. Dennoch wachse die Befürchtung, dass die Technologie eingesetzt werden könnte, „um Einzelnen und der Gesellschaft erheblichen Schaden zuzufügen“. „Die Technologie wird immer ausgefeilter und viele dieser Werkzeuge sind offen zugänglich“, so Koautor Lewis Griffin vom University College London (UCL). Regierungen und Organisationen sollten daher Strategien für den Umgang mit dem Missbrauch dieser Technologie entwickeln – aber auch die Chancen erkennen, die diese Werkzeuge bieten.

Romana Beer, science.ORF.at

Sprach-Deepfakes werden oft nicht erkannt

Unterschiedliche Merkmale in Englisch und Mandarin

„Noch schlechtere Ergebnisse in realen Situationen“

Drei-Sekunden-Audioclip reicht aus

Mehr zum Thema