Matrizenmultiplikation DeepMind AlphaTensor
DeepMind
DeepMind
Maschinelles Lernen

KI sagt sekundenschnell Gefühle vorher

Eineinhalb Sekunden: So „lange“ dauert es und der Mensch hört in einem Gespräch heraus, wie es dem Gegenüber geht. Maschinelles Lernen kann das nun auch, wie Modelle eines Berliner Forschungsteams zeigen – Medizin und Militär könnten davon profitieren.

Wenn wir sprechen, vermitteln wir Inhalte und – Gefühle. Neben Gestik und Mimik unterstreicht die Stimme, was wir sagen und wie es uns geht. Oder sie verrät, ob wir etwas verbergen wollen. Klang und Lautstärke machen Gefühle hörbar und das in extrem kurzer Zeit. Eineinhalb Sekunden dauert es und der Menschen erkennt, wie sich sein sprechendes Gegenüber fühlt.

Ob künstliche Intelligenz (KI) ebenfalls emotionale Untertöne erkennt und noch dazu in so kurzer Zeit, untersuchte ein Forschungsteam des Max-Planck-Instituts für Bildungsforschung in Berlin unter der Leitung des Psychologen Hannes Diemerling. Die Studie wurde in der Fachzeitschrift „Frontiers in Psychology“ veröffentlicht. Getestet wurden Modelle für Maschinelles Lernen (ML), ein Teilgebiet der künstlichen Intelligenz. ML trainiert Computer, aus Daten und Erfahrungen zu lernen und sich dabei zu verbessern.

Maschine und Mensch gleich schnell

Das Forschungsteam nahm Audiomaterial in englischer Sprache und in Deutsch – gesprochen von Schauspielerinnen und Schauspielern, also von stimmlich professionell ausgebildeten Personen. Die Sätze wurden per Zufall ausgewählt und dann in Clips unterteilt. Sie waren nur eineinhalb Sekunden lang und ohne Sinn und Zusammenhang. Die Stimmen drückten verschiedene Gefühle aus: Freude, Wut, Traurigkeit, Angst und Ekel sowie eine „neutrale“ Stimmung.

Mit diesen Daten wurden dann drei Modelle Maschinellen Lernens getestet, ob sie erkennen, welches Gefühl in Sekundenschnelle widergegeben wurde. Eines der ML-Modelle analysierte Komponenten wie Frequenz und Tonhöhe. Das andere analysierte Rhythmus und Struktur einer Stimme. Das dritte Modell vereinte beide Techniken, um Emotionen vorherzusagen.

„Wir haben herausgefunden, dass das erste und das dritte Modell sehr genau die Gefühle bestimmen konnten." Und auch so schnell, wie das sonst nur Menschen gelingt. „Maschinelles Lernen kann verwendet werden, um Gefühle aus Audioclips von nur 1,5 Sekunden zu erkennen“, so Diemerling.

Der Psychologe schränkt aber ein: Die ausgedrückten Gefühle seien möglicherweise nicht ganz wie im „echten Leben“ gewesen. Professionell ausgebildete Schauspielerinnen und Schauspieler hatten die zufällig gewählten Sätze gesprochen. Möglicherweise werden bei künftigen Tests „normale“ Stimmen eingesetzt. Auch längere oder noch kürzere Abschnitte als eineinhalb Sekunden sollen getestet werden.

Medizin, Marketing und Militär

Maschinelles Lernen, das versucht menschliche Gefühle anhand von Gesichtsausdruck und Stimme zu entschlüsseln, wird als „Affective Computing“ bezeichnet. Seit Jahren wird dazu geforscht. Mittlerweile können KI-Systeme menschliche Gefühle so gut wie entschlüsseln und richtig zuordnen – „so gut wie“ deswegen, weil es Unschärfen gibt. Gefühlausdrücke sind nicht immer eindeutig. Ein lächelndes Gesicht bedeutet nicht zwangsläufig „glücklich sein“. Eine Stimme kann aus verschiedenen Gründen lauter werden – aus Freude oder aus Angst.

Medizin, Marketing und die Bereiche Sicherheit und Militär, um nur diese zu nennen, versprechen sich von „Affective Computing“ einiges. Bei der Betreuung pflegebedürftiger Menschen werden mitunter Roboter eingesetzt, ebenso bei der Assistenz im OP-Saal. Reagieren Roboter auf nonverbal oder durch Laute ausgedrückte Bedürfnisse, kann das entlasten. Firmen können sie bei Marktforschung und im Callcenter einsetzen, um Erwartungen der Kundinnen und Kunden präziser zu erfassen. Bei Abhör- und Verhörmethoden, Stichwort: Lügendetektor, gibt es eine höhere Treffsicherheit.