So klingt ein Computer beim Lippenlesen

Lärm kann nicht nur Gesundheit und Wohlbefinden beeinträchtigen, sondern auch die Kommunikation im Alltag: Es sei denn, man beherrscht die Kunst des Lippenlesens - oder erhält Unterstützung von einem Computer.

Eine Alltagssituation: Ein Mann und eine Frau sitzen einander im Kaffeehaus gegenüber und unterhalten sich. Im Hintergrund ist Musik zu hören, die anderen Gäste plaudern, lachen, es ist laut im Lokal - und trotzdem verstehen die beiden einander.

Ö1-Sendungshinweis

Anlässlich des morgigen Tages gegen Lärm berichtet auch Wissen aktuell über dieses Thema: 26.4.2016, 13.55 Uhr

Auch deshalb, weil Menschen nicht nur Schall verarbeiten können, wenn sie jemandem zuhören, sondern auch die Lippenbewegungen und Zungenstellung ihres Gegenüber als Informationsquelle verwenden.

Von der Lippenbewegung zum Ton

Wenn der Mensch gesprochene Sprache ablesen kann, weil er einfache visuelle Signale verarbeitet, dann kann das auch ein Computer lernen, sagt Michael Pucher vom Institut für Schallforschung der Akademie der Wissenschaften in Wien.

Mit seinen „silent speech interfaces“ will Pucher nur sichtbare Sprachsignale so gut wie möglich akustisch wiederherstellen. Dazu trainiert er ein Computerprogramm mit Daten aus Sensoren, die kleinste Muskelbewegungen des Gesichts, vor allem der Lippen, aber auch der Zunge messen.

Sensoren zeichnen die Muskelbewegungen auf

Wenn man die ursprüngliche Äußerung und die zugehörigen Bewegungen kennt, kann man zurückzurechnen, wie sie zusammenhängen. Das Ziel ist, irgendwann auch unbekannte Äußerungen durch sichtbare Bewegungsmuster in Töne übersetzen zu können.

Erste Versuche die Bewegung zu vertonen hören sich zum Beispiel so an:

Der Originalsatz: „Heute ist schönes Frühlingswetter“ und die anhand von Bewegungsdaten computergenerierte Version (etwas gedehnt) im Vergleich. Hauch- oder Zwielaute sind noch schwierig herauszuhören.

Könnte man mit einer verbesserten Version des Programms irgendwann Gespräche aus der Ferne belauschen? „Im Prinzip ja, das wäre ein Spionage-Szenario“, lacht Pucher. Doch darum geht es ihm nicht: Er will zunächst entschlüsseln, welche Information wirklich entscheidend ist, um ein visuelles Signal auch sprachakustisch verstehen zu können.

Die Anwendungsmöglichkeiten sind vielfältig. So könnte man etwa die Mimik eines Vortragenden nutzen, um verbesserte automatische Transkriptionen oder Untertitel herzustellen. Das könnte für Gehörlose viel Material zugänglich machen.

Aber es gebe auch Interesse an lautloser Telefonie, erzählt Pucher. Etwa für Leute, die in sehr leisen Umgebungen, wie bei Vorträgen oder in Besprechungen, ein Telefonat führen müssen. Oder unter Umständen eben dort, wo die Umgebung so laut ist, dass gesprochene Sprache tonlos durch den Lärm dringen muss.

Isabella Ferenci, Ö1 Wissenschaft

Mehr zu diesem Thema: