Wissenschaft, Wissen, Frau, Mensch, Gehirn, Forschung, Denken
metamorworks – stock.adobe.com
metamorworks – stock.adobe.com
ChatGPT & Co

Wie queer „denkt“ künstliche Intelligenz?

Der Textgenerator ChatGPT, der auf künstlicher Intelligenz (KI) beruht, beantwortet Fragen und schreibt Texte aller Art, vom Gedicht bis zur Kurzgeschichte. Neue Entwicklungen im Sprachgebrauch stellen die Technologie aber durchaus vor Herausforderungen – wie zwei Fachleute am Beispiel von genderinklusiver Sprache beschreiben.

Um menschliche Antworten zu imitieren, wird ChatGPT mit einer riesigen Menge Daten trainiert – ebenso wie andere Textgeneratoren auf Basis von künstlicher Intelligenz: Zeitungsartikel, Bücher, Onlineforen, Social Media. Diese Daten seien bei Sprachtechnologien „das Um und Auf“, sagt Sabrina Burtscher von der TU Wien im Gespräch mit science.ORF.at. Denn die KI beruht auf maschinellem Lernen: Sie lernt aus Beispielen und verallgemeinert diese danach. Die Qualität des Outputs hänge daher „primär vom Datensatz ab, mit denen sie trainiert wird“.

Bedenken müsse man zudem, dass hinter Textgeneratoren, wie ChatGPT, kein Konzept oder Verständnis für die Sprache stehe, so die Informatikerin. Bei maschinellem Lernen handle es sich um rein statistische Verfahren: „Es geht nur darum, mit welcher Wahrscheinlichkeit ein Wort auf ein anderes Wort folgt. Kommt eine Phrase in den Datensätzen, aus denen gelernt worden ist, häufig vor, dann kommt sie auch im Output häufig vor.“

Viele unterschiedliche Gendervarianten

Wie können Textgeneratoren wie ChatGPT also mit Sprachgebrauch umgehen, der sich schnell und dynamisch ändert? Genderinklusive Sprache etwa entwickelt sich seit geraumer Zeit rasant weiter: Das Binnen-I, das dazu diente, Frauen in der Sprache sichtbar zu machen, wurde längst von nonbinären, genderinklusiveren Varianten überholt – Formen also, die nicht nur zwei, sondern alle Geschlechteridentitäten in der Sprache sichtbar machen, etwa durch Gendersternchen (*), Doppelpunkt und Gendergap (_).

Zudem gibt es genderneutrale Formen, die das Geschlecht sprachlich unsichtbar machen, wie beispielsweise das substantivierte Adjektiv „die Studierenden“. All diese Varianten werden laufend gesellschaftlich ausverhandelt und sind im Sprachgebrauch teils stärker und teils schwächer verankert.

Von „they“ bis „hen“

Dass technische mit gesellschaftlichen Entwicklungen mithalten können, sei im Fall der genderfairen Sprache auch deshalb so schwierig, „weil die Debatten in unterschiedlichen Sprachen zu komplett unterschiedlichen Standpunkten und Diskussionsständen führen“, sagt Lukas Daniel Klausner von der FH St. Pölten. So sei etwa im englischsprachigen Raum das „they“ als neutrales Pronomen schon länger verbreitet, während es in den romanischen Sprachen einige Zeit gedauert habe, bis die Diskussion im Mainstream gelandet ist.

Zudem sei die Komplexität in Sprachen unterschiedlich, so der Mathematiker im Gespräch mit science.ORF.at: „Im Schwedischen gibt es mit ‚han‘ und ‚hon‘ zwei Pronomen für ‚er‘ und ‚sie‘, die sich nur durch den Vokal unterscheiden haben. Und dann wurde als neutrales Pronomen ‚hen‘ eingeführt. Im Deutschen gibt es hingegen bei neutralen Pronomina einen ziemlichen Wildwuchs. Das hat natürlich auch schöne Aspekte, weil es Kreativität, Flexibilität und individuellen Ausdruck ermöglicht. Die regelgeleitete Übersetzung wird dadurch aber sehr viel schwieriger.“

Es geht um Respekt

Burtscher und Klausner beschäftigten sich als Teil eines Forschungsteams der Universität Wien, der TU Wien und der FH St. Pölten in einem Workshop mit der Berücksichtigung nichtbinärer Menschen in Übersetzung und Sprachtechnologien. Darin tauschten sich Vertreter:innen der nichtbinären und queeren Communitys mit Übersetzer:innen und Fachleuten für Sprachtechnologie aus. Die Ergebnisse fasste das Forschungsteam in einem Artikel zusammen – der Titel: „Es geht um Respekt, nicht um Technologie“.

Der Respekt vor den Menschen sei über die Technologie zu stellen, sagt Burtscher – „weil es darum geht, sich darauf einzulassen, dass verschiedene Menschen verschiedene Bedürfnisse haben“. Wunsch der nichtbinären und queeren Community sei es gewesen, „dass einfach einmal ihre Bedürfnisse wahr- und ernst genommen werden. Dass mit ihnen gesprochen wird und nicht nur über sie“, so Klausner.

Ein Aspekt, der sich im Workshop sehr stark bemerkbar machte: "Techniker:innen möchten am liebsten fixe Regeln genannt bekommen, an die sie sich halten können, um alles „richtig" zu machen, während für die nichtbinäre und queere Community der Aspekt der Flexibilität und dynamischen Entwicklung der Sprache ganz zentral war, also Raum für Veränderung und Weiterentwicklung“, erzählt der Mathematiker.

„Die eine Lösung gibt es nicht“

Ein Ergebnis des Workshops sei gewesen, dass es „die eine Lösung“ nicht gebe, so Burtscher. Denn die funktioniere dann für keine der drei beteiligten Gruppen wirklich gut. Die ideale Lösung sei von Fall zu Fall verschieden, „was das Ganze natürlich schwierig macht“. Nicht ideale Lösungen seien aber oft besser als gar keine. "Wir haben zum Beispiel über ein Browser-Plug-in gesprochen, das aufzeigt, wo ein generisches Maskulinum verwendet wird. Das erkennt zwar nicht alle Fälle, aber es macht zumindest sichtbar, wo überall nicht geschlechtergerecht formuliert worden ist. Das schafft Aufmerksamkeit und kann schon helfen, den Text selbst zu überarbeiten.“

Man müsse zudem auch immer überlegen, wer die Zielgruppe sei, denn manchmal gebe es einander widersprechende Bedürfnisse. Texte in Leichter Sprache nennt Burtscher als Beispiel: „Da wird es schwierig, fancy geschlechterinklusiven Varianten von Sprache zu verwenden. In so einem Fall muss man dann zum Beispiel auf Beidnennung ausweichen.“

„Rassistisch, sexistisch und LGBTIQ-feindlich“

Der Textgenerator ChatGPT selbst beantwortet die Frage, ob er genderinklusiv formulieren könne, mit „Ja“, weist aber auch darauf hin, dass diese Fähigkeit „von dem Datensatz abhängig ist, aus dem ich lerne. Ich werde weiterhin trainiert und aktualisiert, um sicherzustellen, dass ich so inklusiv und genderfair wie möglich formuliere“.

ChatGPT gendert „so gut wie der Dateninput“, dieser gestalte sich bei geschlechtergerechter Sprache, die sich dynamisch weiterentwickelt, aber durchaus schwierig, sagt Klausner. Klassischer Dateninput für maschinelles Lernen seien offizielle Dokumente, beispielsweise Dokumente der EU: „Ein schönes Korpus für europäische Sprachen, mit dem gerne gearbeitet wird. Unterschiedliche Varianten von genderfairer Sprache finden sich darin aber eher selten.“

Eine andere Möglichkeit sind Daten aus dem Internet. Auf den ersten Blick sei das für geschlechtergerechte Sprache eine gute Quelle, so Burtscher: „Im Deutschen finden sich da sehr viele verschiedene Formen, wie genderinklusiv geschrieben werden kann.“ Auf den zweiten Blick berge diese riesige Menge an Daten aber auch Probleme. Das habe man etwa gesehen, „als Microsoft vor ein paar Jahren einen Chatbot auf Twitter losgelassen hat, um von den Benutzer:innen zu lernen. Mit dem Ergebnis, das dieser Chatbot nach kurzer Zeit rassistisch, sexistisch und LGBTIQ-feindlich war.“

„Immer noch erstaunliche Unbedarftheit“

Bei jedem KI-generierten Text, bei dem man sich denke: „Da stimmt was nicht, das ist irgendwie sexistisch oder rassistisch“, sei wahrscheinlich der Datensatz vorher nicht ordentlich bearbeitet worden, sagt Burtscher: „Da wurde beim Maschinellen Lernen nicht aufgepasst und der Textgenerator vor der Veröffentlichung nicht ausreichend getestet.“

Das Grundbewusstsein für Probleme, die daraus entstehen können, sei gestiegen, so Klausner. Sowohl bei Einzelpersonen als auch bei Organisationen herrschte aber immer noch „erstaunliche Unbedarftheit“ zu dem Thema. Diversität in der Zusammensetzung von Teams alleine sei zwar kein Allheilmittel, viele Probleme würden dadurch aber zumindest gelindert. „Denn wenn in Teams demografische, individuelle und auch kulturelle Diversität vorkommt, dann fallen mehr Probleme schon im Vorhinein auf, weil aus unterschiedlichen Blickwinkeln darauf geschaut wird.“