Künstliche Intelligenz

Warum Chatbots vor allem Englisch sprechen

Chatbots wie ChatGPT glänzen vor allem in Englisch, während sie die allermeisten Sprachen bisher vernachlässigen. Wie gut sie eine Sprache beherrschen, liegt meist nicht an Eigenschaften der Sprache selbst, sondern ist eine Frage der verfügbaren Daten, der Kultur – und nicht zuletzt der Finanzierung.

21. September 2023, 8.27 Uhr

Wir befinden uns im „Frühling der künstlichen Intelligenz“, so bezeichnet es Navid Rekab-Saz, Informatiker am Institut für Computational Perception an der JKU. Bei der automatischen Texterzeugung hat sich in den letzten Jahren viel getan. Weltweit werden etwa 7.000 Sprachen gesprochen, 57 davon beherrscht der berühmteste plaudernde erzeugende vortrainierte Umwandler (Chat-generative pre-trained transformer) – besser bekannt als ChatGPT. Allerdings funktioniert das je nach Sprache unterschiedlich gut. Während seine Fähigkeiten in den meisten Sprachen beschränkt sind, brilliert der medial dominierende Textgenerator allem voran in Englisch.

Auf die Frage, warum er in manchen Sprachen schlechter ist als in anderen, antwortet ChatGPT selbst: „Meine Fähigkeiten variieren in verschiedenen Sprachen aufgrund der unterschiedlichen Menge und Qualität der verfügbaren Trainingsdaten. Zum Beispiel könnte meine Leistung in komplexen Sprachen wie Arabisch aufgrund der anspruchsvollen Grammatik weniger ausgeprägt sein als in Sprachen mit umfangreichen digitalen Ressourcen wie Englisch.“

Daten, Daten, Daten

Da „spricht“ er auch schon selbst die wichtigsten Punkte an: Es geht vor allem um die Menge und Qualität der Daten, mit denen das Programm trainiert wird. „Je mehr Daten ich habe, je größer die Modelle sind und je mehr Rechenpower zur Verfügung steht, desto besser ist das Ergebnis“, erklärt Sepp Hochreiter, Leiter des Instituts für Machine Learning an der Johannes Kepler Universität (JKU) Linz, gegenüber science.ORF.at. Jahrzehntelang hätte man es mit kleineren Datensätzen versucht, aber man sei nie so weit gekommen – denn die sogenannten Large Language Models übertreffen mit Abstand alle vorhergehenden Ansätze. „Mehr Daten bringen mehr als kluge Ideen – sie bringen mehr als bessere Daten, mehr als bessere oder schnellere Algorithmen.“

Ö1-Sendungshinweis

Digital.Leben zu Sprachbarrieren Künstlicher Intelligenz: 21.9., 16.55 Uhr

Woher kommen die ganzen Daten? Die meisten generativen Sprachmodelle basieren auf Common Crawl, einem offen zugänglichen Archiv mit 250 Milliarden Websites. ChatGPT speist mehr als die Hälfte seiner Daten aus dieser Plattform. Darin sind grundsätzlich Seiten in etwa 160 Sprachen zur Verfügung, 46 Prozent davon sind allerdings auf Englisch. Danach folgt ein großer Bruch, den zweiten Platz belegt Russisch mit sieben Prozent – Deutsch liegt mit sechs Prozent gleichauf mit Chinesisch an dritter Stelle. Nicht-indo-europäische Sprachen stellen nur Bruchteile der Datenbank. Etwa die Bantu-Sprache Suaheli hätte mindestens genauso viele Erstsprecherinnen und -sprecher wie Deutsch, macht aber nicht einmal ein Hunderttausendstel im Datenbestand von Common Crawl aus.

Ökonomie der Large Language Models

„Die Software-Entwicklungsfirmen fragen sich, wie viele Kunden haben wir, die Suaheli sprechen – oder Kurdisch? Was verdienen wir damit, diese Sprachen zu verbessern? Es steckt viel Ökonomie hinter diesen Large Language Models“, erklärt der Informatiker Rekab-Saz gegenüber science.ORF.at. Die Modelle reproduzieren dabei eine lang existierende Ungleichheit: Die 20 am meisten gesprochenen Sprachen werden jeweils von mehr als 50 Millionen Menschen gesprochen – die Hälfte der Weltbevölkerung kann sich in diesen Sprachen unterhalten. Die allermeisten Sprachen werden aber von weniger als 10.000 Menschen gesprochen. Für fast 90 Prozent aller Sprachen gibt es kaum bis gar keine Textdaten, weshalb sie in der Sprachtechnologie praktisch ignoriert werden. Dazu zählen etwa Otomangue-Sprachen, Dahalo und Wallisianisch.

In der Entwicklung sind Sprachmodelle aufwendig und teuer, unter anderem wegen der notwendigen Rechenleistung. Aber auch, weil Urteile von echten Menschen erforderlich sind, um in einer Testphase die Entscheidungen des Systems zu bewerten – oft Menschen im globalen Süden, die nur einen Hungerlohn für diese Arbeit bekommen.

Das geht nur so billig, weil Englisch in so vielen Ländern gesprochen wird. Da die großen Softwarefirmen wie OpenAI, Microsoft und Google meist selbst in der Anglosphäre sitzen, fokussieren auch sie auf Englisch – wie infolgedessen viele Programmiererinnen und Programmierer im Rest der Welt. „Die kleineren Länder haben sich angepasst“, sagt Hochreiter. „Wenn schon alles auf Englisch ist, lerne ich lieber Englisch, bevor ich das Gleiche nochmal in einer anderen Sprache kopiere. Dadurch wurde der Datenkorpus noch mehr Richtung Englisch verzerrt.“

Englisch-Dominanz begann im Kalten Krieg

Die führende Rolle der englischen Sprache in Sachen Natural Language Processing (NLP) hat ihren Ursprung jedoch schon viel früher. Der erste Akt: Im Kalten Krieg waren Geheim- und Sicherheitsdienste, meist aus den USA, sehr interessiert an der automatischen Übersetzung. „Die ersten Experimente waren mit Englisch und Russisch“, erklärt Dragoș Ciobanu, Professor für Computational Terminology und Machine Translation an der Uni Wien. „Dann haben sich die Konflikte über die Welt ausgedehnt und auch andere Sprachen wurden interessant.“ Gearbeitet wurde dabei auch an NLP-Methoden wie der Suche nach Schlüsselwörtern oder der automatischen Zusammenfassung von langen Texten – wofür heute Schülerinnen und Schüler gerne zu ChatGPT greifen.

Kurdisch oder Suaheli: Lebendig, aber kaum digitalisiert

In vielen Ländern können sie das allerdings nicht – zumindest nicht in ihrer Muttersprache. Denn die Daten sind eben nicht von überallher gleich verfügbar. „Etwa Suaheli und Kurdisch sind sehr lebendige Sprachen, aber schriftliche und vor allem digitalisierte Daten mit guter Qualität findet man eigentlich kaum“, so der Informatiker Rekab-Saz. Gerade Gesetzestexte und Nachrichten würden da infragekommen, für alltägliche Sprache könne man damit aber keine Modelle bauen.

Demgegenüber steht ganz klar die Dominanz von US-Daten, die dem IT-Experten Hochreiter Sorgen bereitet: „Die großen amerikanischen Firmen sagen, welche Texte reinkommen und welche nicht. Dahinter verstecken sich Assoziationen, ob etwas als gut oder schlecht empfunden wird, ob etwas interessant ist oder nicht. Das finde ich ganz schlimm.“ Jedes Land solle selbst entscheiden können, was in der KI steckt, so Hochreiter. Kurzum: „Jede Sprache, jede Kultur, jede Denkweise sollte eine eigene KI haben."

Isabella Fresner, science.ORF.at