Im Inneren von AlphaZero

Bei einer Partie gegen das Programm AlphaZero wäre vermutlich selbst Schachweltmeister Magnus Carlsen chancenlos. Wie konnte die künstliche Intelligenz (KI) den Menschen so schnell überflügeln? Und besitzt sie auch so etwas wie Intuition? Eine Spurensuche im Elektronengehirn.

Wenn im Fachblatt „Science“ Gastautoren das Editorial verfassen, dann ist in der Regel etwas Besonderes passiert: Diese Woche heißt der Autor Garry Kasparov. Der ehemalige Schachweltmeister - in Fachkreisen nicht gerade für übertriebene Bescheidenheit bekannt - stellt in seinem Beitrag fest: „Ich war erfreut zu sehen, dass AlphaZero einen dynamischen, offenen Stil wie den meinen hat: Es bevorzugt Positionen, die meines Erachtens riskant und aggressiv aussehen.“

Auch der britische Schachgroßmeister Matthew Sadler hat sich kürzlich die Spielanlage des Programms genauer angesehen, und zwar bei der AlphaZero-Analyse des Schach-WM-Duells zwischen Fabiano Caruana und dem Titelverteidiger Carlsen. Zu Partie zehn sagte Sadler den Satz: „AlphaZero spürt, dass sich Schwarz in dieser Stellung mehr auf den Königsflügel und das Zentrum fokussieren sollte - und nicht auf den Damenflügel.“ Man ist in der Schachwelt offensichtlich nicht nur von der Rechenleistung der KI angetan, sondern auch von dessen Stil.

Schach im Selbststudium

Wie AlphaZero zu diesem Stil gekommen ist? Es hat ihn sich selbst beigebracht, schreiben Wissenschaftler der britischen Firma DeepMind nun im Fachblatt „Science“. Allerdings handelt es sich dabei um keine emotionalen Vorlieben des Programms, vielmehr ist es das Resultat von Hunderttausenden Testspielen gegen sich selbst. Denn anders als bisherige künstliche Intelligenzen aus dem Hause DeepMind kann sich AlphaZero Strategiespiele wie Schach, Go und sogar Shogi (die komplexere japanisches Variante von Schach) nun selbst beibringen und zur Perfektion führen.

Künstliche Intelligenz: Spielfiguren von Schach und Go

DeepMind Technologies Ltd

Alles, was es dafür anfangs braucht, sind die Spielregeln. Durch „Ausprobieren“ kann es dadurch immer besser abschätzen, welcher Spielzug in bestimmten Situationen der beste ist und wie hoch die Chancen stehen, mit bestimmten Manövern zu gewinnen. Dafür sorgt letztlich eine Verknüpfung bereits bekannter Algorithmen wie etwa die Monte-Carlo-Baumsuche. Auf diese Weise unterscheidet sich AlphaZero aber wesentlich von seinem Vorgänger AlphaGo, das seinen „Stil“ anfangs anhand von vielen menschlichen Spielzügen gelernt hat.

„Mehr Positionen als Atome im Universum“

AlphaZero ist zwar schneller und effektiver als alle Menschen. Allerdings hat auch die KI ihre Grenzen: Sie kann nicht das gesamte Spiel von Anfang bis Ende durchrechnen. „Bei dem Spiel Go geht man davon aus, dass es mehr Möglichkeiten gibt, wie die weißen und schwarzen Steine auf dem Brett positioniert werden, als Atome im Weltall“, sagte Jan Schlüter vom Österreichischen Forschungsinstitut für Artificial Intelligence. Ähnlich verhält es sich mit Schach und Shogi.

Das ist selbst für AlphaZero zu viel, so der Wissenschaftler, der sich für science.ORF.at die Arbeit von Googles DeepMind-Team ansah. So kann auch die KI nur einige Schritte vorausrechnen und braucht letztlich auch eine Art „Intuition“, wenn man es so ausdrücken möchte, um sich letztlich für einen Zug zu entscheiden - wenngleich dahinter natürlich pure Rechenleistung steht. „Der Stil von AlphaZero ergibt sich letztlich daraus, was der Suchalgorithmus als idealen Stil gefunden hat. Dass wir ihn zum Beispiel als ‚aggressiv‘ beschreiben, liegt nur daran, dass wir ihn mit dem sonst üblichen menschlichen Spielstil vergleichen.“

Der Mensch hilft doch mit

Dass die AlphaZero-KI nun unter den vielen Möglichkeiten neue Spielzüge entwickelt hat, auf die Menschen bisher noch nicht gekommen sind, überrascht Schlüter nicht. Während Menschen über Jahrhunderte und zum Teil Jahrtausende die besten Spielzüge voneinander gelernt und weiterentwickelt haben, konnte AlphaZero seinen Spielstil unabhängig von bisherigen Spieltraditionen entwickeln und einfach ausprobieren. „Würde man erst jetzt Schach und Co. einführen, würden wir vermutlich auch in Jahrhunderten andere Spielzüge machen als heute“, spekulierte Schlüter.

Allerdings widersprach Schlüter der Behauptung, AlphaZero hätte sich tatsächlich alles selbst beigebracht. Dahinter stecke viel Arbeit der DeepMind-Entwickler, um die KI letztlich so gut zu machen. „Das neuronale Netz, das die Suche nach den besten Folgezügen steuert, wird nach jedem Suchvorgang daraufhin optimiert, schon gleich zu Beginn möglichst gut das Suchergebnis vorherzusagen. Beim nächsten Mal wird die Suche dadurch besser, also zielgerichteter.“

Anders gesagt haben die Entwickler und Entwicklerinnen bei DeepMind ein Programm entwickelt, das Milliarden Testspielzüge durchführt und die Ergebnisse in eine mathematische Formel zusammenfasst, ergänzte der KI-Experte. Die KI lerne also im Endeffekt nur das, wozu man sie programmiert hat, und könne sich nicht selbst lehren, wie man die Weltherrschaft an sich reißt, so Schlüter. Denn außerhalb des Spielbretts von Schach, Shogi und Go wäre Alpha Zero hilflos. Mit Situationen in der realen Welt, die sich nicht einfach vorberechnen lassen, kann die KI nämlich nicht umgehen. Eine universelle Lernmaschine jenseits des Spieleumfeldes wird vermutlich noch viele Jahre der intensiven Forschung brauchen, meinen Experten.

Auch KI macht Fehler

So bleibt die Weltherrschaft fürs Erste auf das Spielbrett begrenzt. Zwar hat noch keiner der Großmeister gegen AlphaZero gespielt, es ist aber davon auszugehen, dass die KI beinahe unschlagbar ist. „Allerdings kann ein Mensch besser mit neuen Situationen umgehen. Wem es also gelingt, einen sehr ungewöhnlichen Spielzug zu machen, den der Computer kaum oder noch nie gesehen hat, der könnte ihn schlagen.“

Zudem sollte man nicht den Fehler machen und davon ausgehen, die Super-KIs wären fehlerfrei. „Als AlphaGo 2016 den Spitzenspieler Lee Sedol im Brettspiel Go besiegte, machte der Algorithmus einen Fehler. Sedol dachte allerdings, es handelte sich um einen ihm unbekannten Spielzug, erkannte den Fehler nicht und verlor.“ Es lohnt sich also, weniger Ehrfurcht vor den KIs zu haben, meinte Schlüter.

Ruth Hutsteiner, science.ORF.at

Mehr zu diesem Thema: