Computer blufft besser als Pokerprofis

Schach, Go und Dame: Bei all diesen Spielen gibt es mittlerweile Computer, die den Menschen schlagen. Nun ist das auch beim Pokern gelungen – was besonders schwierig ist, denn hier gehören Bluff und Intuition zum Spiel.

Zehn von elf professionellen Pokerspielern hat „DeepStack“ - ein System künstlicher Intelligenz (KI) – im vergangenen Dezember in rund 3.000 Spielrunden besiegt. Entwickelt von kanadischen und tschechischen Forschern, hat das Programm eine Schallmauer der Computerwissenschaft überschritten.

„Heads-up no-limit Texas hold’em“

„Pokern war für die KI-Forschung lange eine große Herausforderung“, sagt der stolze Entwickler Michael Bowling von der Universität Alberta. „Denn es ist das beste Beispiel für ein Spiel mit asymmetrischer Information.“ Im Gegensatz etwa zu Schach oder Go, bei der alle relevanten Informationen auf dem Tisch bzw. Spielbrett liegen, halten Pokerspieler einen Teil der Informationen in der Hand – und zwar aus gutem Grund versteckt.

Da Mitspieler niemals wissen können (außer sie schummeln), was die anderen wissen, gibt es ein hohes Maß an Unsicherheit – und Möglichkeiten zu bluffen. An der kanadischen Universität gibt es seit über 20 Jahren eine eigene Gruppe, die sich nur mit diesem Problem der KI-Forschung auseinandersetzt. Sie hat bereits mehrere Systeme entwickelt, die Poker in verschiedenen Varianten erfolgreich gespielt hat.

Mit „DeepStack“ haben sie nun aber den Gipfel erreicht: Das KI-System hat nämlich bei der besonders schwierigen Variante „heads -up no-limit Texas hold’em“ zugeschlagen. Dabei spielen zwei Spieler gegeneinander, die je zwei persönliche Karten bekommen. Schrittweise werden weitere, für beide sichtbare Karten aufgedeckt, und es gibt kein Limit beim Setzen. Das Spiel gilt deshalb als äußerst riskant und lädt zu hohen Gewinnen oder Verlusten ein.

Auch die Forscher pokern: Michael Bowling rechts mit den tschechischen Ko-Autoren Martin Schmid und Matej Moravcik
John Ulan, University of Alberta
Auch die Forscher pokern: Michael Bowling (re.) mit den Ko-Autoren Martin Schmid und Matej Moravcik

Nicht vom Menschen zu unterscheiden

„DeepStack“ kombiniert zwei bekannte KI-Methoden: einen bestimmten Algorithmus („Counterfactual Regret Minimization“) und künstliche neuronale Netze. „Die völlig bahnbrechende Leistung von ‚DeepStack‘ besteht darin, dass diese neuronalen Netze so etwas wie ‚Intuition’ entwickelt haben“, erklärt der an der Studie nicht beteiligte deutsche Medieninformatiker Christian Bauckhage. „Die Software kann somit z.B. überzeugend bluffen und ist in seiner Spielweise nicht mehr von Menschen zu unterscheiden.“ In dieser Hinsicht würde DeepStack den berühmten Turing-Test bestehen.

Der Algorithmus der Software beurteilt nicht das komplette Pokerspiel, sondern analysiert jeden einzelnen Spielschritt, betont sein Entwickler Michael Bowling. „Jede Situation ist in sich ein Mini-Pokerspiel. ‚DeepStack‘ löst Millionen dieser kleinen Spiele und verbessert damit seine Intuition, wie Pokerspielen funktioniert. Und diese Intuition ist der Treibstoff, den es für das gesamte Spiel braucht.“

Menschen lernen besser

Nicht nur die Intuition ist menschenähnlich, sondern auch die Zugdauer. Laut Forschern braucht „DeepStack“ im Schnitt nur ein paar Sekunden, um sich für die nächste Aktion zu entscheiden. Noch ist der Gleichstand zwischen Mensch und Maschine aber in Sachen Pokern noch nicht hergestellt. „Um gut zu funktionieren, brauchen Systeme wie ‚DeepStack‘ sehr viele Trainingsdaten“, meint der Medieninformatiker Christian Bauckhage.

„Wenn wir davon ausgehen, dass eine Pokerpartie im echten Leben fünf Minuten dauert, bräuchte ein Mensch etwa 95 Jahre, um die zehn Millionen Partien zu spielen, die ‚DeepStack‘ für sein Training gebraucht hat. Das bedeutet aber im Umkehrschluss, dass das menschliche Gehirn selbst dann mit asymmetrischer Information umgehen kann, wenn es nur wenige Beispiele kennt. So gesehen lernen wir immer noch besser als unsere Maschinen.“

Lukas Wieselberg, science.ORF.at

Mehr zu dem Thema: