Eine Künstliche Intelligenz von Facebook und der Carnegie Mellon Universität hat fünf Spieler gleichzeitig in einem Poker-Turnier besiegt. Warum das ein großes Ding ist.

Die “Pluribus” getaufte Künstliche Intelligenz hat fünf Profispieler gleichzeitig in der weltweit beliebtesten Poker-Variante “no limit Texas Hold’em” besiegt. Die Gegner waren keine Leichtgewichte: Unter anderem stellte sich der sechsfache Poker-Weltmeister Chris “Jesus” Ferguson dem Computer.

Es ist das erste Mal, dass eine KI auf diesem Niveau gegen fünf Gegner gleichzeitig gewinnt. 2017 gelang es denselben Forschern, mit der Vorgänger-KI “Libratus” mehrfach Topspieler zu besiegen. Damals stellte sich die KI aber nur zwei Spielern gleichzeitig. Viele Jahre tüftelten die Macher weiter an der Poker-KI.

Poker ist ein schweres Spiel

Poker gilt als große Herausforderung für Künstliche Intelligenz, da das Spiel einige Besonderheiten aufweist, die etwa im Schach oder Go nicht zu finden sind.

Durch die verdeckten Karten der anderen Spieler sind die Informationen, mit denen die KI arbeiten kann, unvollständig. So wird das Einschätzen der Gegner und die Verschleierung der eigenen Hand wesentlicher Bestandteil der Strategie.

Genau das schafft Komplexitiät: Die KI benötigt ein gutes Spielverständnis, muss flexibel auf neue Informationen reagieren und dabei ihr Poker(inter)face behalten.

Die Spieler trafen sich mit der KI in einem einfachen Computer-Pokerspiel. Bild: Facebook.

Poker mit mehr Spielern ist noch schwerer

Gibt es nur einen Gegenspieler, halten sich die Variablen in Grenzen und die KI kann eine sogenannte optimale Strategie entwickeln. Alle bekannten Spiele-KIs mit “übermenschlichen Fähigkeiten” versuchen das – egal ob im Schach, Go oder Starcraft.

Solche optimalen Strategien, in der Spieltheorie auch Nash-Gleichgewicht genannt, machen es theoretisch unmöglich, im großen Stil zu verlieren. So ist die Nash-Gleichgewichtsstrategie für Stein-Schere-Papier, Stein, Schere oder Papier mit gleicher Wahrscheinlichkeit zufällig auszuwählen. Praktisch kann man zwar einzelne Partien noch immer verlieren, doch im Durchschnitt trägt man den Sieg davon.

Sobald beim Poker jedoch mehrere Spieler beteiligt sind, die unabhängig voneinander eine Strategie entwickeln, gibt es zu viele Möglichkeiten, um noch eine optimale Lösung zu finden – die möglichen Züge sind nicht mehr vorhersehbar.

Hinzu kommt: Die Spieler reagieren aufeinander und ändern ihre Strategie etwa in Reaktion auf neue Karten oder erhöhte Einsätze.

Die KI steht also vor einer großen Herausforderung: Jeder Spieler hat Informationen, die die anderen Spieler nicht haben. Eine erfolgreiche Poker-KI muss diese versteckten Informationen antizipieren, sie in ihre Entscheidungsfindung einbeziehen und basierend auf ihnen eine Strategie entwickeln.

Diese Strategie darf jedoch nicht vorhersehbar sein: Menschliche Spieler würden sie sonst ausnutzen. Beispiel: Spielt die KI bei einer guten Hand sofort einen hohen Einsatz, werden die Gegenspieler sich immer aus dem Spiel zurückziehen. Die Poker-KI muss also zusätzlich noch unberechenbar agieren.

Mit einer Methodenkombination entwickelten Facebooks KI-Forscher, dieser Komplexität zum Trotz, eine fast unschlagbare Poker-KI. Ihre Lösung könnte zur Blaupause für weitere KI-Software werden, die auch außerhalb einer Partie Poker funktioniert.

Was die Facebook-KI besonders macht

Die KI kann keine optimale Strategie berechnen

Für die Poker-KI bedeuten mehrere Mitspieler: Sie kann keine optimale Strategie entwickeln und ist gezwungen, auf eine Kombination aus (nur noch) erfolgsversprechender Strategie und flexibler Reaktion zu setzen. Gleichzeitig muss sie ihre Hand geheim halten.

Die Forscher setzen daher auf eine Mischung aus einer Strategieblaupause, die die KI zum Beginn jeder Runde einsetzt und einem Suchalgorithmus, der im laufenden Spiel versucht, flexibel die beste Strategie zur jeweiligen Spielsituation zu finden.

Die Blaupause entwickelte die KI, indem sie gegen sich selbst spielte. Die Methode ist etwa von Deepminds Brettspiel-KI AlphaZero und OpenAIs Starcraft-KI Alphastar bekannt. Nach etwa sieben Stunden erreichte die KI die Leistung durchschnittlicher Spieler, nach 20 Stunden die von Profis.

Die KI kompensiert mögliche Strategiewechsel

Im Spiel nutzt die KI ihre antrainierte Strategieblaupause und greift zusätzlich auf den Suchalgorithmus zurück, um flexibel ihre Strategie anzupassen. Der Suchalgorithmus berechnet die Wahrscheinlichkeiten möglicher Züge, soweit es die Rechenleistung zulässt.

Pluribus poker AI: Traversal graphic

Pluribus is the first AI capable of beating human experts in six-player no-limit Hold’em, the most widely-played poker format in the world. This graphic shows how the Monte Carlo Counterfactual Regret Minimization algorithm updates the traverser’s strategy by assessing the value of real and hypothetical moves. In Pluribus, this traversal is actually done in a depth-first manner for optimization purposes.

Gepostet von Facebook AI am Mittwoch, 10. Juli 2019

Auch hier spielen die Besonderheiten des Pokerspiels eine Rolle: Im Schach sind die möglichen Züge weit vorausrechenbar, es gibt eine eindeutig beste Lösung. Im Poker können Spieler immer unterschiedliche Strategien verfolgen, die Karten sind unbekannt – es gibt nicht nur eine richtige Lösung.

Die KI berechnet daher verschiedene Wahrscheinlichkeiten für bis zu vier Strategien im Voraus. Aus diesen leitet sie die durchschnittlich vielversprechendste Strategie ab.

Die KI lässt sich nicht in die Karten schauen

Um ihre eigenen Karten zu verschleiern, geht die KI ähnlich vor: Sie folgt nicht der ihren Karten entsprechenden naheliegendsten Lösung. Vielmehr rechnet sie verschiedene mögliche Züge mit unterschiedlichen Händen durch und bildet eine Art Kompromisslösung.

So findet die KI eine siegreiche Strategie und lässt dabei ihre Gegner im Unklaren – sie blufft und durchschaut Bluffs . Man könnte also sagen: Facebooks-KI hat gelernt, mit Lügnern umzugehen. Und selbst zu lügen.

Die KI erreicht Weltklasse-Niveau für nur 150 US-Dollar

Eine weitere Besonderheit: Die KI wurde in acht Tagen auf einem 64-Kern CPU Server mit 512 GB Arbeitsspeicher trainiert. Insgesamt hat das Training etwa 150 US-Dollar gekostet. Zum Vergleich: Googles AlphaGo nutzte fürs Training 1.920 CPUs und 280 GPUs und kostete wohl mehrere Millionen US-Dollar.

Ganz entgegen des Trends, immer mehr Rechenpower in KI-Training zu investieren, benötigten die Forscher für Pluribus sogar weniger Leistung als für die schwächere Vorgänger-KI.

Das zeigt, dass die Zukunft der KI-Forschung womöglich doch nicht vom immer größer werdenden Leistungshunger ausgebremst wird und dass auch Entwickler zum KI-Fortschritt beitragen können, die keinen Zugriff haben auf große Cloud Server und Milliarden US-Dollar.

Poker-KI ohne Poker?

Die KI könnte in Zukunft auch außerhalb des Pokers zum Einsatz kommen: Facebook selbst sieht mögliche Anwendungen bei der Analyse von Betrugsfällen, der Cybersicherheit und der Steuerung von Taxiflotten oder Robotern. All diese Bereiche sind mit Poker vergleichbar: Es existieren mehrere Akteure in einer Umgebung mit unvollständigen Informationen.

Die Fähigkeiten der KI könnten auch für Planspiele oder simulierte Verhandlungen genutzt werden. Sinnvoll wäre das womöglich fürs Militär, in der Diplomatie oder der Wirtschaft.

Um in Bereichen außerhalb des Pokers ans Werk zu gehen, muss die KI selbstverständlich jeweils angepasst und weiterentwickelt werden – aktuell kann sie nur Poker spielen. Aber das kann sie so gut, dass Facebook sich entschieden hat, die KI nicht zu veröffentlichen. Die Befürchtung: Spieler könnten mit ihr Online-Casinos leerräumen.

Quellen: Facebook, Nature

Weiterlesen über Künstliche Intelligenz


MIXED-Podcast #156: Drei Jahre XR-Podcast: Highlights, Lowlights, Überraschungen | Alle Folgen


Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.