Deepmind MuZero: Auf dem Weg zum universellen Algorithmus

Ende November beendete der südkoreanische Go-Spieler Lee Sedol seine professionelle Go-Karriere. Der ehemals weltbeste Spieler unterlag 2016 einer Künstlichen Intelligenz und sieht sich nun nur noch als Nummer Zwei.

Gebrochen wurde Sedol von Deepminds KI AlphaGo: Die Künstliche Intelligenz hatte Millionen menschlicher Spielzüge analysiert und entwickelte so nahezu perfekte Vorhersagen für den Spielverlauf. Kein Mensch kann mit dieser Fähigkeit konkurrieren.

Im November 2017 trat dann AlphaGo Zero an, den Vorgänger zu übertrumpfen: Die neue Deepmind-KI lernte Go ohne menschliche Vorlage. Nur mit den Regeln des Spiels ausgestattet, spielte sie unzählige Partien gegen sich selbst - und schlug nach drei Tagen AlphaGo hundertmal in 100 Spielen.

Lee Sedol verlor gegen Deepminds AlphaGo-KI. Jetzt will er ganz mit Profi-Spielen aufhören. — Lee Sedol verlor gegen Deepminds AlphaGo-KI. Jetzt beendete er seine Profikarriere. Bild: Deepmind

Deepmind baute AlphaGo Zero im selben Jahr noch weiter aus: AlphaZero spielt neben Go auch Schach und die japanische Schach-Variante Shōgi.

Zukunftsträchtige Lernmethode im Hintergrund

Grundlage für AlphaZeros Erfolg ist die KI-Trainingsmethode bestärkendes Lernen: Eine KI wird belohnt, wenn sie eine Aufgabe erfolgreich ausführt oder ihrem Ziel näherkommt.

Für was genau eine KI belohnt wird, bestimmen die Entwickler im Einzelfall – die Belohnung hängt von der zu erledigenden Aufgabe ab. Bei Space Invaders beispielsweise kann es Punkte geben für Abschüsse. In Schach wird ein Spielzug belohnt, der die Wahrscheinlichkeit einer Niederlage minimiert.

Nun hat Deepmind mit MuZero eine neue KI vorgestellt, die AlphaZeros Brettspiel-Niveau erreicht und zusätzlich Highscores in alten Atari-Computerspielen knackt. Um zu verstehen, warum das etwas Besonderes ist, müssen wir einen kurzen Blick auf AlphaZeros Geheimrezept werfen.

Modell-basiertes Spiele-Genie

AlphaZero spielt Brettspiele. Im Vergleich zu vielen Computerspielen haben diese eindeutige Spielregeln, die sich gut in Regelstrukturen, sogenannte Modelle, für Künstliche Intelligenz übersetzen lassen. Die KI weiß genau, wo Spielfiguren stehen können, welche Spielzüge erlaubt sind und wann ein Spiel vorbei ist.

Für AlphaZero programmierten Deepmind-Entwickler ein entsprechendes Modell für Schach, Shogi und Go. Basierend auf diesem Modell kann AlphaZero Spielzüge planen und vorhersagen, welche Aktionen wahrscheinlich zum gewünschten Ergebnis führen. Diese Variante der KI-Programmierung heißt Modell-basiertes bestärkendes Lernen.

Empfehlung

KI in der Praxis

Geleaktes Sprachmodell erregt Aufmerksamkeit in der Open-Source-Szene - und kommt von Mistral

Schachprofi aber Pong-Noob

Mit dieser Methode trainierte KIs schlagen zwar Weltmeister in Brettspielen. Sie liegen jedoch in alten Atari-Videospielen weit hinter KIs zurück, die ohne vorkonfiguriertes Modell auskommen. Wie kommt das?

Das Modell-freie bestärkende Lernen setzt auf das Versuch-und-Irrtum-Prinzip: Die KI absolviert ein Computerspiel, indem sie herumprobiert, bis eine Aktion funktioniert. Ob sie funktioniert, signalisiert ihr die Belohnung, die sie maximieren soll.

Dass die Modell-freie KI bei Computerspielen besser funktioniert als die Modell-basierte, hat einen einfachen Grund: Die Modellierung von Computerspielen ist aufwendig. Das Bildschirmgeschehen kann nicht mit einfachen Spielregeln beschrieben werden. KI-Forscher sprechen von einer "visuell komplexen Domäne" – für eine KI gibt es viel zu sehen und zu verstehen.

Die KI lernt Space Invaders: Anfangs spielt sie defensiv und schützt ihren Spieler. Später beginnt sie, auf einzelne Schiffe zu zielen. Im vierten Bild ist das an der roten Wolke zu erkennen. Im letzten Bild hat sie ihre Aufmerksamkeit verteilt und zielt auch auf das Schiff mit dem höchsten Wert ganz oben am Rand. Bild: Greydanus et al. — Die KI lernt Space Invaders: Anfangs spielt sie defensiv und schützt ihren Spieler. Später beginnt sie, auf einzelne Schiffe zu zielen. Im vierten Bild ist das an der roten Wolke zu erkennen. Im letzten Bild verteilt sie ihre Aufmerksamkeit auf das gesamte Spielfeld. Bild: Greydanus et al.

So sind die "Spielfelder" bei Videospielen umfangreicher als bei Brettspielen und können sich je nach Level ändern. Spielfiguren sind außerdem zu vielen unterschiedlichen Handlungen fähig: Sie können beispielsweise Gegenstände sammeln, Türen öffnen, Geschossen ausweichen oder zwischen Plattformen springen. Die KI muss daher jeden einzelnen Pixel verarbeiten, anstatt nur grundlegende Spielregeln zu verstehen.

Schwer zu beschreiben, einfach zu lernen

Modell-freie KIs wiederum haben jedoch zwei Nachteile:

Sie benötigen umfangreiches Training
und eignen sich nicht gut für planungsintensive Aufgaben.

Bei einfachen Aufgaben kann eine Modell-freie KI zwischen zehn und 100 Millionen Trainingsdurchläufen benötigen, bis sie die Aufgabe verlässlich meistert. Eine Modell-basierte KI kann vergleichbare Ergebnisse schon nach wenigen hundert Trainings erreichen.

In Spielen wie Go, Schach oder dem Videospiel Montezumas Revenge ist für einen Erfolg außerdem Planung gefragt. Hier versagen Modell-freie KIs, da sie ohne Modell schlicht nicht planen können.

Je komplexer eine Umgebung, desto schwieriger ist es also, sie perfekt für eine KI zu modellieren. Aber: Gerade in komplexen Umgebungen ist Planung erforderlich, um eine Aufgabe erfolgreich zu bewältigen. Und umso mehr Planung erforderlich ist, desto wichtiger wird ein Modell.

Eine Sackgasse? Vielleicht nicht, wenn Deepminds Lösung für dieses Problem greift: Die KI lernt ihr Trainingsmodell einfach selbst.

MuZero lernt Bretter und Bildschirme beherrschen

Hier kommt Deepminds MuZero ins Spiel: Die KI lernt die Spielregeln von Go, Schach, Space Invaders und anderen Spielen selbstständig. Dafür spielt die KI einfach drauflos, ohne fertiges Modell im Hintergrund.

Dieses Modell erstellt MuZero selbstständig während ihrer Spielversuche. Dafür nimmt sie den vorherigen Spielzustand, die geplante nächste Aktion und prognostiziert daraus den nächsten Zug (Strategie), den vorhergesagten Gewinner (Nutzenfunktion) und die zu erwartende direkte Belohnung, etwa Punkte, die durch einen Spielzug erzielt werden (Belohnung).

So nähert sich MuZeros Modell des Spiels mehr und mehr der Realität von Schach oder Space Invaders an – und wird immer genauer. Nach nur zwölf Stunden Training erreichte MuZero die Klasse von AlphaZero. In Go übertraf MuZero seinen Vorgänger sogar bei geringerem Energieverbrauch.

In Atari-Spielen übertraf MuZero den bisherigen Modell-freien Spitzenreiter (R2D2) in 42 von 57 Spielen und alle anderen bisher veröffentlichten Modell-basierten KIs.

In Schach, Shogi, und Go erreicht MuZero (blaue Linie) in weniger als einer Millionen Trainingschritten die Leistung von AlphaZero (orangene Linie). In Atari-Spielen übersteigt MuZeros Leistung (blaue Linien) die des bisherigen Spitzenreiter R2D2 (orangene Linie) in etwa einer halben Millionen Trainingsschritten. Bild: Schrittwieser et al. — In Schach, Shogi, und Go erreicht MuZero (blaue Linie) in weniger als einer Million Trainingschritten die Leistung von AlphaZero (orangene Linie). In Atari-Spielen übersteigt MuZeros Leistung (blaue Linien) die des bisherigen Spitzenreiters R2D2 (orangene Linie) in etwa einer halben Million Trainingsschritten. Bild: Schrittwieser et al.

Deepmind schuf mit MuZero also eine KI, die Spielregeln selbstständig lernt und sich eigenständig ein Modell eines Spiels für die Planung erstellt – egal ob Brett- oder Videospiel. So lernt die KI, wie ihre Umgebung funktioniert und leitet daraus ihr Verhalten ab. Das macht sie flexibler als bisherige KIs.

MuZero könnte so Modell-basierten KIs den Weg ebnen, die in der echten Welt planungsintensive Aufgaben lösen, bei denen es für Menschen zu aufwendig oder sogar unmöglich ist, Modelle im Vorfeld zu definieren und vorzugeben. Ein mögliches Beispiel für so ein Szenario: der Straßenverkehr.

Quelle: Arxiv

Deepmind MuZero: Auf dem Weg zum universellen Algorithmus

Zukunftsträchtige Lernmethode im Hintergrund

Modell-basiertes Spiele-Genie

Geleaktes Sprachmodell erregt Aufmerksamkeit in der Open-Source-Szene - und kommt von Mistral

Schachprofi aber Pong-Noob

Schwer zu beschreiben, einfach zu lernen

MuZero lernt Bretter und Bildschirme beherrschen

Weiterlesen über Künstliche Intelligenz:

Apple veröffentlicht Open-Source-LLMs, die genau in die KI-Strategie passen

China will bis 2026 eigene KI-Speicherchips produzieren - ohne westliche Technik

KI-Forscher zeigen Spannungsfeld zwischen LLM-Vorwissen und Referenzdaten

Prompts mit vielen Beispielen verbessern die Leistung großer Sprachmodelle

US Air Force testet erfolgreich KI-gesteuertes Kampfflugzeug im simulierten Luftkampf

KI-Forscher warnt: Durch Sprachmodelle droht ein "Wissenskollaps"

Deepmind MuZero: Auf dem Weg zum universellen Algorithmus

Zukunftsträchtige Lernmethode im Hintergrund

Modell-basiertes Spiele-Genie

Schachprofi aber Pong-Noob

Schwer zu beschreiben, einfach zu lernen

MuZero lernt Bretter und Bildschirme beherrschen

Weiterlesen über Künstliche Intelligenz:

Artikel teilen

Bankverbindung