Deepmind MuZero: Auf dem Weg zum Universalalgorithmus

Deepmind MuZero: Auf dem Weg zum Universalalgorithmus

Mit MuZero arbeitet Deepmind an einem neuen KI-Lernparadigma: Die KI entwickelt während des Trainings ihr eigenes Modell. Das macht sie flexibler.

Vor rund einem Jahr stellte Deepmind MuZero der Weltöffentlichkeit vor: Wie Deepminds Brettspiel-KI AlphaZero, die verbesserte Version der bekannten AlphaGo-Software, lernt MuZero die Spielregeln von Spielen wie Go, Schach oder Space Invaders eigenständig während des Spiels gegen sich selbst oder AlphaZero.

Anders als AlphaZero benötigt MuZero für diesen Lernprozess allerdings keine menschliche Eingabe mehr: Sie lernt die Spielregeln von Grund auf und schafft sich basierend darauf ein eigenes Modell für die Planung sinnvoller Spiezüge. Diese Unabhängigkeit von menschlicher Eingabe macht MuZero flexibler als bisherige KIs. Eine ausführliche Erklärung der MuZero-Lerntechnik steht hinter dem Link.

Eine KI für mehr Weltverständnis

Jetzt erscheint die Forschungsarbeit zu MuZero im Fachjournal Nature. Deepmind veröffentlichte außerdem einen ausführlichen Blog-Post zur KI, in dem es MuZero als „einen bedeutenden Schritt auf dem Weg zu universell einsetzbaren Algorithmen“ bezeichnet.

„Die echte Welt ist chaotisch und kompliziert, niemand verrät uns die Regeln, nach denen sie funktioniert“, sagt David Silver, leitender Deepmind-Forscher gegenüber der BBC. „Zum ersten Mal haben wir ein System, das in der Lage ist, ein eigenes Verständnis davon zu entwickeln, wie die Welt funktioniert.“

MuZero im Vergleich mit AlphaGo bis AlphaZero

MuZero erlernt Regeln in Spielen ohne jedes Vorwissen. Theoretisch kann die KI so Prinzipien von Abläufen in der echten Welt eigenständig erfassen, was etwa für das autonome Fahren wichtig sein kann. | Bild: Deepmind

MuZero könnte in einer Reihe stehen mit Deepminds Proteinfaltungsprogramm AlphaFold: ein KI-Algorithmus, der Probleme in der realen Welt löst.

Tatsächlich arbeiten die britischen KI-Forscher laut Silver bereits daran, mit MuZero eine KI-gestützte Videokompression zu entwickeln. Erste Ergebnisse zeigten signifikante Einsparungen bei der Datengröße, so Silver. Details verrät er nicht.

Löst MuZero den autonomen Straßenverkehr?

George Hotz, Gründer von Comma AI, einem Start-up für autonomes Fahren, sieht in Deepminds Ansatz sogar die Zukunft von Deep Learning: „MuZero wird in der Retrospektive als kanonische Forschungsarbeit und Eckpfeiler der ganzen Deep Learning-Ära gelten“, so Hotz. „Ich habe immer gesagt: Ich werde hier bei Comma AI sitzen und darauf warten, dass die Lösung für selbstfahrende Autos kommt. Dieses Jahr habe ich sie gesehen – es ist MuZero.“

Das große Potenzial von MuZero ist auch einer anderen Forschungseinrichtung aufgefallen: Das Federal Laboratory des Air Combat Command entwickelt mit MuZero einen KI-Co-Piloten für Militärjets der US Air Force.

Weiterlesen über Deepmind: