Deepmind-Forscher sind überzeugt: Bestärkendes Lernen alleine kann zu genereller Künstlicher Intelligenz führen. In einer neuen Arbeit argumentieren sie für diese Überzeugung.

Intelligenz tritt im biologischen Leben in der Form zahlreicher unterschiedlicher Fähigkeiten auf, etwa soziale Intelligenz, Sprache, Wahrnehmung, Vorstellungskraft, Gedächtnis oder motorische Kontrolle.

Forscher von Deepmind stellen in einer aktuellen Arbeit die Frage: Was könnte Lebewesen oder künstliche Agenten dazu bewegen, sich auf so vielfältige Weise intelligent zu verhalten?

Eine mögliche Antwort: Jede dieser Fähigkeiten entsteht durch die Verfolgung eines Ziels, das speziell darauf ausgelegt ist, diese Fähigkeit hervorzurufen. In dieser Vorstellung erzeugt das Ziel “Objekterkennung” beispielsweise die Entwicklung von Wahrnehmung. Die Kooperation innerhalb eines Multi-Agenten-Systems begünstigt die Entwicklung sozialer Intelligenz.

Doch Deepminds Forscher haben eine andere Erklärung für die Entstehung von Intelligenz: Es sind nicht ausgewählte Ziele, die bestimmte Fähigkeiten hervorrufen – das allgemeine Ziel der Belohnungsmaximierung reiche bereits aus, um die meisten Fähigkeiten hervorzubringen, die mit Intelligenz verbunden werden.

Dahinter stehe die Intuition, dass die natürliche Umgebung für Tier und Mensch bereits so komplex sei, dass sie hoch entwickelte Fähigkeiten erfordert.

Der Weg zu genereller KI: Belohnungsmaximierung ist genug

Ihre “Reward-is-Enough”-Hypothese formulieren Deepminds Forscher wie folgt:

“Intelligenz und die mit ihr verbundenen Fähigkeiten können so verstanden werden, dass sie der Maximierung der Belohnung eines Agenten dienen, der in seiner Umgebung agiert.”

Sie verdeutlichen ihre Überlegung an einem Eichhörnchen: Dessen Gehirn könne als ein Entscheidungssystem verstanden werden, das Empfindungen vom Körper des Eichhörnchens empfängt und motorische Befehle zurücksendet.

Das Verhalten des Eichhörnchens könne als Maximierung einer Belohnung wie Sättigung verstanden werden. Damit ein Eichhörnchen seinen Hunger minimieren und seine Sättigung maximieren könne, müsse das Eichhörnchen-Gehirn über Wahrnehmung (um gute Nüsse zu identifizieren), Wissen (um Nüsse zu verstehen), motorische Kontrolle (um Nüsse zu sammeln), Planung (um zu entscheiden, wo es Nüsse versteckt), ein Gedächtnis (um sich an die Nussverstecke zu erinnern) und soziale Intelligenz (um Verstecke vorzutäuschen, damit andere Eichhörnchen sie nicht stehlen) verfügen.

Jede dieser intelligenten Fähigkeiten könne als Teil des Ziels der Hungerminimierung verstanden werden. So ließen sich außerdem zahlreiche unterschiedliche Formen von Intelligenz mit der Maximierung verschiedener Belohnungssignale erklären, wie die Echoortung von Fledermäusen, die Kommunikation durch Walgesang oder der Werkzeuggebrauch von Schimpansen.

Wenn Fähigkeiten, die mit Intelligenz assoziiert werden, als Lösungen für das Ziel der Belohnungsmaximierung verstanden werden, erkläre das außerdem, weshalb eine bestimmte Fähigkeit entstehe, so die Forscher.

Werde hingegen jede Fähigkeit als Lösung für ein eigenes spezialisiertes Ziel verstanden, beantworte das lediglich, was eine Fähigkeit bewirke.

Als Beispiel nennen die Forscher die Klassifizierung von Krokodilen: Diese Fähigkeit helfe bei der Unterscheidung von Krokodilen und Baumstämmen (Was), sei jedoch vor allem wichtig, um nicht von Krokodilen gefressen zu werden (Warum).

AlphaZero zeigt den Weg für künstliche Agenten

Sofern diese Überlegungen zutreffen, sei die Belohnungsmaximierung in einer komplexen Umgebung auch für künstliche Agenten der beste Weg zu genereller Intelligenz. Der allgemeinste und am besten skalierbare Ansatz zur Maximierung einer Belohnung sei die Interaktion mit einer Umgebung durch Versuch und Irrtum – das bestärkende Lernen (Erklärung).

“Wir vermuten, dass ein Agent, der auf diese Weise effektiv lernen kann, eine Belohnung zu maximieren, in einer komplexen Umgebung zu hoch entwickelten Ausdrucksformen genereller Intelligenz führen würde”, so die Forscher.

Die Brettspiel-KI AlphaZero sei ein Hinweis auf das Potenzial der Belohnungsmaximierung: Vor AlphaZero habe sich die Go-KI-Forschung auf verschiedene Fähigkeiten wie Eröffnungen, Formen, Taktiken und Endspiele konzentriert, die jeweils durch verschiedene Ziele wie Sequenzspeicherung, Mustererkennung, lokale Suche und kombinatorische Spieltheorie formalisiert wurden, schreiben die Forscher.

AlphaZero konzentriere sich stattdessen auf ein einziges Ziel: die Maximierung eines Belohnungssignals, das bis zum letzten Schritt 0 ist und dann +1 für einen Sieg oder -1 für eine Niederlage.

Das habe letztlich zu einem tieferen Verständnis einzelner Fähigkeiten geführt, etwa das Entdecken neuer Eröffnungssequenzen, das Verwenden überraschender Spielzüge oder das sichere Spielen bei Führung.

AlphaZero habe darüber hinaus eine ganze Reihe breiter gefasster Fähigkeiten entwickelt, die vorher nicht formalisiert waren, wie das Ausbalancieren von Einfluss und Territorium auf dem Spielbrett oder Angriff und Verteidigung.

Komplexere künstliche Umgebungen könnten generelle KI hervorbringen

Die Maximierung von Gewinnen in einer einfachen Umgebung wie Go habe bereits Verhalten bewirkt, das eine Vielzahl spezialisierte Fähigkeiten umfasse. Die gleiche Methode habe auch neue KI-Fähigkeiten in Schach oder Shogi ermöglicht.

Die Maximierung von Belohnungen in komplexeren Umgebungen, die mit der natürlichen Welt vergleichbar seien, könne daher wohl weitere und vielleicht letztendlich alle mit Intelligenz verbunden Fähigkeiten hervorbringen, argumentieren die Deepmind-Forscher.

Allerdings könne Künstliche Intelligenz auch mit anderen Zielen als etwa Fortpflanzungserfolg entworfen werden – und so zu sehr unterschiedlichen Formen von Intelligenz führen.

Deepminds Forscher stellen mit ihrer Arbeit die Vermutung auf, dass “Intelligenz in der Praxis aus hinreichend leistungsfähigen Reinforcement-Learning-Agenten hervorgehen könnte, die lernen, zukünftige Belohnungen zu maximieren.”

Sofern diese Überlegung zutreffe, “bietet sie einen direkten Weg zum Verständnis und zur Konstruktion einer generellen Künstlichen  Intelligenz”, schließen die Forscher.

Titelbild: Deepmind | Via: ScienceDirect

Weiterlesen über Künstliche Intelligenz:

steady2

MIXED.de Podcast: VR, AR und KI - jede Woche neu

Jetzt reinhören: Alle Folgen


Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.