Deepmind erkennt Parallelen zwischen einer KI-Trainingsmethode und dem Belohnungssystem im menschlichen Gehirn.

Der Neurotransmitter Dopamin spielt eine zentrale Rolle im Belohnungssystem des menschlichen Gehirns. Neuronen, in denen Dopamin vorkommt – sogenannte dopaminerge Neuronen – sagen bei jeder Handlung eines Menschen die zu erwartende Belohnung voraus.

Tritt die Voraussage ein, wird Dopamin freigesetzt. Ist die Belohnung besser als erwartet, gibt’s mehr Dopamin. Ist sie schlechter, wird die Produktion von Dopamin unterdrückt. Die häufig als Glückshormon bezeichnete Substanz steigert Antrieb und Motivation des Menschen.

Damit erfüllt Dopamin die Rolle eines Korrektursignals: Nach und nach passt sich die Vorhersage der am Belohnungssystem beteiligten dopaminergen Neuronen der Realität an. So lernt der Mensch Verhaltensweisen, die die größte Belohnung bringen. Auch das KI-Training durch bestärkendes Lernen setzt Belohnungen als Korrektursignal ein.

Dopamin für Maschinen

Das KI-Unternehmen Deepmind arbeitet seit Jahren intensiv am bestärkenden Lernen. Mit den KI-Systemen AlphaGo, AlphaZero und Alphastar erzielte es Durchbrüche in der KI-Forschung. Grundlage dieser Erfolge ist ein von Deepmind 2017 eingeführter modifizierter Algorithmus für das bestärkende Lernen.

Dieser neue Algorithmus sagt Belohnungen anders voraus, als es zuvor üblich war: Ältere Algorithmen repräsentieren die zu erwartende Belohnung als eine einfache Zahl, die dem durchschnittlich zu erwartendem Ergebnis entspricht.

Der modifizierte Deepmind-Algorithmus stellt die zu erwartende Belohnung jedoch als eine Verteilung dar. Solche Verteilungsprognosen erfassen das volle Spektrum möglicher Belohnungen – und nicht nur den Durchschnitt.

Eine Figur springt über einen Abgrund. Einige möglichen Zukünfte sind gut (grün), einige sind schlecht (rot). Die alten Algorithmen lernen die durchschnittlich zu erwartende Belohnung, der neue lernt das komplette Spektrum vorherzusagen. So bleiben auch die zwei Spitzen erhalten. Bild: Deepmind.

Eine Figur springt über einen Abgrund. Einige möglichen Zukünfte sind gut (grün), andere sind schlecht (rot). Früher lernten Algorithmen, die durchschnittlich zu erwartende Belohnung vorherzusagen. Die Verteilung der Belohnungen samt der negativen und positiven Spitze geht dann verloren. Deepminds neuer Algorithmus hingegen kann das komplette Spektrum an möglichen Erfolgen und Misserfolgen vorhersagen. Bild: Deepmind

Der Knackpunkt: Künstliche Intelligenz, die auf verteilungsbasiertes bestärkendes Lernen setzt, schneidet in spezialisierten Leistungstests besser ab als KI-Software, die nur die Durchschnittsbelohnung kennt. Noch ist nicht endgültig geklärt, weshalb das so ist – aber die verteilte Belohnung erzeugt robustere KI, die besser mit sich ändernden Umgebungen oder sich ändernden Aufgaben umgeht.

Das Gehirn ist uns einen Schritt voraus

In Kooperation mit der Universität Harvard zeigt Deepmind jetzt, dass auch das Belohnungssystem des biologischen Gehirns verteilte Gewinnprognosen für das Verhaltenstraining nutzt. Bei einem Experiment beobachteten die Forscher das Verhalten von dopaminergen Neuronen in Mäusen, während diese Aufgaben erledigten.

Die Aktivität der Dopaminzellen (blau) deckt sich mit der erlernten Belohnungsverteilung (grau). Bild: Deepmind.

Die Aktivität der Dopaminzellen (blau) deckt sich mit der erlernten Belohnungsverteilung (grau). Bild: Deepmind.

Die Forscher zeigten, dass jedes einzelne Neuron unterschiedliche Mengen Dopamin freisetzt – und damit unterschiedliche Belohnungen vorhersagt. Die Verteilung der Vorhersagen folgt dabei nahe der Verteilung der tatsächlichen Belohnungen. Für die Forscher ist das ein überzeugender Beweis, dass das Gehirn den Lernprozess durch Verteilungsprognosen steuert.

Diese Entdeckung könnte Auswirkungen auf die KI-Entwicklung und Neuroforschung haben. “Wenn das Gehirn die Methode nutzt, ist es vermutlich eine gute Idee”, sagt Matt Botvinick, Leiter der Neuroforschung bei Deepmind. “Das sagt uns, dass die Technik gut mit Echtwelt-Situationen klarkommt.”

Die Arbeit von Harvard und Deepmind bringt der Neuroforschung ein tieferes Verständnis des Belohnungssystems des Gehirns. Und das ist an vielen psychischen Erkrankungen beteiligt.

Quellen: Deepmind, Technology Review

Weiterlesen über Künstliche Intelligenz:

steady2

MIXED.de XR-Podcast - jetzt reinhören

Aktuell: Radioaktive Daten und VR Auferstehung | Alle Folgen



Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.