Eine neue Variante der KI-Trainingsmethode bestärkendes Lernen soll autonome Autos besser machen.

Zucker-Eins und Peitschen-Null

Bestärkendes Lernen arbeitet mit Belohnung und Bestrafung: Die KI bekommt ein Ziel gesetzt und muss ihren Pfad zu diesem selbstständig finden. Kommt sie näher, wird sie belohnt. Tritt sie daneben, wird sie bestraft.

Die Methode bietet sich inbesondere für komplexe Aufgaben an, bei denen die KI zahlreiche Aktionen unter vielfältigen Bedingungen ausführen muss – zum Beispiel Roboter, Autos oder Flugzeuge steuern.

Sie hat erfolgreiche Jahre hinter sich: AlphaGo von Deepmind ist das wohl bekannteste Beispiel einer durch bestärkendes Lernen trainierten KI. 2016 schlug sie den stärksten Go-Spieler der Welt.

AlphaGo heißt mittlerweile AlphaZero und beherrscht einige Brettspiele auf laut Deepmind “übermenschlichem Niveau”. Für Deepmind-Gründer Demis Hassabis ist AlphaZero das Sprungbrett zur Allgemeinen Künstlichen Intelligenz, also einer KI, die sich eigenständig weiterentwickeln und Wissen zwischen Aufgaben transferieren kann.

VR-Training soll vor dem Crash bewahren

Das Problem bei bestärkendem Lernen: Die Versuch-und-Irrtum-Methode kann in der echten Welt katastrophal enden. Denn vor dem Erfolg stehen endlos viele Fehlschläge. Die Lösung: Die KI wird zunächst in einer Simulation statt in der Realität trainiert.

Autonome Autos zum …

MIXED.de XR-Podcast - jetzt reinhören

Aktuell: Deepfake Trends, VR-Roboter und Focals-Fail | Alle Folgen



Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.