OpenAI stellt eine KI für eine Roboterhand vor, die den Zauberwürfel (Rubik’s Cube) lösen kann. Einhändig verlangt das Puzzle sowohl Know-how als auch menschenähnliche Geschicklichkeit.

Die neue Forschungsarbeit von OpenAI basiert auf dem ersten Roboterhand-Experiment “Dactyl”, das im vergangenen Sommer vorgestellt wurde. Fast hundert (vorgespulte) Jahre musste eine KI in einer Simulation üben, um einen Würfel einhändig in einer Roboterhand drehen zu können.

Zum Einsatz kam das sogenannte bestärkende Lernen: Drehte die Roboterhand-KI den Würfel mit der richtigen Seite nach oben, wurde sie belohnt.

Das Experiment verlief laut der Forscher überraschend erfolgreich: Die KI lernte ohne vorherige Programmierung eigenständig und allein in einer Simulation hochkomplexe menschliche Bewegungsabläufe, die anschließend auf einen realen Roboter übertragen werden konnten. Mehr als 6.000 Prozessoren waren für die Simulation notwendig.

KI-Forscher brachten einem Roboter bei, Objekte in der Hand zu jonglieren. Dafür musste sie fast hundert Jahre in einer Simulation üben.

Die Vorgänger-KI für die Roboterhand Dactyl konnte nur einen Würfel mit der verlangten Seite nach oben drehen. Die neue Version löst dank überarbeitetem Simulationstraining jetzt einen Zauberwürfel. Bild: OpenAI

Dactyl ist jetzt noch geschickter

Schon damals glaubten die Forscher, dass mit mehr Rechenleistung und Aufgabenvariation noch mehr Fingerfertigkeit in der Roboterhand steckt. Dieses Potenzial weisen sie jetzt nach.

Ausgangsbasis ist wie bei Dactyl die Spiele-KI “Five”, die im komplexen Computerspiel Dota 2 ganze KI-Teams in die Schlacht führte und erstmals menschliche Profis besiegte.

Diese Übertragung funktioniert, vereinfacht gesagt, da die fünf Finger einer Hand für das neuronale Netz letztlich auch ein Team sind, das koordiniert werden muss.

Zufallssimulation macht die KI robust

Die neue Version von Dactyl wurde ebenfalls vollständig in einer Computerumgebung trainiert. Die Innovation im Vergleich zum letzten Jahr ist der Ablauf der Simulation, die ausgehend von einem vorgegebenen Szenario ständig neue Simulationen erstellt.

Dabei variiert sie Faktoren wie Größe und Gewicht des Würfels oder die Schwerkraft. Hat die KI eine bestimmte Leistungsschwelle erreicht, wird der Schwierigkeitsgrad der Simulation angehoben.

Diese automatisierte permanente Veränderung der Trainingsumgebung, OpenAI nennt sie Automatic Domain Randomization (ADR), ersetzt laut der OpenAI-Forscher ein akkurates Modell der echten Welt: Die Ergebnisse können erfolgreich aus der Simulation auf einen echten Roboter übertragen werden.

Einzelne Parameter der Trainingssimulation werden automatisch justiert, der Schwierigkeitsgrad wird fortlaufend leicht angehoben. So lernt die KI, besser mit wechselnden Bedingungen klarzukommen. Bild: OpenAI

Einzelne Parameter der Trainingssimulation werden automatisch justiert, der Schwierigkeitsgrad wird fortlaufend leicht angehoben. So lernt die KI, besser mit wechselnden Bedingungen klarzukommen. Bild: OpenAI

Beim Training der ersten Version von Dactyl ging OpenAI auf die gleiche Weise vor, allerdings wurden die Änderungen an der Simulation manuell vorgenommen. Das automatisierte Training schneidet bei zunehmender Komplexität der Simulation deutlich besser ab: Laut OpenAI verdoppelt sich die Übertragungsleistung auf den echten Roboter im Vergleich zum von Menschen gesteuertem Simulationstraining.

Die automatisierte Randomisierung der Trainingsumgebung hat die Roboterhand-KI Dactyl robust gemacht gegen Störungen. Selbst der hinterhältige Angriff einer Plüschgiraffe (Mitte unten) kann ihr nichs anhaben. Bild: OpenAI

Die automatisierte Randomisierung der Trainingsumgebung hat die Roboterhand-KI robust gemacht gegen Störungen. Selbst zwei zusammengebundene Finger (oben rechts) halten sie nicht von der Würfeldrehung ab. Bild: OpenAI

Die KI ist so robust trainiert, dass sie den Zauberwürfel auch dann noch erfolgreich dreht und balanciert, wenn sie beispielsweise mit einem Stofftier gestört wird.

Allerdings löst sie den Zauberwürfel bei maximalem Schwierigkeitsgrad (26 Rotationen) nur in 20 Prozent der Fälle erfolgreich. Bei einem etwas weniger verworrenen Ausgangspuzzle (15 Rotationen) gelingt ihr das Kunststück immerhin bei 60 Prozent der Versuche.

Als nicht erfolgreich gilt ein Versuch, wenn der Würfel herunterfällt oder ein Zeitlimit überschritten wird. Fällt der Würfel allerdings herunter, kann man ihn der Roboterhand wieder in die Hand legen und sie macht weiter, wo sie aufgehört hat.

Auf dem Weg zur generellen KI

Die Forscher bei OpenAI vermuten, dass der neue Ansatz fürs Simulationstraining die Fähigkeit einer KI stärkt, das Lernen zu lernen. Das sei eine wichtige Voraussetzung für die Schaffung einer generellen Künstlichen Intelligenz, die einmal antrainiertes Wissen in vielen Bereichen anwenden kann.

Der Algorithmus lerne in der randomisierten Simulationsumgebung, sich permanent anzupassen, schreiben die Forscher. Bei mehr als 10.000 Tests habe sich gezeigt, dass die KI bei Störungen den Würfel zuerst schlechter drehe, dann aber ihre Strategie auf die neue Situation adaptiere und nach weiterer Trainingszeit wieder ebenso erfolgreich agiert wie vor der Störung.

Die Wissenschaftler von OpenAI gehen davon aus, dass die maschinelle Abbildung menschlichen Geschicks ein wichtiger Meilenstein ist hin zu Allzweckrobotern. Sie kündigen weitere Forschungsarbeiten in diesem Bereich an.

Weiterlesen über Roboter-KI:

steady2

MIXED.de XR-Podcast - jetzt reinhören

Aktuell: Radioaktive Daten und VR Auferstehung | Alle Folgen



Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.