Meta zeigt beeindruckendes Ganzkörpertracking nur per Quest-Headset

Meta zeigt beeindruckendes Ganzkörpertracking nur per Quest-Headset

Bislang tracken VR-Systeme Kopf und Hände. Das könnte sich bald ändern: Das Vorhersage-Talent Künstlicher Intelligenz ermöglicht realistisches Ganzkörpertracking und damit eine bessere Avatar-Verkörperung nur anhand der Sensordaten der Brille und der Controller.

Mit Werbeeinnahmen bezahlen wir unsere Redakteur:innen.
Mit einem MIXED-Abo kannst Du unsere Seite werbefrei lesen.

Schon beim Handtracking für Quest zeigte Meta, dass KI eine Grundlagentechnologie für VR und AR ist: Ein mit vielen Stunden Handbewegungen trainiertes neuronales Netz ermöglicht ein robustes Handtracking selbst mit den gering auflösenden Kameras der Quest-Brillen, die nicht speziell für Handtracking optimiert sind.

Möglich wird das durch das Vorhersage-Talent Künstlicher Intelligenz: Dank des im Training angeeigneten Vorwissens reicht wenig Input aus der realen Welt für eine akkurate Übersetzung der Hände in die virtuelle Welt. Eine komplette Echtzeit-Erfassung samt VR-Rendering würde viel mehr Leistung benötigen.

Per KI-Vorhersage vom Hand- zur Körpertracking

Dieses Handtracking-Prinzip, also durch das Training einer KI mit vorab erhobenen Tracking-Daten virtuelle Körperbewegungen möglichst plausibel und physikalisch korrekt im Einklang mit realen Bewegungen zu simulieren, übertragen Meta-Forschende in einem neuen Projekt auf den ganzen Körper. QuestSim kann nur anhand der Sensordaten des Headsets und der beiden Controller einen Ganzkörperavatar glaubhaft animieren.

Das Meta-Team trainierte die QuestSim-KI mit künstlich generierten Sensordaten. Die Forschenden simulierten dafür Headset und Controller auf acht Stunden Motion-Capturing-Clips von 172 Personen. So mussten sie die Headset- und Controller-Daten in Kombination mit Körperbewegungen nicht von Grund auf neu erfassen.

Die Trainingsdaten für die QuestSim-KI wurden künstlich in einer Simulation erzeugt. Die grünen Punkte zeigen die virtuelle Position von Headset und VR-Controller. | Bild: Meta

Die Motion-Capture-Clips enthielten 130 Minuten Gehen, 110 Minuten Joggen, 80 Minuten beiläufige Gespräche mit Gesten, 90 Minuten Diskussion am Whiteboard und 70 Minuten Balancieren. Das Simulationstraining der Avatare mit bestärkendem Lernen dauerte rund zwei Tage.

Nach dem Training kann QuestSim anhand realer Headset- und Controller-Daten erkennen, welche Bewegung eine Person ausführt. Per KI-Prognose kann QuestSim dabei sogar Bewegungen von Körperteilen wie der Beine simulieren, zu denen zwar keine Echtzeit-Sensordaten vorliegen, deren simulierte Bewegungen aber Teil des synthetischen Motion-Capture-Datensatzes waren, also von der KI gelernt wurden. Für plausible Bewegungen unterliegt der Avatar zudem den Regeln eines Physik-Simulators.

logo
  • checkMIXED.de ohne Werbebanner
  • checkZugriff auf mehr als 9.000 Artikel
  • checkKündigung jederzeit online möglich
ab 2,80 € / Monat
logo

Mit Werbeeinnahmen bezahlen wir unsere Redakteur:innen.
Mit einem MIXED-Abo kannst Du unsere Seite werbefrei lesen.

Schon das Headset reicht für einen Ganzkörper-Avatar

QuestSim funktioniert für Personen unterschiedlicher Größe. Weicht der Avatar allerdings von den Proportionen der realen Person ab, wirkt sich das auf die Avatar-Animation aus. Ein großer Avatar für eine kleine Person läuft etwa gebückt. Hier sehen die Forschenden noch Optimierungspotenzial.

Metas Forschungsteam zeigt zudem, dass allein die Sensordaten des Headsets in Kombination mit der KI-Prognose für einen glaubhaft und physikalisch korrekt animierten Avatar ausreichen können.

Die Bewegungsvorhersage klappt am besten bei Bewegungen, die in den Trainingsdaten enthalten waren und die eine hohe Korrelation zwischen Oberkörper- und Beinbewegung haben. Bei komplizierten oder sehr dynamischen Bewegungen wie schnellen Sprints oder Sprüngen kann der Avatar aus dem Tritt kommen oder stürzen. Da der Avatar zudem physikbasiert funktioniert, unterstützt er keine Teleportation.

In weiteren Arbeiten wollen Metas Forschende detailliertere Skelett- und Körperforminformationen ins Training einbinden und so die Vielfalt der Bewegungen der Avatare verbessern.

Quellen: Paper