Facebook-Forscher arbeiten seit Jahren an realistischen Augen für Avatare, die Voraussetzung für Augenkontakt in VR sind. Eine Forschungsarbeit erklärt, wie sie das Problem in den Griff bekommen haben und welche Telepräsenzhürden noch zu nehmen sind.

Die Forschung baut auf den in Pittsburgh entwickelten Codec Avataren auf. Damit sind fotorealistische Virtual-Reality-Avatare gemeint, die vor der Übertragung kodiert und wieder dekodiert werden, bevor sie beim Empfänger ankommen. Der Grund: Die Verschlüsselung soll Identitätsdiebstahl vermeiden.

Für die Erstellung eines Codec Avatars muss die entsprechende Person zunächst in Facebooks 3D-Studio aufwendig digitalisiert werden. Dabei wird sie von mehr als hundert Kameras gefilmt.

Anschließend muss sich die Person nur noch eine spezielle VR-Brille aufsetzen, die mit drei integrierten Kameras jeweils das linke und das rechte Auge sowie die Mundregion filmen. Eine für diese Aufgabe trainierte KI rekonstruiert aus den drei verzerrten, ausschnitthaften Gesichtsvideos in Echtzeit ein realistisch animiertes Gesicht.

Codec Avatars Eye Reconstruction

Links sieht man den Brillenträger, oben, was die Kamera sieht, rechts den fertigen Codec Avatar. | Bild: Facebook Research

Codec Avatare sind ein wichtiger Baustein für Facebooks XR-Endvision: eine Techbrille, die physische Distanz virtuell überwindet und Menschen erlaubt, sich von überall aus zu treffen, als wären sie in einem realen Raum physisch anwesend.

Einmal Augenbälle, bitte

Was die Forscher bislang nicht glaubhaft simulieren konnten, waren realistische Augen. Die Pupillen wirkten teilweise verzerrt oder hatten eine andere Blickrichtung und schauten nicht in die Augen des Gegenübers, das ebenfalls eine VR-Brille trägt.

In einer Forschungsarbeit, die im Rahmen der kommenden Siggraph-Konferenz offiziell vorgestellt werden wird, beschreiben die Wissenschaftler eine Lösung für dieses Problem.

Bislang nutzten die Wissenschaftler lediglich eine sogenannte StyleGAN-KI für die Echtzeitanimation der Augen. Das Problem war, dass die KI-Interpretation der Augenbewegungen und Blickrichtung nicht gesteuert werden kann.

Die Forscher entwickelten daher zusätzlich ein manipulierbares 3D-Modell der Augenbälle, das Eyetracking-Informationen verarbeitet. Die Kombination aus maschinellem Lernen und grafischer 3D-Repräsentation bezeichnen die Forscher als “das Beste zweier Welten”. Die technisch recht komplexe Umsetzung wird in folgendem Video im Detail erklärt.

Mit der beschriebenen Methode gelangen den Wissenschaftlern Codec Avatare mit realistischen Augenanimationen, die im Einklang mit dem restlichen Gesicht stehen. Das linke und rechte Auge können nun außerdem unabhängig voneinander erfasst werden, wenn sie zum Beispiel in unterschiedliche Richtungen blicken. Das System ermöglicht zudem neue Kombinationen von Blick und Gesichtsausdruck. All diese Faktoren führen zu einem glaubhafteren VR-Gegenüber.

Das System hat trotz aller Verbesserungen noch einige signifikante Einschränkungen: Es treten teilweise noch immer Artefakte auf und eine hohe Latenz von circa 130 ms trüben die Echtzeitkommunikation. 100 Millisekunden kommen durch die Netzübertragung selbst zustande, 30 Millisekunden durch den Kodierung- und Dekodierungsprozess. Ideal wäre eine Latenz von unter 20 Millisekunden.

Eine riesige Hürde ist derzeit noch, dass jede Person zuerst in Facebooks 3D-Studio eingescannt werden muss, bevor sie unter Facebooks VR-Prototyp als realistischer Avatar erscheint.

Zu guter Letzt muss die gesamte Technik dann auch noch in einer autarken VR-Brille wie Oculus Quest Platz finden. Man sieht also, dass das perfekte VR-Telefon Marke Facebook noch weit entfernt ist.

Quelle und Titelbild: Facebook Research

Weiterlesen über Facebooks XR-Forschung:

steady2

MIXED.de XR-Podcast - jetzt reinhören

Aktuell: Exit VR | Alle Folgen



Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.