Facebooks Social-VR-Forscher Yaser Sheikh gibt einen detaillierten Einblick in die Entwicklung realistischer virtueller Menschen für mehr VR-Nähe.

Im März stellte Facebook erstmals virtuelle Menschen vor, die ihrem realen Ebenbild verblüffend ähnlich sehen und noch dazu realistisch animiert sind.

Sinn und Zweck der Übung: Realistische Telepräsenz in der Virtual Reality. Telepräsenz ist laut Facebooks Social-VR-Forscher Yaser Sheikh womöglich die einzige VR-Anwendung mit dem Potenzial, Milliarden Menschen für Virtual Reality zu begeistern.

Sie setze die Evolution fort vom Fax zum Telefon zu Videokonferenzen, erklärt Sheikh. Aktuelle Telekommunikationstechnologien würden nicht ersetzt, aber VR-Telepräsenz könne bei besonders wichtigen, intimen Gesprächen Nutzen stiften. “Ich tippe, dass es dafür benutzt wird”, sagt Sheikh.

Außerdem biete die VR-Telepräsenz mehr Wahlfreiheit bei Beziehungen. “Wir wählen unsere Beziehungen nicht aus. Sie werden dadurch bestimmt, wo wir leben”, sagt Sheikh. “Das große Versprechen dieser Technologie – generell von AR und VR – ist, dass wir unsere Beziehungen selbst bestimmen können.”

Laut Sheikh wird VR-Telepräsez das Telefon oder Videokonferenzen nicht ersetzen, sondern ergänzen. Beispielsweise dann, wenn ein Gespräch besondere Nähe erfordert. Bild: Facebook

Laut Sheikh wird VR-Telepräsenz das Telefon oder Videokonferenzen nicht ersetzen, sondern ergänzen, wenn ein Gespräch besondere Nähe erfordert. Zum Beispiel könnte sich der Partner während einer Urlaubsreise persönlicher trennen. Bild: Facebook

Mensch schlägt Comic

Derzeit setzen alle Social-VR-Anwendungen abstrakte Comic-Avatare ein. Weshalb? Weil’s noch nicht besser geht.

Diese Comic-Avatare ähneln im Optimalfall ihrem Erschaffer und repräsentieren ihn. Womöglich kann man die Person hinter dem Avatar wiedererkennen, wenn man sie in der Realität gut kennt. Aber man gewinnt nicht den Eindruck, dass der Avatar tatsächlich die Person sein könnte.

Die Avatare in Facebook Spaces sollen jetzt glaubhafter aussehen und besser funktionieren. Sie können außerdem stärker auf das eigene Aussehen angepasst werden.

Facebook experimentierte in der Spaces-App mit Comic-Avataren, die aber nicht ausreichen sollen für überzeugende soziale Präsenz in VR. Bild: Facebook

Dieser Eindruck wiederum ist laut Sheikh notwendig für überzeugende soziale Präsenz in VR. Die These hinter Facebooks Avatar-Forschung ist, dass fotorealistische Telepräsenz eine Bedingung ist für soziale Präsenz. Ziel sei es, den eigentlich künstlichen Avatar völlig natürlich wirken zu lassen.

“Wir wissen, dass Menschen Realität mögen.” Yaser Sheikh, Facebook VR-Forscher

“Wir wissen nicht, ob Comic-Avatare für Milliarden Menschen ansprechend sind. Aber wir wissen, dass Menschen Realität mögen und sich gerne begegnen”, sagt Sheikh.

Genau an dieser Stelle kommen Facebooks Codec-Avatare ins Spiel, in denen laut Sheikh mehr als drei Jahre Forschungsarbeit stecken. Sie sollen aussehen, sich bewegen und klingen wie der jeweilige VR-Brillenträger. Codec heißen die Avatare, weil sie während der Übertragung zunächst kodiert und dann wieder dekodiert werden.

KI-Verfahren spielen bei diesem Prozess laut Sheikh eine wichtige Rolle: Das reale Gesicht wird mittels neuronaler Netze in Kombination mit in und an der VR-Brille verbauten Kameras gescannt und dann in Echtzeit auf den Avatar übertragen. Facebook nennt die dafür notwendige Spezialbrille ein “Head Mounted Capture System”.

Die VR-Brille hat vier Kameras integriert: Eine schaut auf die Stirn, eine auf den Mund und jeweils eine aufs Auge. Aufgrund der ungewöhnlichen Perspektive der Kameras nahe am Gesicht kann die Mimik nicht einfach eins zu eins übertragen werden. Stattdessen muss sie mit KI-Verfahren originalgetreu rekonstruiert und interpretiert werden. Bild: Facebook

Die VR-Brille hat vier Kameras integriert: Eine schaut auf die Stirn, eine auf den Mund und jeweils eine aufs Auge. Aufgrund der ungewöhnlichen Perspektive der Kameras nahe am Gesicht kann die Mimik nicht einfach eins zu eins vom Menschen auf den Avatar übertragen werden. Stattdessen muss sie mit KI-Verfahren originalgetreu rekonstruiert und interpretiert werden. Bild: Facebook

Das 3D-Modell des Avatars wiederum wird vorab in einem aufwendigen und teuren 3D-Fotostudio erstellt.

In dieser Fotobox werden die 3D-Modelle abfotografiert. Für den Endverbraucher ist das zu aufwendig. Bild: Facebook

In dieser Fotokugel werden die 3D-Modelle abfotografiert. Für Endverbraucher ist dieser Prozess noch zu aufwendig. Bild: Facebook

Die Fotokugel von innen. Bild: Facebook

Die Fotokugel von innen. Bild: Facebook

Facebooks Ziel ist es laut Sheikh, dass all diese Technologie letztlich in nur eine kabellose VR-Brille integriert ist, die man aufsetzt und das Telepräsenz-Telefonat funktioniert. “Wir wissen noch nicht, ob das möglich sein wird”, sagt Sheikh.

Der nächste Schritt sei es, neben dem Kopf auch den gesamten Körper einzuscannen und zu animieren.

Facebook will nach dem Kopf auch den Rest des menschlichen Körpers realistisch in VR übertragen. Erste Experimente laufen bereits. Bild: Facebook

Facebook will nach dem Kopf auch den Rest des menschlichen Körpers realistisch in VR übertragen. Erste Experimente laufen. Bild: Facebook

Eine besonderes haarige Angelegenheit sei die 3D-Rekonstruktion von Frisuren. Allerdings wurden hier laut Sheikh mit KI-Verfahren in den letzten Monaten deutliche Fortschritte erzielt.

Noch verbesserungswürdig: Die realistische Darstellung menschlicher Frisuren in VR. Bild: Facebook

Die realistische Darstellung menschlicher Frisuren in VR ist eine besondere Herausforderung, gerade wenn diese sehr wild und wuschelig sind. Bild: Facebook

Laut Sheikh haben maschinelle Lernverfahren den Scan-Prozess vereinfacht bei besseren Ergebnissen. Bild: Facebook

Laut Sheikh haben maschinelle Lernverfahren den Scan-Prozess vereinfacht bei besseren Ergebnissen. Einzelne Haarsträhnen sollen jetzt akkurat digitalisiert werden können. Bild: Facebook

Augenkontakt gelingt noch nicht

Nicht gelöst ist laut Sheikh virtueller Augenkontakt, der bei aktuellen Codec-Avataren aufgrund der Kameraverzerrung noch nicht gelingt – so ähnlich wie man sich bei Videokonferenzen nicht in die Augen sehen kann, weil die Parteien als Referenzpunkt für die Augen nur die Position der Webcam haben.

Virtueller Augenkontakt sei noch “komplett daneben”, sagt Sheikh. In den Codec-Demovideos schauen die VR-Brillenträger daher immer leicht nach unten weg.

Außerdem seien die Emotionen in den Avatar-Gesichtern noch gedämpft. Sie zeigten nicht die volle emotionale Bandbreite des menschlichen Gesichts.

“Das sind die beiden größten Limitierungen, an denen wir noch arbeiten”, sagt Sheikh.

AR-Avatare sind noch Zukunftsmusik

Die Darstellung der Codec-Avatare in Augmented Reality sei noch weiter entfernte Zukunft. “Für mich ist VR der erste Schritt und mit AR kommen viele Herausforderungen hinzu”, sagt Sheikh.

Wenn ein Codec-Avatar in die Realität eingebettet werden solle, müsse sich zum Beispiel das reale Umgebungslicht korrekt auf ihm brechen. Außerdem sei nicht klar, wo man an AR-Brillen die Trackingkameras anbringen könne. “AR ist deutlich schwieriger als VR”, sagt Sheikh.

Allerdings sind auch die VR-Avatare laut Sheikh noch “weit von einem Produkt entfernt” und “tief in der Forschungsphase”. “Es gibt viele, viele Probleme, die uns noch lange begleiten werden”, sagt Sheikh. Die aktuellen Ergebnisse würden nur die Richtung zeigen, in die sich Facebook bewege.

Sheikhs vollständigen Vortrag gibt es im folgenden Video. Der Facebook-Forscher geht auf viele technische Details und Fragen aus dem Publikum ein.

Titelbild: Facebook

Weiterlesen über Telepräsenz:


MIXEDCAST #169: Deepfake-Hollywood und VR-Hoffnung Oberhausen | Alle Folgen


Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.