Facebooks fotorealistische Codec-Avatare könnten den Weg bereiten für eine neue Form der virtuellen Begegnung. Ein neues Forschungspapier beschreibt einen möglichen Durchbruch bei der Animationstechnik, der die Avatare schneller als gedacht auf VR-Brillen bringen könnte.

Facebook forscht weiter intensiv an den erstmals im Mai 2018 vorgestellten fotorealistischen Codec-Avataren für Virtual Reality: Auf 3D-Scans basierte und per KI modellierte Digitalköpfe sehen beinahe aus wie das Original.

Die Videos für das KI-Training werden in einem speziellen Aufnahmestudio (“Sociopticon”) mit 180 hochauflösenden Kameras gefilmt. Sie zeichnen das Gesicht von allen Seiten in hoher Auflösung (2.5 K mal 4K) und mit 90 Bildern pro Sekunde auf.

In so einer 3D-Fotobox werden Menschen zu Avataren. Zu Hause hat man die leider nicht stehen. | Bild: Facebook

In so einer 3D-Fotobox werden Menschen zu Avataren. Zu Hause hat man die leider nicht stehen. | Bild: Facebook

Die reale Mimik wird über Sensoren an und in der VR-Brille (Vergleich) in Echtzeit auf den Avatar übertragen. Diese direkte Mimik-Übertragung hat zwei Probleme: Sie ist technisch aufwendig, damit teuer, und fehleranfällig.

Audio-basierte KI-Gesichtsanimation schlägt Videoaufnahme

Facebook-Forscher testeten daher jetzt, wie gut eine Künstliche Intelligenz Gesichtsanimationen nur anhand von Audio und Eye-Tracking schätzen kann. Das Ziel der Forscher: Die Codec-Avatare sollen mit Standard-VR-Brillen laufen. Eye-Tracking wird voraussichtlich in Next-Gen-Brillen wie Oculus Half Dome verbaut sein. Mikrofone für Audioaufnahmen stecken schon in den aktuellen Geräten.

Für ihren Versuch sammelten die Forscher fünf Stunden hochwertiges Videomaterial von drei in 3D eingescannten Gesichtern. Die Probanden sprachen sowohl neutral als auch expressiv mit maximalem Gesichtsmuskeleinsatz.

Mit diesen Daten trainierten die Forscher eine KI (Deep Appearance Model), die so konfiguriert wurde, dass sie Audio- und Eye-Tracking-Daten zusammen auswertet, das Gesicht in die jeweiligen Bereiche aufteilt (Augen, Nase, Mund, etc.) und dynamisch bestimmt, welcher Teil des Codec-Gesichts anhand welcher Daten animiert wird.

Das Ergebnis seht ihr in folgendem Video: Die KI-Schätzung funktioniert gerade bei der Audioversion im Vergleich zur direkt per Sensor aufgezeichneten Mimik (“Tracked”) ziemlich gut – die Abweichungen sind zumindest in dieser Demonstration in einem ethisch vertretbaren Rahmen.

“Mit unserer Arbeit zeigen wir, dass man allein anhand unbearbeiteter Audiodaten ausdrucksstarke Gesichter animieren kann”, schreiben die Forscher im Fazit ihrer Forschungsarbeit.

Speziell die Lippenanimation gelinge auf Audiobasis teils besser als bei Systemen, die Kameras auf Mund und Augen richten. In der Zukunft könnten Audio- und Video-basierte Animationsverfahren miteinander vermischet werden, schreiben die Forscher.

Noch nicht klar ist, in welchem Umfang die KI-basierte Modellierung und Animation der Codec-Gesichter generalisiert werden kann, damit nicht jeder VR-Nutzer in ein spezielles Aufnahmestudio rennen und sich in 3D einscannen lassen muss. Ein Feintuning der vortrainierten KI per Few-Shot-Learning (Erklärung) wäre bei den Gesichtsanimationen denkbar, Deepfake-Technolgoie könnte vielleicht beim Avatar-Gesichtertausch helfen. Weitere Forschung ist in jedem Fall nötig.

Quelle: Forschungspapier, Facebook

Weiterlesen über Facebooks XR-Forschung:

steady2

MIXED.de XR-Podcast - jetzt reinhören

Aktuell: Ist KI wirklich intelligent? | Alle Folgen


Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.