Face-Tracking in VR & KI-Emotions-Analyse: Herausforderungen und Praxis-Tipps

26.08.2023 MIXED / Tobias Weilandt

Bild: MIXED

Der Artikel kann nur mit aktiviertem JavaScript dargestellt werden. Bitte aktiviere JavaScript in deinem Browser und lade die Seite neu.

Besondere Herausforderungen von Emotion-AI in Verbindung mit Face-Tracking in VR abseits von Hardware. Und: 8 Praxistipps für deinen Projektstart.

Von Tobias Weilandt

Die Vielfältigkeit der Kulturen auf dieser Welt ist großartig und überwältigend zugleich. Rund 6500 Sprachen zählen wir auf diesem Planeten, die sich nicht nur syntaktisch und semantisch stark voneinander unterscheiden. Aber wir Menschen kommunizieren nicht nur mittels Sprache, sondern auch durch Gestik und Mimik. Die können sich je nach Kultur ebenfalls stark unterscheiden, was gelegentlich zu Missverständnissen führt, wollen sich Vertreter:innen unterschiedlicher Gemeinschaften miteinander austauschen.

Es sind genau diese Kulturdifferenzen, die Entwickler:innen vor große Herausforderungen stellen, wenn sie etwa mittels Gesichts-Tracking in VR und Künstlicher Intelligenz Emotionen für Anwendungen (etwa die Auswertung von Konsumverhalten) auswerten. Abseits hardwarebedingter Unzulänglichkeiten müssen unter anderem kulturelle Tatsachen bei der Entwicklung von und mit Emotion-AI (in Kombination mit VR) berücksichtigt werden.

Was ist Emotion-AI?

Unter Emotion-AI (Fachdisziplin: Affective Computing) verstehen wir die Entwicklung von Machine-Learning-Algorithmen, die Informationen über Menschen erfassen und diese Daten hinsichtlich bestimmter Muster als Emotions-Kategorien auswerten. Diese Informationen können etwa die Mimik, Stimme (unter anderem Prosodie) und Gestik einer Person sein. Gedankenlesen mittels VR und KI oder Emotion-AI sind bis heute stark umstritten. Nicht nur, dass die Auswertung und Nutzung von Analysedaten einige enorme Herausforderungen beim Datenschutz mit sich bringen, es handelt sich dabei auch um einen sehr sensiblen Informationsbereich.

Hinzu kommen systematische Verzerrungen aufgrund unausgereifter Hardware, Software und Datenlage. Nehmen wir etwa die VR-Brille Vive Pro Eye und ergänzen sie durch den Vive Facial Tracker, werden Lippen, Wangen, Kiefer, Mund und Kinn nachverfolgt, nicht aber die Augenbrauen. Das funktioniert bei der Übertragung von Mimik auf Avatare in VR bereits hervorragend. Diese Daten aber mithilfe von KI so auszuwerten, dass eindeutige Gefühlstypen zugeordnet werden können, ist schwierig, aber nicht unmöglich.

Weder die bisherigen "künstlichen Intelligenzen", noch der Mensch selbst sind in der Lage, auf der Grundlage von Mimik hundertprozentig auf die korrekte Emotion beim Gegenüber zu schließen. KI und Menschen irren sich regelmäßig, wenn sie nur Gesichtsausdrücke für die Interpretation berücksichtigen. Daher ist es sinnvoll, mit multimodalen Daten (optische, audiovisuelle und physiologische Daten) zu arbeiten und etwa die Tonlage der Stimme bei der Emotionserkennung zu berücksichtigen. Tatsächlich weisen Studien darauf hin, dass Menschen anhand der Stimme besser erkennen können, in welcher Gefühlslage sich jemand gerade befindet. Was die Verarbeitung und Anwendung solcher multimodalen Daten angeht, bietet künstliche Intelligenz immer vielversprechendere Lösungen.

Wissenschaftliche Datenbanken unterstützen Emotions-Analyse mit KI & VR

Allein mit einer VR-Brille, etwa Pico 4 Enterprise und Zubehör wie dem Facial Tracker von HTC, ist die verlässliche Auswertung von Emotionen nicht möglich, denn diese liefern allein die Metriken, ohne sie aber bereits als spezifische Emotions-Kategeorie interpretieren zu können. Um mimische Ausdrücke auszuwerten, wird eine KI benötigt, die für eine Klassifikationsanalyse ausreichend trainiert wurde. Sie muss die Kontraktionen bestimmter Gesichtsmuskeln (Datenpunkte werden hier in VR übermittelt) als musterhaften Ausdruck von Gefühlen erkennen.

MIXED.de ohne Werbebanner
Zugriff auf mehr als 9.000 Artikel

Kündigung jederzeit online möglich

ab 3,50 € / Monat

Jetzt unterstützen

Um nicht selbst eine umfangreiche Trainingsdatenbank für die eigene KI erstellen zu müssen, stehen unter anderem wissenschaftliche Datensammlungen zur Verfügung. Open Source sind solche wissenschaftlichen Datenbanken aber meistens leider nicht. Man muss mit den Forschungsinstituten verhandeln oder sich gleich eine starke wissenschaftliche Einrichtung ins Boot holen, mit der man gemeinsam ein Forschungsprojekt durchführen kann, an dessen Ende etwa ein neues Produkt steht.

Nicht alle Emotionen können getrackt werden

Welche Emotionen sollen es denn nun sein, die von der VR-Brille über die KI in deine Auswertungsplattform laufen sollen? Möchtest Du Schamgefühle deiner User:innen auswerten, wenn sie ein virtuelles Szenario durchlaufen und realisieren, dass sie gerade einen groben Fehler begangen haben? Willst du tracken, ob deine Nutzer:innen Stolz empfinden, wenn sie in VR eine schwierige Aufgabe (kollaborativ) gelöst haben? Dann habe ich schlechte Nachrichten für dich: Gefühle wie Scham und Stolz sind kulturdifferent, das heißt, sie werden nicht in jeder Kultur mimisch gleich ausgedrückt.

Tatsächlich gelten nur maximal sechs Emotionen als kulturindifferent und werden deshalb kulturübergreifend verstanden. Zwar streiten bis heute Psycholog:innen (primär die Schulen um Caroll E. Izard und Paul Ekman) darüber, warum nur bestimmte Emotions-Ausdrücke überall gleich oder zumindest ähnlich sind, was die Auswahl erschwert. Letztlich treffen sich aber beide in der vagen Behauptung, die sogenannten „Basis-Emotionen“ seien Resultat evolutionärer Prozesse.

„Basis-Emotionen“ umfassen Freude, Trauer, Überraschung, Ekel, Angst und Wut. Die Forschungsteams, die die Positionen von Caroll E. Izard und Paul Ekman vertreten, definieren anhand unterschiedlicher Kriterien mitunter verschiedene Gefühle als Basis-Emotionen. Die Schnittmenge beider Positionen ist allerdings sehr hoch. Im Falle von Freude, Angst, Wut, Trauer und Ekel sind sie sich einig. Hinsichtlich des Gefühls der Überraschung besteht zumindest eine sehr starke Tendenz, diese auch in das Spektrum der Grundgefühle einzuordnen.

Es reicht völlig aus, wenn du dich bei der Analyse auf diese Basis-Kategorien beschränkst. Stelle dabei aber auf jeden Fall sicher, dass alle Nutzenden deine VR-Anwendung vollumfänglich nutzen können. Andernfalls musst du damit rechnen, dass eben nicht alle potenziellen Nutzer:innen den vollen Leistungsumfang deiner Software mit Emotions-Auswertung nutzen können. Damit könntest du Menschen aufgrund ihrer ethnischen Herkunft benachteiligen, denn nicht alle Gefühle sind „Basis-Emotionen“ und werden in jeder Kultur auf die gleiche Weise ausgedrückt.

Was musst du beim Face-Tracking mit VR und der Emotionsanalyse mit KI beachten?

Beachte unbedingt die Vorgaben des Datenschutzes, etwa Art. 4 Nr. 4 DSGVO zum Thema Profiling. Viele der heute erhältlichen VR/AR-Brillen besitzen LIDAR-Arrays, Mikrofone und Tracking-Sensoren, beispielsweise für Eye- und Position-Tracking, die verschiedene Telemetriedaten erheben.
Allein aus diesen Daten können sehr persönliche Profile erstellt werden. Das zeigten einige Studien, etwa die Untersuchung der UC Berkely und der Universität Würzburg mit über 1000 Proband:innen oder eine Studie zu VR-Bewegungsdaten der Universität Stanford. Emotion-AI und die Nutzung der Ergebnisse ist mindestens als genauso sensibel einzuschätzen.
Informiere dich über passende VR-Hardware und teste, welche am besten passt. Face-Tracking bieten etwa die Pico 4 Enterprise und Meta Quest Pro. Nicht jede Hardware bietet dabei ein brauchbares Tracking. Außerdem bleibt abzuwarten, ob künftig auch die Augenbrauen als wichtiger Bestandteil der Mimik getrackt werden – werden deren Bewegungen nicht berücksichtigt.
Definiere klare Ziele, zu welchem Zweck du Emotionen tracken willst.
Für wen sollen sie ausgewertet werden?
Welche Emotionen willst du tatsächlich tracken? (siehe oben die Ausführungen zu "Basis-Emotionen").
Wie sollen die ausgewerteten Daten dargestellt oder für Nutzende zur Verfügung gestellt werden? Die Darstellung der Analysen sollte möglichst klar und intuitiv zu verstehen sein.
Such dir einen starken wissenschaftlichen Partner, der Input für das KI-Training für eine Klassifikationsanalyse liefern kann.
Nutze bereits bestehende Datenbanken, um Trainingsmaterial für die KI zu bekommen, etwa das Amsterdam Dynamic Facial Expression Set.
Teste mit verschiedenen Nutzer:innen, ob das VR-Face-Tracking und die Interpretation durch die KI die gewünschten Daten liefern.

Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.