
Künstliche Intelligenz kann vielleicht keine Emotionen empfinden – analysieren hingegen, das geht schon.
KI-Entwickler des auf Emotionsmessung spezialisierten Unternehmens “Affectiva” stellen eine Künstliche Intelligenz vor, die Wut in der Stimme innerhalb von 1,2 Sekunden verlässlich erkennen können soll. Laut der Entwickler ist das nur unwesentlich langsamer als ein Mensch. Affectiva entstand 2009 als Ausgründung des MIT Media Labs.
Als technische Grundlage diente den Entwicklern das auf Audioanalyse vortrainierte neuronale Netzwerk “Soundnet”. Es kann Objekte in Videos anhand ihres Klangs erkennen.
Für die Wut-Erkennung trainierten die Entwickler das Netz zusätzlich mit Videomaterial, das kommentierte Emotionen enthält, darunter Wut. Sie setzten also auf der mit allgemeinen Audio- und Videodaten trainierten Künstlichen Intelligenz mit einem Spezialtraining auf.
Weniger Daten für den Erfolg
Dieses sogenannte Transferlernen macht KI-Training effizienter: Da die Entwickler der Künstlichen Intelligenz das Hören nicht von Grund auf beibringen mussten, reichte ihnen für das Emotionstraining ein überschaubarer Datensatz (IEMOCAP) mit rund zwölf Stunden audiovisuellen Daten. Als Vergleich: Soundnet wurde mit zwei Millionen Videos trainiert, die umgerechnet einem Jahr Videomaterial entsprechen.
[ad…