Ein KI-Experiment der Universität Carnegie Mellon wirft erneut die Frage auf: Wo sind die Grenzen maschineller Statistik?

KI-Forscher der Universität Carnegie Mellon haben ein neuronales Netzwerk darauf trainiert, passend zu einer Stimme ein Gesicht zu zeichnen. Die KI analysiert dafür einen kurzen Audioclip und zeigt dann, wie das Gesicht hinter der Stimme im echten Leben aussehen könnte.

Fürs KI-Training verwendeten die Forscher Millionen Internetvideos sprechender Personen. Die KI analysierte sowohl die Sprache als auch die Struktur des Gesichts und untersuchte mögliche Zusammenhänge. Außerdem wurden physische Faktoren wie Alter, Geschlecht und Herkunft berücksichtigt.

Die KI wühlte sich beim Training eigenständig durch die Daten, eine aufwendige Kennzeichnung vorab war nicht notwendig. Laut der Forscher liegen die Übereinstimmungen im Aussehen zwischen der halluzinierten und der tatsächlichen Person “deutlich über Zufallsniveau”. Die folgenden Beispiele zeigen einen Vergleich zwischen einer bild- und einer audiobasierten KI-Rekonstruktion.

Die bildbasierte KI-Rekonstruktion ist deutlich näher am Original als die Audiovariante. Bild: Carnegie Mellon University


Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.