Forscher stellen eine KI vor, die dank textbasierter Manipulation jeden alles sagen lassen kann. Sie könnte zum Beispiel dafür sorgen, dass Filme zukünftig in jeder Sprache lippensynchron sind.

Die neue Deepfake-KI ist ein Gemeinschaftsprojekt mehrerer Forschungseinrichtungen. Beteiligt sind unter anderem die US-Universitäten Stanford und Princeton sowie das deutsche Max-Planck-Institut für Informatik.

Das Ergebnis ist eine Künstliche Intelligenz, die Mundbewegungen einer Person in einem Video passend zu geschriebenem Text animieren kann.

Wie ein Lautbaukasten

Die KI erstellt zunächst ein Modell der Mundpartie der Person, transkribiert dann die Audioaufnahme des Ursprungsvideos in ihre einzelnen Lautbestandteile und lernt die zu den Lauten gehörenden Mundbewegungen.

Deepfake Ohad Fried 1

Die KI analysiert Bild und Ton des Ursprungsvideos. So lernt sie, Laute und Mundbewegungen miteinander zu verknüpfen. Bild: Fried et al.

Aus diesen Lautbestandteilen kann die KI passende Mundbewegungen für neue Worte erstellen und über das Gesicht einer Person in einem Video legen.

Der Effekt wird minimalinvasiv eingefügt, nur die Mundpartie wird ausgetauscht. Hintergrund, Gestik oder Augenbewegungen bleiben unverändert.

Die Veränderungen im Video sind denkbar einfach zu steuern: Die Forscher müssen nur das Transkript verändern – reine Textarbeit also.

Deepfake Ohad Fried 2

Der transkribierte Text des Videos kann beliebig verändert werden. Die KI legt die zum Text passenden Mundbewegungen über das Gesicht. Bild: Fried et al.

Am Ende lassen sich so Wörter oder ganze Sätze hinzufügen, entfernen oder leicht verändern. Die Forscher lassen zum Beispiel den Preis einer Aktie sinken oder einen Amerikaner Deutsch sprechen.

Allerdings kann die KI die passende Stimme noch nicht künstlich generieren, das schränkt ihr Manipulationspotenzial ein. KIs, die Stimmen kopieren können, sind ebenfalls in Entwicklung.

Lippensychrone Sprachversionen

Ohad Fried, leitender Forscher des Projekts, sieht nützliche Anwendungen in der Filmindustrie. So könne die KI etwa eine Erzählerin unterschiedliche Geschichten erzählen lassen, ohne mehrere Videos aufnehmen zu müssen. Das sei nützlich, wenn man etwa verschiedene Altersklassen erreichen möchte.

Naheliegend sei auch die Anwendung für die Lokalisierung von Unterhaltungsmedien. Die KI könnte den Aufwand bei Synchronisationen senken und gleichzeitig deren Qualität steigern, indem sie die Lippen der Schauspieler passend zu den Stimmen der Synchronsprecher bewegt.

Fried bezieht auch zu den Risiken Stellung: Ein Missbrauch der Technologie sei leicht, aber er hoffe, dass die Veröffentlichung Debatten, politische Regulierungen und die Erforschung von Gegenmaßnahmen anregt.

Quelle: Arxiv.org

Weiterlesen über Künstliche Intelligenz:


MIXED-Podcast #150: Valve Index und Apples AR-Augen | Alle Folgen


Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.