Inhalt
newsletter Newsletter
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

KI-Forschende manipulieren Gesichter in Videos glaubhaft und konsistent mit Nvidias StyleGAN2. Deepfakes werden so noch vielseitiger.

Generative Adverserial Networks (GANs) bilden die Grundlage zahlreicher aktueller Methoden der Bildgenerierung und Bildmanipulation. Ein häufig eingesetztes Netz ist Nvidias StyleGAN, das erst kürzlich mit einigen Verbesserungen als StyleGAN3 veröffentlicht wurde.

StyleGAN kann glaubwürdige Bilder von Gesichtern, Tieren oder anderen Motiven generieren. Mit zusätzlichen Werkzeugen kann das Netz diese Bilder auch manipulieren. Ein Beispiel ist etwa StyleCLIP, das StyleGAN einsetzt, um Bilder nach Textbeschreibungen zu generieren und zu manipulieren.

StyleGAN bisher nicht für Videos geeignet - das ändert sich jetzt

Während die Generierung und Manipulation von einzelnen Bildern mit Künstlicher Intelligenz fotorealistische Ergebnisse erzeugen kann, ist die Verarbeitung von Videos nach wie vor eine große Herausforderung.

Anzeige
Anzeige

So lassen sich zwar einzelne Bilder generieren oder manipulieren und zu einem Video zusammenfügen. Doch die zeitliche Kohärenz von Bild zu Bild fehlt: Frisuren verschieben sich, Augen schauen plötzlich in eine andere Richtung oder die Beleuchtung im Gesicht ändert sich.

Um die Erfolge von GANs etwa bei der Bearbeitung von Gesichtern auf Videos zu übertragen, könnten GANs theoretisch mit Videos trainiert werden – doch das Vorhaben scheitert schon allein am Mangel an qualitativ hochwertigen Videos von Gesichtern. Modelle wie Nvidia StyleGAN benötigen dutzende Millionen Bilder für das KI-Training.

Neue Methode setzt StyleGAN für Videos ein

Wie eine neue Methode von KI-Forschenden der Tel Aviv University jetzt zeigt, ist ein Videotraining gar nicht nötig – zumindest für die Gesichtsmanipulation in kurzen Videoclips. Das Team setzt stattdessen auf eine erweiterte StyleGAN-Architektur, die die im ursprünglichen Video vorhandene zeitliche Kohärenz ausnutzt.

Zuerst trennt das KI-System das Video dafür in einzelne Bilder, aus denen das Gesicht ausgeschnitten und horizontal ausgerichtet wird. Anschließend generiert ein StyleGAN2-Modell mit einem e4e-Encoder für jedes Gesicht eine Kopie innerhalb des Netzes. Die Kopien werden anschließend mit den Originalen feinabgestimmt, um Ungenauigkeiten zu korrigieren und die Kohärenz zu sichern.

Video: Tzaban et al

Empfehlung

Anschließend werden die Kopien wie gewünscht bearbeitet – ein Lächeln wird eingefügt, ein Charakter verjüngt oder gealtert. Im vorletzten Schritt werden die entstandenen Gesichter und ihre Hintergründe zusammengefügt und abschließend in ein neues Video zusammengeführt.

Video: Tzaban et al

Die Ergebnisse sind beeindruckend, ebenso wie die Performance: Ein einzelnes Video kann auf einer Nvidia RTX 2080 in etwa 1,5 Stunden berechnet werden. Noch bestehende kleine Fehler, wie fehlende Zöpfe oder instabile Gesichtsmerkmale, wollen die Forschenden in Zukunft etwa mit dem Einsatz von StyleGAN3 beheben.

Video: Tzaban et al

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Weitere Informationen sowie Beispiele und demnächst auch den Code gibt es auf der Projektseite von "Stitch it in Time".

Weiterlesen über KI und Medien:

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!