Deepfakes sind jetzt noch vielseitiger

KI-Forschende manipulieren Gesichter in Videos glaubhaft und konsistent mit Nvidias StyleGAN2. Deepfakes werden so noch vielseitiger.

Generative Adverserial Networks (GANs) bilden die Grundlage zahlreicher aktueller Methoden der Bildgenerierung und Bildmanipulation. Ein häufig eingesetztes Netz ist Nvidias StyleGAN, das erst kürzlich mit einigen Verbesserungen als StyleGAN3 veröffentlicht wurde.

StyleGAN kann glaubwürdige Bilder von Gesichtern, Tieren oder anderen Motiven generieren. Mit zusätzlichen Werkzeugen kann das Netz diese Bilder auch manipulieren. Ein Beispiel ist etwa StyleCLIP, das StyleGAN einsetzt, um Bilder nach Textbeschreibungen zu generieren und zu manipulieren.

StyleGAN bisher nicht für Videos geeignet - das ändert sich jetzt

Während die Generierung und Manipulation von einzelnen Bildern mit Künstlicher Intelligenz fotorealistische Ergebnisse erzeugen kann, ist die Verarbeitung von Videos nach wie vor eine große Herausforderung.

So lassen sich zwar einzelne Bilder generieren oder manipulieren und zu einem Video zusammenfügen. Doch die zeitliche Kohärenz von Bild zu Bild fehlt: Frisuren verschieben sich, Augen schauen plötzlich in eine andere Richtung oder die Beleuchtung im Gesicht ändert sich.

Um die Erfolge von GANs etwa bei der Bearbeitung von Gesichtern auf Videos zu übertragen, könnten GANs theoretisch mit Videos trainiert werden – doch das Vorhaben scheitert schon allein am Mangel an qualitativ hochwertigen Videos von Gesichtern. Modelle wie Nvidia StyleGAN benötigen dutzende Millionen Bilder für das KI-Training.

Neue Methode setzt StyleGAN für Videos ein

Wie eine neue Methode von KI-Forschenden der Tel Aviv University jetzt zeigt, ist ein Videotraining gar nicht nötig – zumindest für die Gesichtsmanipulation in kurzen Videoclips. Das Team setzt stattdessen auf eine erweiterte StyleGAN-Architektur, die die im ursprünglichen Video vorhandene zeitliche Kohärenz ausnutzt.

Zuerst trennt das KI-System das Video dafür in einzelne Bilder, aus denen das Gesicht ausgeschnitten und horizontal ausgerichtet wird. Anschließend generiert ein StyleGAN2-Modell mit einem e4e-Encoder für jedes Gesicht eine Kopie innerhalb des Netzes. Die Kopien werden anschließend mit den Originalen feinabgestimmt, um Ungenauigkeiten zu korrigieren und die Kohärenz zu sichern.

Video: Tzaban et al

Empfehlung

KI in der Praxis

OpenAI nennt GPT-4 Turbo das "smarteste" Modell, aber das bedeutet nicht viel

Anschließend werden die Kopien wie gewünscht bearbeitet – ein Lächeln wird eingefügt, ein Charakter verjüngt oder gealtert. Im vorletzten Schritt werden die entstandenen Gesichter und ihre Hintergründe zusammengefügt und abschließend in ein neues Video zusammengeführt.

Video: Tzaban et al

Die Ergebnisse sind beeindruckend, ebenso wie die Performance: Ein einzelnes Video kann auf einer Nvidia RTX 2080 in etwa 1,5 Stunden berechnet werden. Noch bestehende kleine Fehler, wie fehlende Zöpfe oder instabile Gesichtsmerkmale, wollen die Forschenden in Zukunft etwa mit dem Einsatz von StyleGAN3 beheben.

Video: Tzaban et al

Weitere Informationen sowie Beispiele und demnächst auch den Code gibt es auf der Projektseite von "Stitch it in T ime".

Deepfakes sind jetzt noch vielseitiger

StyleGAN bisher nicht für Videos geeignet - das ändert sich jetzt

Neue Methode setzt StyleGAN für Videos ein

OpenAI nennt GPT-4 Turbo das "smarteste" Modell, aber das bedeutet nicht viel

Weiterlesen über KI und Medien:

Med-Gemini und Meditron: Google und Meta stellen neue LLMs für Medizin vor

Open-Source-LLM Prometheus 2 soll andere Sprachmodelle bewerten und verbessern

OpenAI bereitet seine KI-Sicherheitsinfrastruktur für "fortgeschrittene KI" vor

Jenseits der Wortvorhersage: So könnte die Zukunft von KI-Sprachmodellen aussehen

KI-Forscher zeigen Lösungsansatz für eines der größten LLM-Probleme

Prompts mit vielen Beispielen verbessern die Leistung großer Sprachmodelle

Deepfakes sind jetzt noch vielseitiger

StyleGAN bisher nicht für Videos geeignet - das ändert sich jetzt

Neue Methode setzt StyleGAN für Videos ein

Weiterlesen über KI und Medien:

Artikel teilen

Bankverbindung