Ein Twitter-Beitrag zeigt, wie rasant sich KI-generierte Bilder und Videos entwickelt haben. Dieser Artikel beschreibt die wichtigsten Meilensteine.

Was haben alle Personen im Titelbild gemeinsam? Sie existieren nicht. Eine KI hat sie sich ausgedacht. Genauer: Sie hat sie generiert am Beispiel Millionen ähnlicher Pixelstrukturen.

Erstellt habe ich die Bilder auf der Website thispersondoesnotexist.com. Das schafft jeder, der mit einer Maus klicken kann. Klappt auch für Katzen.

Möglich werden solche realistischen Fake-Porträts durch die Erfindung sogenannter “Generative Adversarial Networks” (GAN). Diese Netzwerke bestehen aus zwei KI-Agenten: Einer fälscht ein Bild, der andere versucht, die Fälschung zu erkennen. Fliegt die Fälschung auf, passt sich die Fälscher-KI an und wird besser.

So werden beide Agenten im Laufe des Trainings in ihrer jeweiligen Disziplin immer effizienter – und die generierten Bilder glaubwürdiger.

GAN ist nicht gleich GAN

In der Praxis gibt es einen großen Unterschied zwischen den Ergebnissen des Ur-GANs und jenen aktueller GAN-Varianten.

Ein Twitter-Beitrag von Ian Goodfellow, seit kurzem KI-Chef bei Apple, zeigt die Entwicklung der letzten Jahre. Goodfellow gilt als Erfinder des ersten GAN-Verfahrens.

Eine kurze GAN-Geschichte

Ein Blick auf die von Goodfellow verlinkten wissenschaftlichen Arbeiten macht deutlich, wie neue KI-Architekturen in Kombination mit größeren Datenmengen und schnelleren Rechnern zur rasanten Entwicklung sogenannter Deepfakes führten.

2014:

Goodfellow veröffentlicht mit Kollegen eine wissenschaftliche Arbeit, in der erstmals ein GAN vorgestellt wird. Es ist die Geburtsstunde der GAN-KIs und die technische Grundlage der Deepfakes, über die wir heute intensiv diskutieren.

GAN Goodfellow 2014

Schon 2014 deutet sich an, dass GANs glaubwürdige Gesichter erzeugen können. Bild: Goodfellow et al. 2014

2015:

Forscher kombinieren GANs mit den für Bilderkennung optimierten, mehrschichtigen Konvolutionalen Neuronalen Netzwerken (CNN), die viele Daten parallel verarbeiten können und besonders gut auf Grafikkarten laufen. Sie ersetzen einfachere Netzwerke, die zuvor die GAN-Agenten antrieben. Die Ergebnisse werden glaubwürdiger.

CNN GAN 2015

Die komplexere Struktur konvolutionaler Netzwerke ermöglicht glaubwürdigere Fake-Menschen. Realistisch sind die Porträts 2015 noch nicht. Bild: Radford et al. 2015

2016:

Forscher kombinieren zwei GANs: Die Agenten der verschiedenen Netzwerke teilen untereinander Informationen. So lernen sie parallel.

Die gelernten Daten werden von jedem Agenten leicht modifiziert. So ist es etwa möglich, eine Person mit und ohne Sonnenbrille zu generieren. Die Fake-Porträts werden erneut glaubwürdiger, aber sind noch immer eindeutig als Fälschung zu erkennen.

GAN coupled 2016

Mit gekoppelten GANs können die künstlichen Menschen jetzt auch Sonnenbrillen aufziehen oder Schmuck tragen. Die Gesichter selbst haben noch viele Bildfehler. Bild: Ming-Yu Liu et al. 2016

2017:

Nvidia-Forschern gelingt ein großer Qualitätssprung, indem sie ein wesentliches Problem bisheriger GANs lösen:

Die Generator-Agenten produzierten häufig Bilder mit geringer Auflösung, da diese vom Prüfer-Agenten schwerer als Fälschung zu entlarven sind – mehr Pixel bedeuten potenziell mehr Fehlerquellen. Es ergibt also Sinn für die Fälscher-KI, hohe Auflösungen zu vermeiden, um am Prüfer-Agenten vorbeizukommen.

Nvidias Lösung: Das Netzwerk wird stufenweise trainiert. Zunächst lernt die Fälscher-KI, niedrigauflösende Bilder zu erstellen. Dann wird die Auflösung schrittweise erhöht.

GAN progressive 1

Das GAN wird Stufe für Stufe an hohe Auflösungen herangeführt. Bild: Nvidia 2017

Das so stufenweise wachsende GAN produziert Fake-Porträts in bisher unbekannter Qualität: Die Bilder haben zwar noch Fehler, können aber Menschen, die nicht ganz genau hinschauen, durchaus übertölpeln.

GAN progressive 2

Die 2017 generierten Gesichter übertreffen bisherige Ergebnisse und sind teils kaum als KI-Produkt zu erkennen. Bild: Nvidia 2017

Während Nvidia die eigenen GANs noch verbessert, bringt der Reddit-Nutzer “deepfakes” die Technologie in den Mainstream: Im Herbst 2017 tauchen die ersten nach ihm benannten Deepfake-Pornos auf, in denen die Gesichter von Pornodarstellerinnen mit denen prominenter Frauen ausgetauscht werden.

Die Bezeichnung Deepfake gilt seitdem synonym für KI-generierte Bilder und Videos. Das “Deep” bezieht sich auf die in vielen Schichten aufgebauten neuronalen Netze (Deep Learning), die bei der Bildgenerierung mitarbeiten.

Deepfake-Pornos sind zwar noch leicht als Fälschung zu erkennen, doch der Herstellungsaufwand ist so gering, dass sich bei Reddit und anderen Online-Plattformen innerhalb kurzer Zeit tausende Nutzer zusammenrotten, um explizite Videos zu erstellen.

Die bekannte US-Schauspielerin Scarlett Johansson, deren Gesicht besonders häufig für KI-Pornos missbraucht wurde, bezeichnete das Internet in diesem Kontext später als “dunkles Wurmloch”.

2018:

Erneut Nvidia-Forschern gelingt es, ihr GAN besser zu steuern: Sie können einzelne Bildmerkmale gezielt vorgeben, bei Porträts zum Beispiel “dunkle Haare” und “Lächeln”.

So lassen sich die Eigenschaften von Trainingsbildern gezielt auf KI-generierte Bilder übertragen. Der sogenannte Style-Transfer (siehe Video unten) wird ein wichtiger Bestandteil vieler folgender KI-Projekte.

GAN Transfer

Durch den Style-Transfer kann die Bild-KI gezielt gesteuert werden, beispielsweise um ausschließlich Bilder lächelnder Personen zu erstellen. Bild: Nvidia 2018

Das GAN-Prinzip funktioniert natürlich nicht nur für Porträts: Der KI ist es völlig egal, welche Art von Pixelstruktur sie ausgibt. Sie benötigt nur entsprechende Trainingsdaten.

Ende 2018 zeigt Googles KI-Schwester Deepmind zum Beispiel KI-generierte Lebensmittel, Landschaften und Tiere, die beeindruckend glaubhaft aussehen.

Die Software Deep Video Portrait verbessert die Video-Manipulation mittels GANs und erste auf Deepfakes spezialisierte YouTube-Kanäle entstehen: Gefälscht werden längst nicht mehr nur Pornos, sondern alle Arten von Videos, zum Beispiel von Politikern oder großen Hollywood-Streifen. Erstmals wird diskutiert, dass KI-Verfahren schon verstorbene Schauspieler digital wiederbeleben könnten.

Und Deepfake-Pornos geht es an den Kragen: Im ersten Quartal 2018 bannen Pornhub, Twitter, Gfycat und Reddit die Fake-Pornos von ihren Plattformen. Die Webseite der vielgenutzten Deepfake-App geht offline.

Deepfake-Hype: Kein Ende in Sicht

Mittlerweile können KIs in Windeseile unendlich viele und täuschend echte Porträtfotos generieren. Das zeigt zum Beispiel die eingangs erwähnte Webseite thispersondoesnotexist.com.

Sind wir jetzt auf dem Höhepunkt der GAN-Leistung angekommen? Sicher nicht.

Im Gegenteil: Die Modelle werden vielseitiger und beherrschen zunehmend auch Bewegtbild. Von künstlich generierten Straßenzügen für ein Computerspiel bis zu menschlichen Schauspielern, die komplett durch andere ersetzt werden – zum Beispiel Schwarzenegger durch Sly Stallone in seiner Rolle als Terminator.

Der KI-Spezialeffekt beschränkt sich längst nicht mehr auf menschliche Gesichter: Eine kürzlich vorgestellte GAN-KI von Samsung kann zum Beispiel der Mona Lisa ein animiertes Lächeln ins Gesicht zaubern.

In Zukunft dürften GANs völlig selbstverständlich in der Film- und Videospielindustrie eingesetzt werden. Auch Laien können mit der Technologie hollywoodreife Spezialeffekte generieren und Fotos und Videos wie Profis verändern. Industriespione verwendeten KI-Porträts für Fake-Accounts bei Linkedin.

Als der GAN-Erfinder Goodfellow 2014 seine Arbeit vorstellte, hat er diese Entwicklung wohl nicht vorhergesehen. Heute jedenfalls warnt er: Menschen dürften Bildern und Videos im Netz zukünftig nicht mehr wie selbstverständlich Glauben schenken.

Die Menschheit sei in der Vergangenheit ohne Videos und Fotos ausgekommen, um sich zu informieren und sich eine Meinung zu bilden. “In diesem Fall schließt die Künstliche Intelligenz einige Türen, die unserer Generation für gewöhnlich offenstanden”, sagt Goodfellow.

Weiterlesen über Deepfakes:


MIXEDCAST #160: Ubsioft-VR, Kuro AR-Brille und Deepfake-App Zao | Alle Folgen


Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.