Inhalt
newsletter Newsletter
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Nvidia forscht weiter an KI-generierten Videospielen. Eine neue KI kann Videos und 3D-Welten texturieren – und sich danach auch noch daran erinnern.

Im September 2018 veröffentlichte Nvidia in Kooperation mit dem Massachusetts Institute of Technology (MIT) eine Künstliche Intelligenz, die die sogenannte Video-zu-Video-Synthese beherrscht.

Solche KIs können bestimmte Inhalte oder Bewegungsmuster eines Videos ändern oder auf ein anderes Video übertragen. Das Prinzip erinnert an die weit verbreiteten Deepfakes, die Technik kann aber mehr: Nvidias KI tauscht Straßenbeläge, Häuserschluchten, Bäume oder Wetter aus. Oder sie lässt eine Statue tanzen.

Blick in die Vergangenheit

Mit Video-zu-Video-Synthese sollen KIs langfristig in der Lage sein, ausgehend von ausreichend Informationen über den Inhalt einer Szene, ein fotorealistisches Video oder eine 3D-Welt zu generieren.

Anzeige
Anzeige

Dafür erstellen die Forscher zuerst eine sogenannte semantische Maske, mit der Objekte wie Häuser, Bäume oder Autos im Ausgangsmaterial klassifiziert werden. Die KI liest diese Informationen aus und generiert passende Oberflächen und Farben.

Nvidias KI generiert aus der semantischen Maske eine Straßenszene. | Bild: Nvidia.
Nvidias KI generiert aus der semantischen Maske eine Straßenszene. | Bild: Nvidia

Das Ergebnis ist interessant, aber fehlerhaft: Fehlende Details, geometrische Artefakte oder zeitliche Ungereimtheiten wie ein Auto, das seine Farbe ändert. Viele dieser Fehler treten auf, da die KI vergesslich ist: Sie vergisst Autofarben, Gesichter oder Häuserfronten. Bei Objekten, die ununterbrochen im Fokus des Videos stehen oder mehrfach vorkommen, ist das ein Problem.

Konsistente Welt, glaubwürdige Videos?

Nvidia hat jetzt eine neue Variante der Video-KI veröffentlicht. In einer wissenschaftlichen Arbeit mit dem Titel „World-Consistent Video-to-Video Synthesis“ zeigen die Nvidia-Forscher beeindruckende Ergebnisse.

Das bisherige Problem sei, dass der KI „das Wissen über die dreidimensionale Welt fehlt, die gerendert wird, und sie jedes Bild nur auf Basis des letzten Bildes generiert“, schreiben die Forscher.

In einem Beispiel zeigen sie ein Auto, das zweimal die gleiche Stelle passiert und jedes Mal unterschiedlichen Straßenschildern oder Mittelstreifensituationen begegnet.

Empfehlung

Nvidia führt daher die Idee sogenannter Leitbilder ein, die die Texturierung des jeweils nächsten Bildes beeinflussen. Das Ziel der Leitbilder ist es, für konsistente Farben und Oberflächen im Video zu sorgen.

Dafür enthalten sie Tiefen- und Inhaltsinformationen aller bisher bekannten Bilder. Für das nächste generierte Bild dienen die Informationen des Leitbildes dann als Anhaltspunkt für Farben und Oberflächen.

So funktioniert das Leitbild in seiner einfachsten Form: Die KI generiert Farben und Oberflächen und reicht diese Informationen weiter an das Leitbild, das diese mit Tiefeninformationen speichert. Diese Information wird anschließend auf den neuen Kamerawinkel projiziert und das neue Bild generiert. | Bild: Nvidia.
So funktioniert das Leitbild in seiner einfachsten Form: Die KI generiert Farben und Oberflächen und reicht diese Informationen weiter an das Leitbild, das diese mit Tiefeninformationen speichert. Diese Information wird anschließend auf den neuen Kamerawinkel projiziert und das neue Bild generiert. | Bild: Nvidia.

Leitbilder helfen Konsistenz

Nvidias neue KI erzielt im direkten Vergleich zur Vorgängerin wesentlich konsistentere Ergebnisse. Die Variation in Farben und Oberflächen in den Testvideos ist zwar noch auffällig, aber viel näher an der erhofften Gleichmäßigkeit.

Oben die neue, unten die alte Methode. | Bild: Nvidia

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Als Trainingsmaterial nutzten die Nvidia-Forscher Straßenaufnahmen, Videos von Innenräumen und Videos der Mannequin Challenge, bei der Menschen wie Puppen stillhalten. Die KI schafft es, Details wie Gesichter und Farben relativ stabil zu halten.

Forscher wollen die Technik in Videospielen testen

Der neue Ansatz sei mit einiger Verbesserung tauglich für den Einsatz in Videospielen, so die Forscher. Dort könnte die KI etwa ganze Welten realistisch in Echtzeit texturieren. Bereits Ende 2018 demonstrierte Nvidia dieses Vorhaben mit einem KI-generierten Straßenzug.

In einer Testfahrt durch einen Unreal-Engine-Straßenzug zeigt die neue KI dann auch klare Verbesserungen gegenüber ihrer Vorgängerin: Auch nach einer Umrundung bleiben die Details dieselben.

Via: GitHub NVlabs

Weiterlesen über Künstliche Intelligenz:

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!