KI und Kunst

Stable Diffusion: Bild-KI erzeugt VR-Traumwelten

8.10.2022 Matthias Bastian

Bild: Scottie Fox via Twitter

Der Artikel kann nur mit aktiviertem JavaScript dargestellt werden. Bitte aktiviere JavaScript in deinem Browser und lade die Seite neu.

Ein Entwickler gibt mit der Bild-KI Stable Diffusion einen Ausblick auf die VR-Zukunft mit generativer KI.

Generative KI-Systeme für Text, Bild, Audio, Video und 3D haben in den letzten Monaten enorme Fortschritte erzielt. Sie haben das Potenzial, Arbeitsprozesse zu verändern, oder tun es bereits, und befähigen einzelne Personen, audiovisuell anspruchsvolle Medien zu generieren.

Generative KI ist auch die Grundlage für eine weitere Verbreitung von 3D-Inhalten - ähnlich, wie das Smartphone-Kameras für Fotografie leisteten. Das bekannte Risikokapitalunternehmen Sequoia Capital aus dem Silicon Valley geht davon aus, dass die aktuellen generativen KI-Systeme die Vorhut für eine Computer-Revolution sind.

___STEADY_PAYWALL___

Ein Entwickler demonstriert das Potenzial generativer KI jetzt anhand einer VR-Welt, die von der Open-Source Bild-KI Stable Diffusion gestaltet wird.

Stable Diffusion im VR-Einsatz

Der Entwickler kombiniert Stable Diffusion mit der Programmiersprache Touchdesigner. Sein Resultat nennt er einen "immersiven latenten Raum in Echtzeit". Das folgende Video sieht er als Beweisführung für das Zukunftspotenzial der Technologie und kündigt weitere Verbesserungen an. Laut des Entwicklers kann man sich in der Stable-Diffusion-VR-Welt frei bewegen.

Video: Scottie Fox via Twitter

Dass sich Objekte in dem Video permanent verändern, betrachtet man sie länger, ist laut des Entwicklers ein Nebeneffekt der aktuellen Stable-Diffusion-Implementierung: Die Bild-KI nehme an, dass sie ein Objekt besser hätte zeichnen können, wenn man es länger betrachtet, und generiere eine neue Variante.

Großer technischer Aufwand - mit Ausblick auf schnelle Verbesserungen

Neben Stable Diffusion verwendet der Entwickler noch ein zweites KI-System: MIDAS von Intel ist für die 3D-Darstellung der Umgebung zuständig. Das MIDAS-Modell kann anhand eines einzelnen Bildes 3D-Tiefe berechnen, auf die dann die Stable-Diffusion-Bilder projiziert werden.

Die Demo läuft in Echtzeit, benötigt aber einen enormen Rechenaufwand: Sie verbraucht laut des Entwicklers 40 Credits pro Stunde bei Google Colab auf einer Nvidia A100. Erstellt wurde die Demo auf einer Nvidia 2080 Ti mit 11 GB.

MIXED.de ohne Werbebanner
Zugriff auf mehr als 9.000 Artikel

Kündigung jederzeit online möglich

ab 3,50 € / Monat

Jetzt unterstützen

Das Midas-Modell läuft durchgehend pro Bild, Stable Diffusion in einer vorgegebenen Rate. Um die Rechenlast weiter zu reduzieren, rendert das System zudem nur den Bildausschnitt im Sichtfeld statt der vollständigen 360-Grad-Umgebung. In der Demo wird pro Auge das gleiche Bild gerendert, stereoskopisches 3D wird also noch nicht unterstützt, aber das wird laut Entwickler "definitiv verbessert".

"Die Geschwindigkeit von Stable Diffusion steigt derzeit rasant an, aber wir benötigen immer noch Verbesserungen", schreibt der Entwickler. Es sei schwer zu sagen, wann die gezeigte Demo als Testversion veröffentlicht werden könne - aktuell sei der Code über zwei neuronale Netze und drei unterschiedliche Hardware-Konfigurationen verteilt.

Weitere Verbesserungen sind in Arbeit. Wer sich beteiligen will, findet bei Github Deforum mehr Informationen oder steigt direkt im Discord der Gruppe ein.

Carmacks Vision: Automatische VR-Welten zu jedem Video

Zeitgleich äußert sich der Star-Entwickler und frühere Oculus CTO John Carmack bei Twitter. Als VR-Enthusiast macht er heute in KI, kennt also beide Technologien. Sein Traum seien anhand von "jedem jemals aufgezeichnetem Film oder Video" automatisch generierte photogrammetrische 3D-Welten, schreibt Carmack.

Dabei gebe es zwar noch zahlreiche technische Herausforderungen insbesondere bei der Geometrie zu lösen, etwa das Zusammenführen verschiedener Kamerapositionen. Aber er habe das Gefühl, so Carmack, "dass wir an der Schwelle zu neuronalen Modellen stehen, die alles lösen."

Seine Vision ist ein generatives KI-System, das anhand von vorgegebenen Videos 3D-Welten erstellt. "Ich bin mir sicher, dass damit bereits experimentiert wird, aber wenn es das Labor verlässt, wie es bei Stable Diffusion der Fall war, wird es fantastisch sein", schreibt Carmack.

Quellen: Twitter ScottieFox, Twitter Carmack, Reddit, Discord

Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.