Inhalt
newsletter Newsletter

Googles neue KI Dream Fields kann 3D-Modelle nur anhand einer Textbeschreibung generieren.

KI-generierte Bilder erleben einen Boom, auch ausgelöst durch OpenAIs multimodal trainiertes Bildanalyse-Modell CLIP. Die Künstliche Intelligenz wurde mit Bildern und Bildbeschreibungen trainiert und kann daher einschätzen, ob eine Texteingabe eine passende Beschreibung des Bildinhaltes darstellt.

OpenAI filtert mit CLIP die generierten Bilder des ebenfalls multimodalen DALL-E-Modells und produziert so beeindruckende Ergebnisse. KI-Forscher:innen haben seitdem einige KI-Systeme geschaffen, die CLIP mit generativen Modellen wie VQGAN, BigGAN oder StyleGAN kombinieren und so Bilder nach Textbeschreibungen generieren können. Ein ähnliches System werkelt wohl auch im Hintergrund der Wombo Dream App.

Google Dream Fields bringt generative Bild-KI in die dritte Dimension

Jetzt stellen Google-Forschende "Dream Fields" vor, ein KI-System, das CLIP mit NeRF kombiniert. Mit der "Neural Radiance Fields (NeRF)"-Methode kann ein neuronales Netzwerk 3D-Modelle speichern.

Anzeige
Anzeige

Für das KI-Training werden Fotos eines Objekts aus unterschiedlichen Blickwinkeln benötigt. Nach dem Training kann das Netzwerk 3D-Ansichten ausspielen, die Materialbeschaffenheit und Belichtung des ursprünglichen Objekts wiedergeben.

Dream Fields nutzt die Fähigkeit von NeRF, 3D-Ansichten zu generieren und kombiniert sie mit CLIPs Fähigkeit, Inhalte von Bildern zu bewerten. Nach einer Texteingabe generiert ein untrainiertes NeRF-Modell eine zufällige Ansicht aus einem einzigen Blickwinkel, die von CLIP bewertet wird. Das Feedback wird als Korrektursignal für das NeRF-Modell verwendet. Dieser Prozess wird bis zu 20000-mal aus unterschiedlichen Blickwinkeln wiederholt, bis ein zur Textbeschreibung passendes 3D-Modell entsteht.

Googles Dream Fields ist DALL-E in 3D

Die Forschenden verbessern die Ergebnisse zusätzlich mit einigen Einschränkungen für Kameraposition und Hintergrund. Dadurch generiert Dream Fields keine Hintergründe und fokussiert stattdessen auf zentrale Objekte in der Mitte, etwa Boote, Vasen, Busse, Essen oder Möbel.

"a robotic dog. a robot in the shape of a dog" | Video: Google

"bouquet of flowers sitting in a clear glass vase" | Video: Google

Empfehlung

"a boat on the water tied down to a stake" | Video: Google

Ähnlich wie mit DALL-E, können auch mit Dream Fields Objektkategorien vermischt werden, die in der Realität nur schwerlich zueinanderfinden. DALL-E produzierte Bilder von Stühlen aus Avocados oder Pinguinen aus Knoblauch. Dream Fields generiert 3D-Ansichten von Avocadostühlen oder Teekannen aus Pikachu.

"an archair in the shape of a ____. an archair imitating a ____." | Video: Google

"a teapot in the shape of a ____. a teapot imitating a ____." | Video: Google

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

"Wir hoffen, dass diese Methoden eine schnellere Erstellung von Inhalten für Künstler und Multimedia-Anwendungen ermöglichen", heißt es in der Veröffentlichung. Eine Variante mit einer CLIP-Alternative haben die Forschenden ebenfalls getestet und so höher aufgelöste Objekte generieren können.

Mehr Beispiele und Informationen gibt es auf der Projektseite von Dream Fields. Der Code ist bisher nicht veröffentlicht.

Weiterlesen über Künstliche Intelligenz:

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!