Google Dream Fields: KI generiert 3D-Modelle anhand von Text

Googles neue KI Dream Fields kann 3D-Modelle nur anhand einer Textbeschreibung generieren.

KI-generierte Bilder erleben einen Boom, auch ausgelöst durch OpenAIs multimodal trainiertes Bildanalyse-Modell CLIP. Die Künstliche Intelligenz wurde mit Bildern und Bildbeschreibungen trainiert und kann daher einschätzen, ob eine Texteingabe eine passende Beschreibung des Bildinhaltes darstellt.

OpenAI filtert mit CLIP die generierten Bilder des ebenfalls multimodalen DALL-E-Modells und produziert so beeindruckende Ergebnisse. KI-Forscher:innen haben seitdem einige KI-Systeme geschaffen, die CLIP mit generativen Modellen wie VQGAN, BigGAN oder StyleGAN kombinieren und so Bilder nach Textbeschreibungen generieren können. Ein ähnliches System werkelt wohl auch im Hintergrund der Wombo Dream App.

Google Dream Fields bringt generative Bild-KI in die dritte Dimension

Jetzt stellen Google-Forschende "Dream Fields" vor, ein KI-System, das CLIP mit NeRF kombiniert. Mit der "Neural Radiance Fields (NeRF)"-Methode kann ein neuronales Netzwerk 3D-Modelle speichern.

Für das KI-Training werden Fotos eines Objekts aus unterschiedlichen Blickwinkeln benötigt. Nach dem Training kann das Netzwerk 3D-Ansichten ausspielen, die Materialbeschaffenheit und Belichtung des ursprünglichen Objekts wiedergeben.

Dream Fields nutzt die Fähigkeit von NeRF, 3D-Ansichten zu generieren und kombiniert sie mit CLIPs Fähigkeit, Inhalte von Bildern zu bewerten. Nach einer Texteingabe generiert ein untrainiertes NeRF-Modell eine zufällige Ansicht aus einem einzigen Blickwinkel, die von CLIP bewertet wird. Das Feedback wird als Korrektursignal für das NeRF-Modell verwendet. Dieser Prozess wird bis zu 20000-mal aus unterschiedlichen Blickwinkeln wiederholt, bis ein zur Textbeschreibung passendes 3D-Modell entsteht.

Googles Dream Fields ist DALL-E in 3D

Die Forschenden verbessern die Ergebnisse zusätzlich mit einigen Einschränkungen für Kameraposition und Hintergrund. Dadurch generiert Dream Fields keine Hintergründe und fokussiert stattdessen auf zentrale Objekte in der Mitte, etwa Boote, Vasen, Busse, Essen oder Möbel.

"a robotic dog. a robot in the shape of a dog" | Video: Google

"bouquet of flowers sitting in a clear glass vase" | Video: Google

Empfehlung

KI-Forschung

STEVE-1 ist ein Chatbot, der Minecraft spielt

"a boat on the water tied down to a stake" | Video: Google

Ähnlich wie mit DALL-E, können auch mit Dream Fields Objektkategorien vermischt werden, die in der Realität nur schwerlich zueinanderfinden. DALL-E produzierte Bilder von Stühlen aus Avocados oder Pinguinen aus Knoblauch. Dream Fields generiert 3D-Ansichten von Avocadostühlen oder Teekannen aus Pikachu.

"an archair in the shape of a ____. an archair imitating a ____." | Video: Google

"a teapot in the shape of a ____. a teapot imitating a ____." | Video: Google

"Wir hoffen, dass diese Methoden eine schnellere Erstellung von Inhalten für Künstler und Multimedia-Anwendungen ermöglichen", heißt es in der Veröffentlichung. Eine Variante mit einer CLIP-Alternative haben die Forschenden ebenfalls getestet und so höher aufgelöste Objekte generieren können.

Mehr Beispiele und Informationen gibt es auf der Projektseite von Dream Fields. Der Code ist bisher nicht veröffentlicht.

Google Dream Fields: KI generiert 3D-Modelle anhand von Text

Google Dream Fields bringt generative Bild-KI in die dritte Dimension

Googles Dream Fields ist DALL-E in 3D

STEVE-1 ist ein Chatbot, der Minecraft spielt

Weiterlesen über Künstliche Intelligenz:

Künstliche Intelligenz tanzt: Google FACT automatisiert Choreographien

US Air Force testet erfolgreich KI-gesteuertes Kampfflugzeug im simulierten Luftkampf

KI-Forscher warnt: Durch Sprachmodelle droht ein "Wissenskollaps"

Maßgeschneiderte Gegenbeweise: KI kann den Glauben an Verschwörungstheorien schwächen

Google Dream Fields: KI generiert 3D-Modelle anhand von Text

Google Dream Fields bringt generative Bild-KI in die dritte Dimension

Googles Dream Fields ist DALL-E in 3D

STEVE-1 ist ein Chatbot, der Minecraft spielt

Weiterlesen über Künstliche Intelligenz:

Künstliche Intelligenz tanzt: Google FACT automatisiert Choreographien