GET3D: Nvidia Open-Source-KI generiert 3D-Modelle aus 2D-Bildern

GET3D: Nvidia Open-Source-KI generiert 3D-Modelle aus 2D-Bildern

Nvidias neues KI-Modell GET3D soll die Erstellung von 3D-Inhalten beschleunigen. Das Modell gibt anhand von 2D-Fotos texturierte 3D-Polygonnetze aus, die nahtlos in Standard-Grafik-Engines verwendet werden können. 

GET3D steht für "Generate Explicit Textured 3D" und ist ein generatives 3D-Modell, das hochwertige 3D-Polygonnetze mit beliebiger Topologie synthetisieren kann. Als Input für die Generierung reicht ein einzelnes 2D-Bild.

Die generierten Polygonnetze bestehen aus texturierten Dreiecken - ein Standardformat, das den nahtlosen Import in 3D-Programme, Spiele-Engines oder Film-Renderer ermöglicht.

___STEADY_PAYWALL___

Die 3D-Objekte sind nach dem Import vollständig bearbeitbar, können etwa skaliert, rotiert und ausgeleuchtet werden. In Kombination mit Nvidias StyleGAN-Nada können Entwickelnde rein per Textbefehl die Form oder Textur des 3D-Modells weiter verändern, etwa ein herkömmliches Auto in ein Polizeiauto verwandeln.

3D-Modell-Generierung anhand synthetischer 2D-Bilder

Nvidias Forschungsteam entwickelte einen zweistufigen Generierungsprozess: Der Geometriezweig generiert das Polygonnetz mit beliebiger Topologie. Der Texturzweig erzeugt ein Texturfeld, das an den Oberflächenpunkten des Poylgonnetzes Farben und etwa bestimmte Materialien darstellen kann.

Wie bei GA-Netzen beurteilen abschließend Diskriminatoren anhand synthetischer Fotos des 3D-Modells die Qualität des Outputs und optimieren diesen kontinuierlich passend zum Zielbild.

Der Trainingsprozess von GET3D. | Bild: Nvidia

Trainiert wurde GET3D mit etwa einer Million synthetischer 2D-Bilder von 3D-Modellen aus verschiedenen Perspektiven. Das Training dauerte laut Nvidia rund zwei Tage auf Nvidia A100 GPUs.

Schneller zu mehr 3D-Content

Die von GET3D generierbaren 3D-Modelle sind an die Trainingsdaten gekoppelt: Trainiert man das System etwa mit Auto- oder Tierbildern, kann es 3D-Autos oder -Tiere erzeugen. Je größer und variantenreicher der Trainingsdatensatz ist, desto detaillierter und abwechslungsreicher sind die generierten 3D-Modelle.

logo
  • checkMIXED.de ohne Werbebanner
  • checkZugriff auf mehr als 9.000 Artikel
  • checkKündigung jederzeit online möglich
ab 3,50 € / Monat
logo

Auf einer einzelnen handelsüblichen Nvidia GPU kann das Modell nach dem Training rund 20 Formen pro Sekunde erzeugen, die sich zu einem 3D-Modell zusammensetzen. Die Generierung erfolgt lokal auf dem eigenen Rechner, was sie unabhängig macht von inhaltlichen Restriktionen, wie man sie von Cloud-KI-Services kennt.

"GET3D bringt uns der Demokratisierung der KI-gestützten Erstellung von 3D-Inhalten einen Schritt näher", sagt Sanja Fidler, Leiterin von Nvidias Forschungslabor in Toronto. Dort wurde das Tool entwickelt.

Eine Einschränkung von GET3D ist laut Nvidias Forschungsteam, dass das Training derzeit nur mit 2D-Silhouetten synthetischer Bilder aus bekannten Kamerapositionen möglich ist. Für zukünftige Versionen könnten Fortschritte bei der Kamerapositionsschätzung die Grundlage für das Training mit realen Aufnahmen sein.

Derzeit würde GET3D zudem nur pro Kategorie trainiert. Ein kategorieübergeifendes Modell könne die Vielfalt der generierten 3D-Modelle erhöhen und würde die Flexibilität des Systems verbessern.

Als Open-Source-Modell ist GET3D kostenlos bei Github verfügbar.

Mehr zum Thema Künstliche Intelligenz für Computergrafik gibt’s in unserem DEEP MINDS KI-Podcast mit Thomas Müller von Nvidia.