Neue Meta-KI macht aus 2D-Bild ein 3D-Modell

Forschende von Meta stellen MCC vor, eine Methode, die aus einem einzigen Bild ein 3D-Modell rekonstruieren kann. Anwendungen sieht das Unternehmen in VR/AR und der Robotik.
KI-Modelle, die auf Architekturen wie Transformer und massig Trainingsdaten setzen, haben beeindruckende Sprachmodelle wie OpenAIs GPT-3 oder jüngst ChatGPT hervorgebracht.
Die Durchbrüche in der Verarbeitung natürlicher Sprache brachten eine zentrale Erkenntnis: Skalierung ermöglicht fundamentale Modelle, die bisherige Ansätze hinter sich lassen.
Metas MCC bringt Skalierung in die 3D-Rekonstruktion
Um die Vorteile des Ansatzes zu zeigen, trainieren die Forschenden MCC mit zahlreichen Bildern und Videos mit Tiefeninformationen aus verschiedenen Datensätze, die Objekte oder ganze Szenen aus zahlreichen Blickwinkeln zeigen.
Während des KI-Trainings werden dem Modell einige verfügbare Ansichten jeder Szene oder jedes Objekts vorenthalten. Sie dienen als Lernsignal für die KI-Rekonstruktion. Der Ansatz entspricht dem Training von Sprach- oder Bildmodellen, bei denen häufig ebenfalls Teile der Daten maskiert werden.
MIXED.de ohne Werbebanner
Zugriff auf mehr als 9.000 Artikel
Kündigung jederzeit online möglich
Metas 3D-Rekonstruktion zeigt starke Generalisierbarkeit
Metas KI-Modell zeigt in Tests, dass die Methode funktioniert und andere Ansätze übertrifft. Das Team sagt zudem, dass MCC auch mit Kategorien von Objekten oder ganzen Szenen umgehen kann, die es vorher noch nicht gesehen hat.
Video: Meta
Zudem zeigt MCC die erwarteten Skalierungseigenschaften: Die Leistung nimmt mit mehr Trainingsdaten und vielfältigeren Objektkategorien deutlich zu. iPhone-Aufnahmen, ImageNet- und DALL-E 2 Bilder können mit entsprechenden Tiefeninformationen ebenfalls in 3D-Punktewolken rekonstruiert werden.
Wir stellen MCC vor, ein universell einsetzbares 3D-Rekonstruktionsmodell, das sowohl für Objekte als auch für Szenen funktioniert. Wir zeigen die Verallgemeinerbarkeit in anspruchsvollen Umgebungen, einschließlich Aufnahmen in freier Wildbahn und KI-generierten Bildern von vorgestellten Objekten.
Unsere Ergebnisse zeigen, dass eine einfache punktbasierte Methode in Verbindung mit einem kategorieunabhängigen, groß angelegten Training effektiv ist. Wir hoffen, dass dies ein Schritt in Richtung eines allgemeinen Bildverarbeitungssystems für 3D-Verständnis ist.
Aus dem Paper
Die Qualität der Rekonstruktionen ist noch weit von einem menschlichen Verständnis entfernt. Doch mit der verhältnismäßig einfachen möglichen Skalierung von MCC könnte der Ansatz schnell besser werden.
Eine multimodale Variante, die etwa die Text-gesteuerte Synthese von 3D-Objekten ermöglicht, ist dann nur noch eine Frage der Zeit. Ähnliche Ansätze verfolgt auch OpenAI mit Point-E.
Zahlreiche Beispiele inklusive 3D-Modellen gibt es auf der MCC-Projektseite. Den Code gibt es auf Github.
Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.