Wie Facebook mit KI unsere Erinnerungskultur verändern will

Facebook veröffentlicht einen großen 3D-Datensatz, der helfen soll, Videos in 3D-Erfahrungen zu verwandeln. Das bietet sich etwa für VR- und AR-Geräte an.

Die Rekonstruktion von 3D-Objekten aus Fotos und Videos durch Künstliche Intelligenz hat großes Potenzial für die Digitalindustrie, etwa für AR- und VR-Anwendungen oder die schnelle Produktion von 3D-Modellen für Spiele und Filme.

Doch das Potenzial der Technologie ist weitaus größer: Wenn aus einfachen Videos fotorealistische 3D-Rekonstruktionen auf Smartphones oder für AR- und VR-Brillen werden, hätten Menschen eine völlig neue Möglichkeit, Erfahrungen und Erinnerungen zu speichern und weiterzugeben.

3D-Erinnerungen wären eine Killer-App für Facebook XR

Das ist eines der großen Ziele, die Facebook-Chef Mark Zuckerberg mit seinen XR-Investitionen verfolgt. „Eines Tages können wir ganze Erfahrungen einfangen und mit anderen Menschen teilen“, sagte Zuckerberg in der Vergangenheit.

Wenn es nach Facebook geht, sollen Nutzer:innen in Zukunft also Erfahrungen fotorealistisch und in 3D auf den Plattformen des Konzerns teilen. Entsprechend groß ist das Interesse von Facebook an 3D-Rekonstruktionsmethoden. Das Unternehmen betreibt Social-Plattformen wie Instagram, verkauft VR-Brillen und zukünftig auch eine Brille für Augmented Reality.

3D-Rekonstruktionen von verschiedenen Gegenständen — Facebook veröffentlicht einen großen 3D-Datensatz, der 3D-Repräsentationen realer gefilmter Objekte enthält für das KI-Training. | Bild: Facebook AI

Um die Erforschung von 3D-Rekonstruktionsmethoden voranzutreiben, veröffentlicht Facebook jetzt einen Datensatz mit tausenden Videos und dutzenden Objekt-Kategorien.

Facebook CO3D bietet viele 3D-Daten für das KI-Training

Laut Facebook benötigen aktuelle Methoden der 3D-Rekonstruktion Datensätze, die Videos von realen Objekten und ihre genauen 3D-Nachbildungen zeigen, etwa ein Video von einem Apfel und sein 3D-Modell.

Große Fortschritte bei KI-Rekonstruktionsmethoden bleiben laut der Forscher:innen aus, da es keine umfassenden Datensätze gibt, die Videos von zehntausenden realen Objekten und ihre genauen 3D-Nachbildungen umfassen.

In einigen Fällen würden Forschende daher auf Datensätze digitaler 3D-Modelle zurückgreifen. Doch diese synthetischen Daten seien kein Ersatz für die Herausforderungen, die reale Aufnahmen an die KI-Algorithmen stellen, schreiben die Forschenden.

Empfehlung

KI-Forschung

Task Contamination: Sprachmodelle wie GPT-4 werden möglicherweise überschätzt

Video: Facebook AI

Facebooks "Common Objects in 3D"-Datensatz (CO3D) soll diese Lücke füllen: Der riesige Datensatz enthält 19.000 reale Videos in 50 Objekt-Kategorien des häufig eingesetzten MS-COCO-Bilddatensatzes, darunter Vasen, Handtaschen, Skateboards, Teddybären, Toaster und ähnliche Alltagsgegenstände, von denen man in Social Media gerne Fotos oder Videos teilt.

Insgesamt kommt CO3D so auf 1,5 Millionen Bilder zehntausender Objekte aus verschiedenen Kamerawinkeln. Alle Aufnahmen stammen von Smartphone-Kameras, die Facebook über Amazons Mechanical Turk gesammelt hat. Für die 3D-Rekonstruktion der Aufnahmen nutzten die Facebook-Forschenden anschließend sehr genaue und rechenintensive Methoden wie Point Clouds.

Facebook experimentiert mit Transformern für 3D-Rekonstruktion

Mit der Veröffentlichung des CO3D-Datensatzes stellt Facebook auch NeRFormer vor, ein KI-Modell, das Videoaufnahmen in 3D-Rekonstruktionen verwandelt. NeRFormer lernt während des Trainings ein neuronales Strahlungsfeld (NeRF), das Geometrie und Oberfläche des Objektes repräsentiert.

Das Rendering wird dabei von einem Transformer-Modul ausgeführt, das die Eigenschaften des Strahlungsfeldes anhand der Videoinhalte vorhersagen und aus dem Strahlungsfeld neue Blickwinkel ableiten kann.

3D-Rekonstruktionen verschiedener Methoden — NeRFormer generiert realistischere 3D-Rekonstruktionen als bisherige Methoden. | Bild: Facebook AI

Laut Facebook kann NeRFormer durch diese Methode Gemeinsamkeiten bestimmter Objektkategorien lernen und neue Blickwinkel von bisher unbekannten Objekten mit nur einer kleinen Anzahl verfügbarer Ansichten rendern. Im Vergleich mit anderen Methoden soll NeRFormer 3D-Modelle schneller und mit höherer Qualität generieren.

Facebooks CO3D-Datensatz gibt es auf GitHub.

Wie Facebook mit KI unsere Erinnerungskultur verändern will

3D-Erinnerungen wären eine Killer-App für Facebook XR

Facebook CO3D bietet viele 3D-Daten für das KI-Training

Task Contamination: Sprachmodelle wie GPT-4 werden möglicherweise überschätzt

Facebook experimentiert mit Transformern für 3D-Rekonstruktion

Weiterlesen über visuelle Künstliche Intelligenz:

Student of Games: Deepmind zeigt einheitlichen Lernalgorithmus für Spiele

Meta zeigt extrem schnellen Lernalgorithmus für Sprache, Bild und Text

GLM-130B: Das beste Sprachmodell kommt aus China

Prompts mit vielen Beispielen verbessern die Leistung großer Sprachmodelle

US Air Force testet erfolgreich KI-gesteuertes Kampfflugzeug im simulierten Luftkampf

KI-Forscher warnt: Durch Sprachmodelle droht ein "Wissenskollaps"

Wie Facebook mit KI unsere Erinnerungskultur verändern will

3D-Erinnerungen wären eine Killer-App für Facebook XR

Facebook CO3D bietet viele 3D-Daten für das KI-Training

Facebook experimentiert mit Transformern für 3D-Rekonstruktion

Weiterlesen über visuelle Künstliche Intelligenz:

Artikel teilen

Bankverbindung