Googles KI-Abteilung Deempind stellt ein neues Verfahren vor, mit dem Computer aus mehreren 2D-Perspektiven eine 3D-Szene rekonstruieren können. Für die Entwicklung Künstlicher Intelligenz wäre das ein großer Schritt.

Einer Künstlichen Intelligenz Objekterkennung beizubringen, ist ein aufwendiger Prozess: Über hunderte oder tausende Bilder hinweg müssen Wissenschaftler Objekte markieren und beschriften, damit der Computer sie aus verschiedenen Blickwinkeln und in unterschiedlichen Szenen wiedererkennen kann.

Dieser Aufwand ist notwendig, da eine Bildanalyse-KI nur Pixelparameter auswertet. Nun hat die Frontalaufnahme eines Menschen aber eine gänzlich andere Pixelstruktur als ein Bild seines Hinterkopfes. Und abhängig davon, wie das Licht fällt, sind auch die Pixel der Frontalaufnahme anders angeordnet.

Der KI fehlt das grundlegende Verständnis für ein Objekt oder eine Szene und mit diesem das Vorstellungsvermögen, wie dasselbe Objekt aus einer Perspektive etwas weiter links oder bei einem Lichteinfall von rechts aussehen würde.

Googles neues neuronales Netz soll visuell lernen wie ein Kleinkind

Deepminds neues “Generative Query Network” (GQN) soll genau das ändern: Es kann anhand von wenigen 2D-Aufnahmen eine einfache 3D-Szene rekonstruieren. Der Computer entwickelt also eine Art Vorstellungskraft.

Das System besteht aus zwei kooperierenden neuronalen Netzen. Das erste analysiert die Pixelwerte der 2D-Aufnahmen. Das zweite rekonstruiert aus diesen Daten die 3D-Szene.

Zeigt man dem Algorithmus beispielsweise einen Würfel von vorne, könnte er…


MIXEDCAST #171: Das Carmack-Drama, Stormland und Magic Leak | Alle Folgen


Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.