Google KI generiert glaubhafte 3D-Avatare aus einzelnem Foto

Google KI generiert glaubhafte 3D-Avatare aus einzelnem Foto

Googles KI-Modell PHORUM zeigt, wie in Zukunft beeindruckende 3D-Avatare aus einem einzigen Foto entstehen könnten.

Mit Werbeeinnahmen bezahlen wir unsere Redakteur:innen.
Mit einem MIXED-Abo kannst Du unsere Seite werbefrei lesen.

Schnell verfügbare und qualitativ hochwertige 3D-Scans von Menschen haben zahlreiche Anwendungen, etwa in der Bildbearbeitung, dem Online-Handel für virtuelle Anproben, der Telepräsenz und als digitale Avatare in AR und VR.

Bisher sind hochwertige 3D-Modelle von Menschen jedoch auf das automatische Scannen durch ein Multikamera-Setup, der manuellen Kreation von Kunstschaffenden oder eine Kombination aus beidem angewiesen – selbst die besten Kamera-Setups erzeugen noch Artefakte, die per Hand bereinigt werden müssen.

Künstliche Intelligenz soll diesen Prozess vereinfachen und hochwertige 3D-Avatare aus einigen oder sogar nur einem einzigen Foto ermöglichen. Dafür müssen die entsprechenden Modelle die 3D-Geometrie und zahlreiche Oberflächeneigenschaften wie etwa Farbe, Rückstrahlvermögen, Shading oder Normalenvektoren zu rekonstruieren.

Googles PHORUM hängt alternative KI-Modelle ab

Zahlreiche Projekte versuchen sich an dieser Aufgabe, liefern jedoch nicht alle relevanten Oberflächeneigenschaften und setzen häufig noch auf einzelne Module im Prozess, die nicht gelernt werden.

Google-Forschende zeigen nun PHORUM, ein System für die Rekonstruktion von 3D-Avataren aus einem einzelnen Foto. PHORUM ist ein durchgängig trainierbares KI-System und berechnet zahlreiche Eigenschaften wie Albedo (Helligkeit eines Körpers) und Shading-Informationen, die von alternativen Systemen bislang nicht beachtet wurden.

Empfohlener Beitrag

3D-Scan: Detaillierte Avatare mit Mittelklasse-Smartphone
Deutsche Forscher erstellen hochdetaillierte 3D-Scans mit einem Mittelklasse-Smartphone. Wie gut sehen die virtuellen Menschen aus?

Trainiert wurde PHORUM mit einer Mischung aus berechneten Bildern vor einem HDR-Bildhintergrund und zugehörigen Meshs. Insgesamt nutzte das Team 217 Scans von Personen in verschiedenen Posen, Outfits und vereinzelt mit Handtaschen oder anderen Objekten in der Hand. Durch weitere Veränderungen, wie andere Farben für die Bekleidung, umfasst der Datensatz knapp 190.000 Bilder.

logo
  • checkMIXED.de ohne Werbebanner
  • checkZugriff auf mehr als 9.000 Artikel
  • checkKündigung jederzeit online möglich
ab 2,80 € / Monat
logo

Mit Werbeeinnahmen bezahlen wir unsere Redakteur:innen.
Mit einem MIXED-Abo kannst Du unsere Seite werbefrei lesen.

Die Trainingsdaten enthalten auch Albedo-Bilder, Normal- und Alpha-Maps und ein 3D-Mesh. | Bild: Google

PHORUM erzeugt realistischere Ergebnisse als alternative Methoden wie etwa PIFu und ergänzt nicht sichtbare Details der Bekleidung, etwa die Rückseite einer Hose. Aufgrund der zahlreichen mitberechneten Oberflächeneigenschaften lassen sich die 3D-Avatare auch in neue digitale Umgebungen einfügen. So kann etwa die Beleuchtung des neuen Bildes auf den 3D-Avatar übertragen und dieser in ein Gruppenfoto eingefügt werden.

PHORUMs Rekonstruktionen können in der Bildbearbeitung für passende Beleuchtung eingesetzt werden. Schatten müssen noch per Hand nachgearbeitet werden. | Bild: Google

Systeme wie PHORUM benötigen mehr Daten

Die von PHORUM rekonstruierten 3D-Avatare lassen sich außerdem anschließend animieren – das KI-System hätte so auch das Potenzial, für CGI und Videospiele die Arbeit mit 3D-Scans zu vereinfachen.

PHORUM-Avatare können nach der Generierung in einem zweiten Arbeitsschritt animiert werden. | Bild: Google

Einschränkungen habe PHORUM noch bei der Rekonstruktion von lockerer, zu großer und nicht-westlicher Kleidung, so die Forschenden. In einigen Fällen passen Rück- und Vorderseite einer digitalen Person nicht zusammen. Eine Hose etwa hat vorne einen anderen Stoff als hinten. Diese Probleme ließen sich mit mehr geografisch und kulturell diverseren Datensätzen angehen, heißt es in der Veröffentlichung.

Auch ist die Auflösung der berechneten 3D-Avatare recht niedrig – so haben etwa die Trainingsbilder eine Auflösung von 512 mal 512 Bildpunkten und die Ergebnisse liegen bei einer ähnlichen Auflösung. Ein praktischer Einsatz von PHORUM in der Industrie ist so vorerst nicht möglich, doch die Technologie könnte wohl in Zukunft etwa mit KI-Upscalern, besseren Trainingsdaten und anderen Architekturen bessere Bildqualität erreichen. Eine ähnliche Entwicklung ist etwa beim Einsatz von GANs oder Diffusion-Modellen wie DALL-E 2 zu sehen.

Mehr Details zum Projekt und weitere Beispiele gibt es auf der Projektseite von PHORUM.

Quellen: Arxiv

Empfohlene Beiträge