Nvidia stellt KI-Avatare fürs Omniverse vor

Nvidia stellt KI-Avatare fürs Omniverse vor

Hinter den Animations- und Sprachfähigkeiten von Nvidias neuen Omniverse Avataren steckt jede Menge KI-Technik.

Mit Werbeeinnahmen bezahlen wir unsere Redakteur:innen.
Mit einem MIXED-Abo kannst Du unsere Seite werbefrei lesen.

Omniverse ist das Industrie-Metaverse von Nvidia: Digitale Zwillinge von Maschinen bis zu ganzen Werksgelände, geteilte virtuelle Welten für Remote-Zusammenarbeit und KI-generierte Inhalte und Analysen spielen hier eine große Rolle.

„Mit dem Omniverse haben wir jetzt die Technologie, um neue 3D-Welten zu schaffen oder unsere physische Welt zu modellieren“, sagt Nvidia-Chef Jensen Huang.

Auf der hauseigenen KI-Konferenz GTC 2021 stellte Nvidia jetzt eine Avatar-Plattform fürs Omniverse vor, das digitale Charaktere realistisch (und unrealistisch) animieren und sprechen lassen kann.

Omniverse Avtar: Nvidia-Chef als Spielfigur

Mit Omniverse Avatar sollen Entwickler:innen interaktive Charaktere erstellen können, die „sehen, sprechen, sich über eine breite Palette von Themen unterhalten und natürlich gesprochene Absichten verstehen können“, erklärt das Unternehmen. Das folgende Video zeigt einen Spielfigur-Avatar von Huang, der fließend auf Fragen innerhalb einer ausgewählten Domäne antwortet.

Dem Avatar-System liegt Nvidias Cloud-KI-Modell Maxine zugrunde, das unter anderem auf GA-Netze für die Generierung von Animationen setzt. Für das Sprachverständnis verwendet Nvidia das KI-Modell Megatron-Turing NLG 530B, die Sprachgenerierung übernimmt das ebenfalls neu vorgestellte Riva-Modell für individuelle Stimmen. 30 Minuten Audiodaten sollen Riva Custom Voice für einen überzeugenden Stimmklon ausreichen.

In der Praxis könnte so ein Avatar etwa die automatische Bestellannahme in einem Restaurant übernehmen, wie das folgende Beispiel von Nvidia zeigt. Der Avatar benutzt dabei Gesichtserkennungstechnologie (Nvidia Metropolis Vision), um Augenkontakt mit den sprechenden Personen zu halten und auf ihre Mimik zu reagieren.

logo
  • checkMIXED.de ohne Werbebanner
  • checkZugriff auf mehr als 9.000 Artikel
  • checkKündigung jederzeit online möglich
ab 2,80 € / Monat
Mit Werbeeinnahmen bezahlen wir unsere Redakteur:innen.
Mit einem MIXED-Abo kannst Du unsere Seite werbefrei lesen.

Die Omniverse-Avatare haben laut Huang derzeit eine Reaktionszeit von rund zwei Sekunden. Eine wirklich fließende Unterhaltung mit einem KI-System ist also noch ein gutes Stück entfernt – und bei zweisekündigen Wartepausen scheint auch der Mehrwert als Bestellservice überschaubar im Vergleich zu einer direkten Auswahl etwa per Touch-Interface.

Laut Nvidia könnte die KI-Technik auch in Call Centern eingesetzt werden oder als Assistenzsystem in autonomen Vehikeln. „Diese Technologie wird für den intelligenten Einzelhandel, Drive-Throughs und den Kundenservice nützlich sein“, sagt Huang. Das Empfehlungssystem basiert auf Nvidia Merlin.

Maxine: Echtzeit-Übersetzung und -Animation synchron in mehrere Sprachen

Eine weitere neue Demo der Maxine-KI zeigt eine Frau, die in einer lauten Umgebung an einer Videokonferenz teilnimmt. Mit der Cloud-KI kann Nvidia gleichzeitig den Hintergrundlärm entfernen, ihre Worte in Echtzeit in mehrere Sprachen übersetzen und die Lippenbewegungen ihres Omniverse Avatars passend zur gesprochenen Sprache animieren und als stark komprimiertes Video streamen.

Laut Nvidia wurde das Omniverse-Angebot bislang 70.000 Mal heruntergeladen und wird oder wurde in 500 Unternehmen eingesetzt. Der Preis für die verschiedenen Services startet ab 9.000 US-Dollar pro Jahr.

Weiterlesen über Nvidia:

Quelle: Nvidia