Nvidia: Neues KI-Modell für bessere Videokonferenzen

Nvidia: Neues KI-Modell für bessere Videokonferenzen

Wegen der Corona-Pandemie entwickeln und verbreiten sich Videokonferenzen in hohem Tempo. Aber Telepräsenz-Technik steht noch ganz am Anfang. Geht es nach Nvidia, dann wird Künstliche Intelligenz die Videoübertragung auf ein neues Level bringen.

Seit einigen Wochen sind vielerorts die Corona-Regeln etwas gelockert: Menschen treffen sich wieder für die Zusammenarbeit und begegnen sich direkt in Büros oder auf Events. Bei mir selbst spürte ich bei meinen ersten Vor-Ort-Treffen einen interessanten Effekt: Ein kleiner Teil meines Gehirns erwartete ständig einen Ton- oder Bildfehler oder dass ich anderen Personen im Raum ins Wort falle, weil ich die Verzögerung bei der Tonübertragung nicht richtig abgeschätzt habe.

Videokonferenz-Alltag eben, wie wir ihn kennen, und der aus vielen Gründen praktisch ist, der sich aber (noch) nicht mit der latenzfreien Direktheit, dem Augenkontakt und den vielen weiteren Eindrücken bei der klassischen Bild- und Videoübertragung vor Ort messen kann.

___STEADY_PAYWALL___

Telepräsenz-Technik steht noch am Anfang

Warum erzähle ich das? Weil ich denke, dass diese Lücke zwischen digitaler und realer Kommunikation vielleicht nicht geschlossen, aber zumindest deutlich kleiner werden kann und muss.

Dafür braucht es meines Erachtens nicht mal eine VR-Brille mit realistischen Facebook-Avataren oder Googles Highend-Holo-Kapseln: Es würde schon reichen, die bestehenden Möglichkeiten bei Audio- und Videoqualität auszureizen und das möglichst flächendeckend.

Da weder Privatpersonen noch Unternehmen im großen Stil in teures Highend-AV-Equipment investieren werden – und da auch das Internet längst nicht überall die nötigen Bandbreitenanforderungen für die Übertragung erfüllt – brauchen wir für dieses Ziel Software-Innovationen.

Genau das versucht Nvidia mit der im letzten Oktober vorgestellten Cloud-Videokonferenz-KI Maxine: Nvidia macht sich insbesondere das generative Potenzial der Deepfake-GAN-Technologie zunutze, um etwa die Blickrichtung von Videokonferenzteilnehmern so zu justieren, dass der Eindruck eines Blickkontakts entsteht, auch wenn alle auf den Bildschirm statt in die Kamera schauen. Dafür kann sogar das gesamte Gesicht rein digital um einige Grad gedreht werden.

Nvidia vid2vid-cameo: KI soll mit Software-Tricks Videokonferenzen verbessern

Jetzt stellt Nvidia auf der Fachkonferenz „Computer Vision und Mustererkennung“ eines der KI-Modelle hinter Maxine vor: das GAN-basierte vid2vid-cameo. Die Besonderheit: Für die Adaption der eigenen generativen Fähigkeiten auf das spezifische Gesicht einer einzelnen Person benötigt vid2vid-cameo nur ein einziges Beispielfoto.

Die KI-Anpassung klappt mit einem realen Porträtfoto ebenso wie mit einem Cartoon-Bild. Laut Nvidia ermöglicht das den Videokonferenzteilnehmern einen ordentlichen Auftritt, auch wenn sie in Wirklichkeit mit „zerzausten Haaren und Pyjamas“ vor der Kamera sitzen.

Wichtiger als diese kosmetischen Anpassungen ist die KI-Rekonstruktion eines nur teilweise gesendeten Videobilds auf Empfängerseite. Laut Nvidia kann vid2vid-cameo den Datenverbrauch für ein qualitativ hochwertiges Bild so um den Faktor zehn reduzieren und dabei Ruckler und Latenz vermeiden. Die Technik soll bald in Nvidias Video Codec SDK integriert werden.

Eine Demo für vid2vid-cameo ist hinter dem Link verfügbar, das Forschungspapier gibt es hier. Das folgende Video erklärt die verschiedenen Funktionen von vid2vid-cameo.

Neue KI-gestützte Übertragungstechnik

Trainiert wurde vid2vid-cameo laut Nvidia selbstüberwacht (Erklärung), also ohne menschliche Daten-Dokumentation vorab, mit 180.000 hochwertigen Videos sprechender Personen. Das Modell lernte anhand dieser Beispiele, 20 Schlüsselpunkte in den Gesichtern wie Augen, Mund und Nase zu identifizieren und zu animieren.

Live-Videostreams mit aktivem vid2vid-cameo übertragen dann nur die Veränderungen der Datenpunkte anstatt das volle Videobild. Ein GAN-Netz beim Empfänger rekonstruiert mit diesen Datenpunkten lokal ein Bild der anderen Person, was die Grundlage ist für die Echtzeit-KI-Anpassungen bei gleichzeitig stark reduziertem Datenverbrauch. Wie viele Datenpunkte analysiert und übertragen werden, kann je Bandbreite konfiguriert werden.

Quelle: Nvidia | Titelbild: Nvidia

Weiterlesen über Künstliche Intelligenz: