Eine neue Analyse-KI von Google kann sich auf eine einzelne Stimme in einem Raum oder während eines Gesprächs fokussieren und nur dieser zuhören.

Kabetec VR-Brille

Laut den Google-Forschern ist die KI dem sogenannten “Cocktail-Party-Effekt” nachempfunden. Gemeint ist die Fähigkeit eines Menschen, sich selbst in einer lauten Umgebung auf eine einzelne Schallquelle zu konzentrieren und sie aus einem Stimmgewirr oder Hintergrundgeräuschen herauszufiltern – zum Beispiel bei einer Unterhaltung auf einer lauten Party.

Die Forscher entwickelten für diese Stimmisolation ein Deep-Learning-Verfahren mit einem auf Bildanalyse optimierten neuronalen Netz. Denn zusätzlich zur Tonspur braucht die KI visuelle Eingabe. Erst die Kombination aus Video- und Audiodaten ermöglicht es ihr, eine einzelne Schallquelle von Nebengeräuschen zu unterscheiden.

Die KI berechnet dafür sogenannte Spektrogramme – das ist die grafische Darstellung eines Klangs – und ordnet diese passend den Gesichtern im Video zu. Ein Nutzer könnte laut Google so in einem Video mit vielen Menschen gezielt eine Person aussuchen, deren Stimme er heraushören möchte.

Googles Stimmisolator-KI setzt auf eine Kombination aus Audio- und Videoanalyse. Bild: Google

MIXED.de XR-Podcast - jetzt reinhören

Aktuell: Unreal Engine 5 - ein neues Grafikzeitalter? | Alle Folgen



Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.