Eine neue Facebook-KI klont Bill Gates Stimme, wenn auch nur für kurze Sätze. Würdet ihr den Unterschied bemerken?

Kabetec VR-Brille

Die beiden Facbeook KI-Forscher Sean Vasquez und Mike Lewis entwickeln die KI-gestützte Sprachsynthese “Melnet”, die Klang und Intonation einer menschlichen Stimme auf hohem Niveau nachahmen kann.

Vasquez und Lewis trainierten dafür ein neuronales Netz anhand hochauflösender Spektrogramme anstatt der typischen Wellenform. Beide Diagrammarten werden zwar aus Audiodaten generiert, allerdings bietet das Spektrogramm von Vasquez und Lewis eine detailliertere und im Verhältnis zur Zeit kompaktere Darstellung der Audiofrequenzen.

Die KI kann so Klangmuster über mehrere Sekunden hinweg analysieren – und entsprechend glaubhafter reproduzieren. Die Methode zur Spektrogramm-Generierung war Teil der Forschungsarbeit von Vasquez und Lewis.

Eine Spektrogramm- und Wellenformdarstellung desselben viersekündigen Audiosignals. Die Wellenform umfasst fast 100.000 Zeitschritte, die Zeitachse des Spektrogramms nur etwa 400. Die KI kann die Klangstrukur des Audiosignals im Spektrogramm über mehrere Sekunden hinweg auf Muster analysieren und so eine glaubhaftere Stimmkopie erstellen. Bild: Faceboook

MIXED.de XR-Podcast - jetzt reinhören

Aktuell: Die große VR-Brillenschwemme | Alle Folgen



Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.