Eine neue Facebook-KI klont Bill Gates Stimme, wenn auch nur für kurze Sätze. Würdet ihr den Unterschied bemerken?

Die beiden Facbeook KI-Forscher Sean Vasquez und Mike Lewis entwickeln die KI-gestützte Sprachsynthese “Melnet”, die Klang und Intonation einer menschlichen Stimme auf hohem Niveau nachahmen kann.

Vasquez und Lewis trainierten dafür ein neuronales Netz anhand hochauflösender Spektrogramme anstatt der typischen Wellenform. Beide Diagrammarten werden zwar aus Audiodaten generiert, allerdings bietet das Spektrogramm von Vasquez und Lewis eine detailliertere und im Verhältnis zur Zeit kompaktere Darstellung der Audiofrequenzen.

Die KI kann so Klangmuster über mehrere Sekunden hinweg analysieren – und entsprechend glaubhafter reproduzieren. Die Methode zur Spektrogramm-Generierung war Teil der Forschungsarbeit von Vasquez und Lewis.

Eine Spektrogramm- und Wellenformdarstellung desselben viersekündigen Audiosignals. Die Wellenform umfasst fast 100.000 Zeitschritte, die Zeitachse des Spektrogramms nur etwa 400. Die KI kann die Klangstrukur des Audiosignals im Spektrogramm über mehrere Sekunden hinweg auf Muster analysieren und so eine glaubhaftere Stimmkopie erstellen. Bild: Faceboook

Eine Spektrogramm- und Wellenformdarstellung desselben viersekündigen Audiosignals. Die Wellenform umfasst fast 100.000 Zeitschritte, die Zeitachse des Spektrogramms nur etwa 400. Die KI kann die Klangstrukur des Audiosignals im hochauflösenden Spektrogramm über mehrere Sekunden hinweg auf Muster analysieren und so eine glaubhaftere Stimmkopie erstellen. Bild: Faceboook

Noch ein reiner Phrasendrescher

Im Fall der Bill-Gates-Stimmkopie wurden die Audiodaten einem TedX-Talk entnommen. Die Sätze in den folgenden Clips wurden von Melnet mit der Stimme des Microsoft-Gründers Bill Gates generiert.

“The glow deepened in the eyes of the sweet girl.”

“Write a fond note to the friend you cherish.”

“Port is a strong wine with a smoky taste.”

“Bring your problems to the wise chief.”

Allerdings hat Melnet noch eine Einschränkung: Die KI kann zwar eine Stimme über einen längeren Zeitraum analysieren als bisherige Verfahren. Die menschliche Stimme bietet aber Klangverläufe über mehrere zehn Sekunden oder sogar Minuten hinweg.

Um ganze Absätze oder gar Reden derart fließend und glaubhaft wie in den Beispielen zu generieren, müsste Melnet noch umfassendere Zusammenhänge in den Spektrogrammen erkennen. Derzeit reicht es nur für einzelne Sätze.

Laut der Forscher ist Melnet für eine Reihe von Aufgaben bei der Audiogenerierung geeignet und kann zum Beispiel Text in Sprache verwandeln oder Musik erstellen. Entsprechende Audiobeispiele stehen auf der offiziellen Projektseite.

Quelle: Paper, Via: MIT Technology Review; Titelbild: OnInnovation bei Flickr, Titel: Bill Gates – OnInnovation.com Interview. Lizenziert nach CC BY-ND 2.0.

Weiterlesen über KI-Audio:


MIXED-Podcast #165: Die Zukunft von Oculus | Alle Folgen


Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.