Facebooks neue Sprach-KI generiert menschlich klingende Stimmen in Millisekunden – und das auf mobilen Prozessoren.

Die von Facebooks KI-Forschern vorgestellte Sprach-KI liest Texte mit einer künstlichen Stimme vor. Solche sogenannten Text-zu-Sprache (TTS) Systeme generieren die Stimmen von Systemen wie Amazons Alexa oder Googles Assistant. Facebooks Sprach-KI ist bereits in dem Smart Display “Portal” aktiv und könnte in Zukunft einen digitalen Sprachassistenten in Facebooks VR-Brillen mit einer Stimme versehen.

Die Sprach-KI besteht aus vier Bausteinen: ein linguistisches Frontend, ein Prosodie-Modell, ein akustisches Modell und ein neuronaler Vocoder.

Das linguistische Frontend konvertiert den eingegebenen Text in eine Folge linguistischer Merkmale wie Phoneme und Satzart. Das Prosodie-Modell sagt Merkmale wie Rhythmus und Melodie eines Satzes voraus. Das akustische Modell generiert aus beiden Informationen eine spektrale Frequenz, die der neuronale Vocoder anschließend mit den Informationen des Prosodie-Modells in Sprache umwandelt.

Das Ergebnis ist eine künstliche Stimme mit realistischem Klang, die kaum mehr oder sogar gar nicht von einer menschlichen Stimme zu unterscheiden ist.

Der modulare Aufbau bringt Vorteile

Das separate Prosodie-Model…

MIXED.de Podcast: VR, AR und KI - jede Woche neu

Jetzt reinhören: Alle Folgen


Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.