Inhalt
newsletter Newsletter
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Facebooks neue Sprach-KI generiert menschlich klingende Stimmen in Millisekunden - und das auf mobilen Prozessoren.

Die von Facebooks KI-Forschern vorgestellte Sprach-KI liest Texte mit einer künstlichen Stimme vor. Solche sogenannten Text-zu-Sprache (TTS) Systeme generieren die Stimmen von Systemen wie Amazons Alexa oder Googles Assistant. Facebooks Sprach-KI ist bereits in dem Smart Display "Portal" aktiv und könnte in Zukunft einen digitalen Sprachassistenten in Facebooks VR-Brillen mit einer Stimme versehen.

Die Sprach-KI besteht aus vier Bausteinen: ein linguistisches Frontend, ein Prosodie-Modell, ein akustisches Modell und ein neuronaler Vocoder.

Das linguistische Frontend konvertiert den eingegebenen Text in eine Folge linguistischer Merkmale wie Phoneme und Satzart. Das Prosodie-Modell sagt Merkmale wie Rhythmus und Melodie eines Satzes voraus. Das akustische Modell generiert aus beiden Informationen eine spektrale Frequenz, die der neuronale Vocoder anschließend mit den Informationen des Prosodie-Modells in Sprache umwandelt.

Anzeige
Anzeige

Das Ergebnis ist eine künstliche Stimme mit realistischem Klang, die kaum mehr oder sogar gar nicht von einer menschlichen Stimme zu unterscheiden ist.

Der modulare Aufbau bringt Vorteile

Das separate Prosodie-Modell erlaubt es Facebook, der fertig trainierten Sprach-KI mit nur 30 bis 60 Minuten zusätzlichen Audioaufnahmen neue Sprachstile beizubringen.

So könnte ein digitaler Assistent schneller Sprechen, wenn der Zuhörer gerade auf dem Weg aus dem Haus ist oder in einer ruhigen Umgebung flüstern. Das klingt dann so wie in folgendem Beispiel.

Die Trennung von akustischem Modell und neuronalem Vocoder ermöglicht es den KI-Forschern außerdem, die beiden Module unabhängig voneinander zu optimieren. Durch die Optimierung läuft Facebooks Sprach-KI sogar auf mobilen CPUs. Vergleichbar leistungsfähige Künstliche Intelligenz für Sprache benötigt häufig leistungsfähige Grafikkarten oder spezialisierte KI-Chips wie Googles TPU.

Sprache in Millisekunden

Ohne Optimierung benötigte Facebooks KI für jede Sekunde generierter Sprache 80 Sekunden Rechenzeit. Die KI bräuchte also knapp vier Minuten, um einen Satz mit drei bis sechs Wörtern auszusprechen.

Empfehlung

Die KI-Forscher setzen auf die parallele Ausführung auf mehreren CPU-Kernen und auf Methoden der sogenannten Modell-Sparsifizierung, die neuronale Netze sparsamer rechnen lassen. Beide Ansätze in Kombination führten zu einer 160fach schnelleren KI: Für eine Sekunde Sprachgenerierung braucht die KI nur noch 500 Millisekunden.

Facebook plant der Sprach-KI neue Akzente, Dialoge und Sprachen beizubringen. Aktuell kann das System neben Englisch schon Französisch, Deutsch, Italienisch und Spanisch. Die benötigte Rechenleistung soll außerdem weiter reduziert werden, damit die Sprach-KI auch auf schwächeren Systemen läuft.

Titelbild: Facebook, Quelle: Facebook

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Weiterlesen über Künstliche Intelligenz:

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!