Alexas etwas hölzerne Blechstimme klingt dank KI-Sprachsynthese jetzt viel menschlicher.

Statt wie bei der bisherigen Sprachsynthese einzelne Laute aus Sprachbeispielen zu Worten aneinanderzureihen, setzt Amazon zukünftig auf ein KI-gestütztes Text-zu-Sprache-Verfahren, genannt “neural text-to-speech” (NTTS).

Beim NTTS-Verfahren übersetzt ein spezialisiertes neuronales Netz Laute in ein Spektrogramm, also in eine grafische Darstellung eines Klangs. Diese Darstellung enthält detaillierte Parameter über die Intonation. Ein zweites neuronales Netzwerk setzt das Spektrogramm in zusammenhängendes Audio um.

Der KI-Ansatz schlägt die klassische Sprachsynthese deutlich: Alexa liest Nachrichten zukünftig auf dem Niveau einer professionellen Sprecherin vor. Die künstliche Stimme ist kaum mehr von einer menschlichen zu unterscheiden.

Herkömmliche Sprachsynthese:

KI-gestützte Sprachsynthese:

Um die typische Intonation einer Nachrichtensprecherin besser nachzustellen, wurde das neuronale Netzwerk laut Amazon mit einigen Stunden Tonmaterial einer menschlichen Nachrichtensprecherin trainiert.

KI-gestützte Sprachsynthese nach dem Sprachtraining:

Mit bisherigen Sprachsynthese-Verfahren war laut Amazons KI-Entwickler Trevor Wood eine authentisch klingende KI-Nachrichten…


MIXEDCAST #172: Half-Life: Alyx und Oculus Link Test | Alle Folgen


Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.