Die Akzeptanz KI-gestützter persönlicher Assistenzsysteme dürfte steigen, wenn diese wie echte Menschen klingen. Google macht einen großen Schritt dahin: Die neueste synthetische Sprachausgabe ist klanglich kaum mehr als Roboterstimme zu erkennen.

Googles neue Klang-KI Tacotron 2 nutzt ein visuelles Text-zu-Sprache-Verfahren. In einem ersten Schritt erstellt das System ein Spektrogramm, das ist eine grafische Darstellung eines Klangs. Es enthält Tonhöhen und weitere Parameter, die auf die korrekte Aussprache hinweisen.

Das Spektrogramm wird anschließend von Deepminds neuronalem Netz Wavenet in Sprache verwandelt. Die Software ist darauf spezialisiert, anhand solcher Graphen Töne zu erzeugen und wird seit Oktober 2017 für die Stimme des Google Assistenten eingesetzt.

Trainiert wurde Tacotron 2 mit 24 Stunden Tonmaterial einer professionellen Sprecherin. Die Resultate klingen so authentisch, dass sie im Grunde nicht mehr von realen Sprachaufnahmen zu unterscheiden sind.

 

Google verrät nicht, welches Audiobeispiel generiert und welches menschlichen Ursprungs ist, versteckt aber einen Hinweis im Dateinamen: Die erste Audiodatei …

MIXED.de Podcast: VR, AR und KI - jede Woche neu

Jetzt reinhören: Alle Folgen


Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.