KI-Kunst: Google zeigt eindrucksvolle Stimmsynthese

KI-Kunst: Google zeigt eindrucksvolle Stimmsynthese

Im Kunst-KI-Experiment „Blob Opera“ rekonstruiert Google die Stimmen von Profi-Sängern und -Sängerinnen eindrucksvoll maschinell und lässt sie harmonisch im Quartett intonieren.

Das von KI-Künstler David Li gemeinsam mit Google entwickelte Opern-Experiment zeigt die Fortschritte bei künstlicher Stimmsynthese. Ein mit 16 Stunden Gesang trainiertes neuronales Netz fügt die Stimmen von Cristian Joel (Tenor), Frederick Tong (Bass), Joanna Gamble (Mezzosopran) und Olivia Doutney (Sopran) stets so zusammen, dass sie gut klingen – für sich allein und gemeinsam im Chor.

Die KI-Technik verpackt Google in einem witzigen Web-Interface: Über eine Browser-Oberfläche könnt ihr durch einfaches Ziehen an den Blobs von oben nach unten die Tonhöhe ändern. Seitliche Bewegungen beeinflussen die Vokale, die sie erzeugen.

Die anderen Blobs in der Reihe harmonieren in Echtzeit auf jede Veränderung, die ihr an einem Blob erzeugt. Auf diese Art können einfache Melodien leicht mehrstimmig maschinell nachgesungen werden.

Mit den Blob-Sängern könnt ihr auf dieser Webseite herumspielen. Unten links auf der Webseite findet ihr einen Aufnahmeknopf, mit dem ihr euer Werk aufzeichnen und als Weihnachtsgruß versenden könnt. Rechts unten könnt ihr von Google vorprogrammierte Weihnachtslieder abspielen und verändern.

Eindrucksvolle KI-Stimmsynthese

Den Code hinter dem KI-Projekt oder eine Dokumentation veröffentlichte Google bislang nicht. Wahrscheinlich operiert das System mit unterschiedlichen neuronalen Netzen: Ein lernender Algorithmus entdeckt die Harmonie-Muster im Trainingsmaterial. Ausgehend von diesen Mustern kann er dann vorhersagen, welche Note wahrscheinlich harmonisch auf eine andere folgt. Das ist nicht neu, aber witzig verpackt.

Ein zweites neuronales Netz, und das ist der beeindruckendere Part an Googles Kunst-KI-Projekt, wird für die Stimmsynthese der Blobs und insbesondere für die nahtlosen Übergänge zwischen den einzelnen Tönen und Stimmen verantwortlich sein.

Die Stimmen der Blobs sind vollständig maschinell erzeugt basierend auf dem Trainingsmaterial. „Statt der Stimmen der Sänger hört man das maschinelle Verständnis des KI-Modells, wie eine Oper klingen sollte“, schreibt Google.

Eine authentische Stimmsynthese wie diese ist anspruchsvoll und eine noch recht neue Entwicklung in der jüngeren KI-Geschichte. Google legte hier zuvor mit der Telefon-KI Duplex die Messlatte nach oben.

Dass die menschliche Stimme maschinell immer glaubhafter nachgebildet werden kann, birgt Risiken: Deepfake-Stimmen sollen bereits bei Diebstählen per Telefon eingesetzt worden sein.

Weiterlesen über KI und Kunst: