Eine neue KI-App klont Stimmen und ist frei verfügbar. Steht uns die nächste Deepfake-Welle bevor?

Bisher ist der große Deepfake-Skandal ausgeblieben: Noch gehen keine diplomatischen Krisen oder unverdienten Wahlerfolge auf das Konto von KI-Fakes. Doch mit den anstehenden Präsidentschaftswahlen in den USA steigt die Nervosität.

US-Demokraten nutzten kürzlich auf einer Hacker-Konferenz eine Deepfake-Version ihres Parteivorsitzenden Tom Perez, um auf die Gefahren der Technologie hinzuweisen. Und der Kongressabgeordnete Adam Schiff warf den Social-Media-Riesen vor, sie seien nicht vorbereitet auf die große Deepfake-Welle.

Doch zum perfekten Fake braucht es neben Video auch Audio. Wer also keinen Zugriff auf einen Trump-Stimmimitator hat, tut sich noch schwer, dem US-Präsidenten beliebige Wörter in den Mund zu legen. Denn während die glaubwürdige Manipulation von Gesichtern immer leichter wird, gab es bisher wenig Möglichkeiten, die Stimme passend zu fälschen. Bis jetzt.

Stimmklon mittels Hörbuch

Der KI-Forscher Corentin Jemine veröffentlichte kürzlich eine Art Deepfake-App für Stimmen. Die Stimm-KI verarbeitet kurze Audioschnipsel von Stimmen, klont sie und generiert durch den Stimmklon beliebige gesprochene Texte.

Die Audioqualität ist noch mittelmäßig: Die KI-Stimme klingt blechern wie bei einer schlechten Telefonverbindung. Doch trotz dieser Schwächen ist die Originalstimme deutlich zu erkennen und klingt glaubwürdiger als die von kostenpflichtigen Angeboten wie Lyrebird. Trainiert wurde die KI mit englischsprachigen Hörbüchern. Sie kann daher nur englische Wörter gut aussprechen.

Die FakeApp für Stimmen?

Im einfachen App-Interface könnt ihr die Worte, die ihr jemandem in den Mund legen wollt, als Text hinterlegen. Mit einem Klick lernt die KI die Zielstimme aus einer von euch zur Verfügung gestellten Aufnahme. Mit einem weiteren Klick liest die KI euren Text mit der gelernten Stimme vor.

Durch die einfache Bedienung ist “Real Time Voice Cloning” das erste Open-Source-Tool, das es jedem erlaubt, beliebig Stimmen zu faken.

Rudimentäre Programmierkenntnisse sind höchstens für die Installation der Software notwendig – doch eigentlich kann jeder, der lesen kann, der einfachen Anleitung folgen.

RealTimeVoiceCloning-1

Die Bedienung ist simpel, aber lässt viele Modifikationen zu. Wer keine vornehmen will, wählt seine Sprachaufnahmen für den Stimmklon aus und gibt oben rechts den gewünschten Text ein. Unten wird die Ähnlichkeit von Stimmklon und Stimmquelle visualisiert. Das hilft, die Ergebnisse zu verbessern. Bild: Screenshot.

Auf dem Weg zum perfekten Ein-Klick-Deepfake

Real Time Voice Cloning wird wohl weniger Wellen schlagen als die erste Video-Deepfake-App “FakeApp”. Doch harmloser ist die Sprachklon-KI deshalb nicht: Menschen sind Augentiere. Sie sehen besser als sie hören.

Gefälschte Stimmen sind das bisher fehlende Puzzleteil zum perfekten, audiovisuellen Deepfake – ganz abgesehen von betrügerischen Telefonanrufen. Erst kürzlich erbeuteten Hacker angeblich Millionen mit einer Fake-CEO-Stimme.

Trotz noch vorhandener Qualitätsmängel ist die App durchaus ein Indikator für das, was noch kommen wird: bessere, frei verfügbare Fake-KIs für Stimmen und immer glaubwürdigere synthetische Inhalte.

Wer Real Time Voice Cloning ausprobieren will, findet das Programm auf Github. Wie ihr es nutzt, erklärt Jemine in seinem YouTube-Video.

Weiterlesen über Deepfakes:


MIXEDCAST #160: Ubsioft-VR, Kuro AR-Brille und Deepfake-App Zao | Alle Folgen


Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.