“Naja, wenn der Chef das sagt …”

Bekannt geworden sind Deepfakes zwar im Kontext von KI-gefälschten Fotos und Videos, aber das zugrundeliegende Prinzip lässt sich ebenso auf Audio übertragen:

Ein neuronales Netz wird mit möglichst vielen visualisierten Stimmproben einer Person trainiert und lernt so, mit einer künstlichen Stimme ähnlich oder fast identisch der Originalstimme zu sprechen.

Jetzt berichtet die Cyber-Sicherheitsfirma Symantec von drei Fällen, in denen Angreifer Deepfake-Audio verwendet haben sollen, um die Stimme des Geschäftsführers zu imitieren. Der Angreifer tippt, die Klonstimme spricht.

Mit dieser Fake-Stimme riefen sie in der Finanzabteilung an und gaben Anweisungen durch für eine dringende Überweisung. Ungereimtheiten in der KI-Klonstimme wurden mit Hintergrundgeräuschen maskiert.

Durch diese Masche erbeuteten die Deepfake-Ganoven angeblich Millionen US-Dollar. Die Namen der betroffenen Unternehmen sind nicht bekannt.

Die Trainingsdaten gibt’s frei Haus

Audiomaterial fürs KI-Training liefern zumindest größere Unternehmen für gewöhnlich reichlich: Bei YouTube und Co. existieren Aufzeichnungen von öffentlichen Auftritten und Reden des CEOs, Mitschnitte von Konferenztelefonaten gibt’s im Investorenbereich der Unternehmenswebseite.

Wer zusätzlich noch einen direkten Draht ins Unternehmen hat über einen untreuen Angestellten, könnte noch an deutlich mehr Audiodaten gelangen von internen Veranstaltungen und Telefonaten.

So kommen schnell Stunden an Trainingsmaterial zusammen, die ausreichen können für eine überzeugende Deepfake-Audio-Attacke.

Das KI-Startup Dessa stellte kürzlich die Software “RealTak” vor, die aus 1.300 Aufnahmen des populären Podcasters Joe Rogan eine Stimmkopie erstellte, die vom Original nicht mehr zu unterscheiden ist.

“Technologien wie die Sprachsynthese könnten enorme gesellschaftliche Auswirkungen haben. Und sie werden jeden betreffen”, heißt es im Blog der Firma.

Wie können sich Unternehmen gegen Deepfake-Angriffe schützen? Eigentlich nur grundlegend, indem sie zum Beispiel telefonische Anweisungen prinzipiell ignorieren oder wenigstens hinterfragen.

Denn eine verlässliche Methode, Deepfakes zu erkennen – egal ob Video oder Audio – existiert noch nicht. Außer vielleicht: ganz genau hinsehen und hinhören. Aber in der Hektik des Arbeitsalltags ist das mitunter eine hohe Hürde.

Quellen: BBC, Axios

Weiterlesen über Künstliche Intelligenz:


MIXED-Podcast #156: Drei Jahre XR-Podcast: Highlights, Lowlights, Überraschungen | Alle Folgen


Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.