Deepdub: KI lässt Schauspieler alle Sprachen sprechen

KI baut viele Prozesse um oder komplett neu: Film- und Serienlokalisierung könnte einer davon sein.

Das 2019 gegründete israelische Start-up Deepdub will mit Spracherzeugung per Künstliche Intelligenz (Erklärungen) die Lokalisierung von Filmen und Serien revolutionieren: Ein mit Sprachdaten des jeweiligen Schauspielers trainiertes neuronales Netz soll eine künstliche Stimme erzeugen, die wie das Original klingt - nur in jeweils unterschiedlichen Sprachen.

Wenn Pedro Pascal im Mandalorian also "This is the way" sagt, könnte die KI diesen Satz in Pascals Stimme in zahlreichen anderen Sprachen wie Deutsch, Französisch oder Spanisch aussprechen. Der Vorteil ist klar: Die Charakteristik der eigenen Stimme bliebe dem Schauspieler international erhalten und würde nicht von einer anderen Person geprägt.

Wie bedeutend die Stimme sein kann, sieht man am Beispiel von Manfred Lehmann, der markanten deutschen Synchronstimme von Bruce Willis, der mit seiner Interpretation von Willis und seiner Klangfarbe die Rollen des Schauspielers - in Deutschland - mitprägte. Beispiele dieser Art gibt es viele, die KI-Revolution könnte sie zu einem Relikt der Vergangenheit machen.

Vollautomatische Lokalisierung per KI

Die Software Deepdub des gleichnamigen Start-ups kann derzeit in sechs verschiedene Sprachen übersetzen, darunter Deutsch. In den nächsten Monaten soll die Anzahl der Sprachen verdoppelt werden, die vollautomatische Lokalisierung in bis zu 60 Sprachen ist das Ziel.

Nur Details wie lokale Idiome oder Marken sollen zukünftig nachbearbeitet werden müssen. Hat das System diese Eigenheiten einmal gelernt, soll die Nacharbeit bei Folgeprojekten entfallen, sodass der manuelle Aufwand bei der Lokalisierung kontinuierlich sinkt.

Die KI (News) soll die Sprachänderung sogar bei fertig gemischten Filmen mit nur einer Tonspur noch vornehmen können, indem sie einzelne Stimmen erkennt und ersetzt. Auf die Art wären beispielsweise die riesigen Archive der Online-Streaming-Services nachträglich vollständig lokalisierbar.

Direkte Konkurrenz für Deepdub ist das Start-up Resemble AI, das ebenfalls auf KI-generierte Stimmen spezialisiert ist und in den Markt für Lokalisierungen drängt: Der Lokalisierungsprozess soll mit der eigenen KI-Technik von zwei Monaten auf eine Woche verkürzt werden.

Die Audiobeispiele von Resemble AI bieten einen klaren Wiedererkennungswert, für eine hochwertige Lokalisierung klingen die KI-Stimmen allerdings noch zu roboterhaft. Dass künstliche Stimmgenerierung schon besser geht, zeigt Google bei der Telefon-KI Duplex.

Empfehlung

KI in der Praxis