Googles neuer Benchmark BLEURT für Sprach-KI bewertet maschinelle Übersetzungen halbautomatisch und könnte so zu weiteren KI-Verbesserungen führen.

In der KI-Entwicklung nehmen Benchmarks eine ambivalente Rolle ein: Durch sie lassen sich KI-Systeme miteinander vergleichen und so Fortschritte messen. Aber sie dienen auch als Fixstern in der KI-Entwicklung: Häufig werden KI-Systeme für bestimmte Benchmarks entwickelt und optimiert.

Das hat zur Folge, dass ein unzureichender Benchmark nicht nur wenig bis nichts über die tatsächliche Leistungsfähigkeit eines Systems aussagt, sondern er kann zusätzlich Entwicklungsfortschritte behindern, indem er KI-Entwickler in falsche Richtung lotst.

Vor diesem Problem steht auch die Entwicklung von KI-Übersetzungen. Um deren Leistung zu bewerten, gibt es zwei Ansätze: menschliche und automatisierte Beurteilungen.

Menschen erkennen zuverlässig Feinheiten in der Sprache und sind daher der Goldstandard für die die Bewertung maschinell generierter Texte und Übersetzungen. Doch Menschen sind langsam und teuer.

Automatisierte Beurteilungen wie das häufig genutzte BLEU-Verfahren („bilingual evaluation understudy“) sind im Vergleich kostengünstig und schnell – aber weit vom menschlichen Textverständnis entfernt. Häufig sortieren sie etwa Übersetzungen aus, die zwar inhaltlich korrekt sind, aber von der Wortzahl nicht mit der im…

MIXED.de Podcast: VR, AR und KI - jede Woche neu

Jetzt reinhören: Alle Folgen


Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.