Microsofts Bildbeschriftungs-KI soll das Web zugänglicher machen – und ist gleichzeitig ein Fortschritt in der Bildanalyse durch Künstliche Intelligenz. Sie erzielt unter kontrollierten Bedingungen eine menschenähnliche Leistung.

Theoretisch können für Bilder im Web und in Dokumenten alternative Bildtexte hinterlegt werden, die den Inhalt des Bildes beschreiben. Diese Beschreibungen helfen sehbehinderten Menschen, visuelle Inhalte zu verstehen und in den Kontext beispielsweise eines Artikels zu bringen.

Sehende Autoren lassen diese Zeilen jedoch häufig leer – gut wäre es also, man könnte diesen Vorgang maschinell automatisieren. Microsoft stellt jetzt eine verbesserte KI vor, die genau das leisten soll. Dafür segmentiert sie das Bild zunächst – zerlegt es also in einzelne Bestandteile wie Vorder- und Hintergrund, Mensch, Gesicht, Emotion – analysiert diese Bestandteile und generiert dazu passende Beschriftungen.

Im Vergleich zur Vorgängerversion dieser KI, die seit 2015 im Einsatz ist, erreicht das neue System laut Microsoft eine doppelt so gute Leistung. In dem Bild-Beschriftungs-Benchmark “nocaps” erzielte es einen Bestwert. Sie macht weniger Fehler und beschreibt Bilder präziser als vergleichbare Systeme.


Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.