Der Artikel kann nur mit aktiviertem JavaScript dargestellt werden. Bitte aktiviere JavaScript in deinem Browser und lade die Seite neu.
Microsofts Bildbeschriftungs-KI soll das Web zugänglicher machen – und ist gleichzeitig ein Fortschritt in der Bildanalyse durch Künstliche Intelligenz. Sie erzielt unter kontrollierten Bedingungen eine menschenähnliche Leistung.
Mit Werbeeinnahmen bezahlen wir unsere Redakteur:innen. Mit einem MIXED-Abo kannst Du unsere Seite werbefrei lesen.
Theoretisch können für Bilder im Web und in Dokumenten alternative Bildtexte hinterlegt werden, die den Inhalt des Bildes beschreiben. Diese Beschreibungen helfen sehbehinderten Menschen, visuelle Inhalte zu verstehen und in den Kontext beispielsweise eines Artikels zu bringen.
Sehende Autoren lassen diese Zeilen jedoch häufig leer – gut wäre es also, man könnte diesen Vorgang maschinell automatisieren. Microsoft stellt jetzt eine verbesserte KI vor, die genau das leisten soll. Dafür segmentiert sie das Bild zunächst – zerlegt es also in einzelne Bestandteile wie Vorder- und Hintergrund, Mensch, Gesicht, Emotion – analysiert diese Bestandteile und generiert dazu passende Beschriftungen.
___STEADY_PAYWALL___
Im Vergleich zur Vorgängerversion dieser KI, die seit 2015 im Einsatz ist, erreicht das neue System laut Microsoft eine doppelt so gute Leistung. In dem Bild-Beschriftungs-Benchmark „nocaps“ erzielte es einen Bestwert. Sie macht weniger Fehler und beschreibt Bilder präziser als vergleichbare Systeme.
Bildbeschriftung durch KI: So gut wie der Mensch?
Laut Microsoft erzielt die KI damit eine Leistung bei der Bildbeschriftung vergleichbar mit der eines Menschen. Allerdings bezieht sich diese Aussage nur auf die rund 15.000 im nocaps-Benchmark enthaltenen Bilder.
Die Vielfalt und Komplexität von visuellen Motiven geht jedoch weit über das hinaus, was die nocaps-Bildersammlung abbilden kann. Hinzu kommt, dass die Bewertungskriterien für gute oder schlechte Bildbeschriftungen nur bedingt menschliche Bedürfnisse in verschiedenen Kontexten abbilden können – weshalb auch die Entwickler des Benchmarks eben diesen nur als „groben Indikator“ für die Leistung der KI bezeichnen.
Die Nützlichkeit einer starken Bildanalyse-KI geht über automatische Bildbeschriftungen im Internet oder in Dokumenten hinaus: Menschen mit Sehbehinderung können sie im Alltag einsetzen, um sich in Echtzeit besser in der Umgebung zu orientieren. Microsoft setzt die KI-Technik in der Bildbeschreibungs-App „Seeing AI“ ein.
Letztlich könnte autonome Robotertechnologie davon profitieren, Inhalte auf Bildern oder in Videos verlässlich zu erkennen und zu beschreiben. Details zur Forschungsarbeit und zum KI-Training veröffentlicht Microsoft im eigenen Forschungsblog.
Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.