KI-Forscher von Facebook nutzen die technologische Grundlage moderner Sprach-KIs, um Objekte auf Bildern besser zu erkennen. Wie hilft Sprachtechnik bei Bildanalysen?

2017 veröffentlichten Google-Forscher die Transformer-Architektur, die heute die Grundlage aller größeren Sprach-KIs bildet, darunter Googles BERT, Facebooks RoBERTa oder OpenAIs GPT-3.

Transformer sorgte für große Fortschritte bei Sprachmodellen, Übersetzung und Spracherkennung, indem sie es Sprach-KIs ermöglicht, sich auf bestimmte Teile ihrer Eingabedaten zu konzentrieren und diese im Kontext der gesamten Daten zu verarbeiten – etwa Sätze innerhalb eines Artikels.

Die zuvor häufig verwendeten LSTM-Netzwerke (“Long short-term memory”) können bis zu hundert Wörter Kontext erfassen. Die Transformer-Architektur hingegen kann tausende Wörter gleichzeitig verarbeiten. Die KI-Forscher nennen diesen Mechanismus, wie man ihn auch beim Menschen nennen würde: Aufmerksamkeit.

Diese Transformer-Architektur kann auch in anderen Anwendungen nützlich sein: Abseits der Verarbeitung natürlicher Sprache (NLP) fanden Transformer etwa vereinzelt Anwendung in der Mathematik und dem bestärkenden Lernen. Doch in der weit verbreiteten Bildanalyse blieb die Transformer-Revolution bisher aus.

Bis jetzt: KI-Forscher von Facebook stellen die erste Bildanalyse-KI vor, die auf Googles Transformer setzt.

Höhere Aufmerksamkeit für kontextbezogene Analysen

Während traditionelle KI-Modelle für die Bildanalyse wie Microsofts “Faster R-CNN” auf komplexe und per Hand gebaute, vielschichtige KI-Netze setzt, besteht Facebooks Detection Transformers (DETR) aus zwei Bausteinen: einem gefalteten neuronalem Netzwerk (Convolutional Neural Network), das Informationen aus dem Bild zieht, und einem Transformer, der diese Informationen nutzt, um Objekte zu erkennen.

Das Besondere: Der Transformer kann für die Identifikation eines Objektes Informationen aus anderen Regionen des Bildes nutzen. So kann er etwa die Beziehung zwischen zwei Objekten im Bild erkennen und diese Informationen für eine genauere Analyse verwenden.

Ein Beispiel: Wenn DETR erkennt, dass auf dem Bild eine Person am Strand steht, weiß die KI, dass ein von der Person verdecktes Objekt mit größerer Wahrscheinlichkeit ein Surfbrett als ein Schlitten ist. Bildanalyse-KIs ohne Transformer-Architektur identifizieren hingegen jedes Objekt für sich, ohne umliegende Informationen zu nutzen.

KI-Bildanalyse: Einsatz von Transformern schon bald Standard?

DETR erreiche in der Bildanalyse die Leistung von Faster R-CNN, so die Forscher. Die KI sei dabei simpler und flexibler als ihre Konkurrenz. Darüber hinaus verspreche die erfolgreiche Geschichte der Transformer in der Sprach-KI-Forschung zukünftige Leistungs- und Effizienzsteigerungen für die Bildanalyse-KIs.

Möglicherweise sei der Einsatz der Transformer-Architektur auch der fehlende Baustein, der Bild- und Textanalyse vereint. Beide Forschungsfelder hätten große Fortschritte gemacht – jedoch forsche jedes Feld für sich. Die Facebook-Forscher glauben, dass neue KIs wie DETR diese Kluft überwinden und so Aufgaben wie Facebooks “Hateful Memes Challenge” lösen können. Hier will Facebook per KI Memes mit aggressiver Text-Bild-Kombination erkennen.

Der DETR-Quellcode und vortrainierte Modelle stehen kostenlos bei Github zur Verfügung.

Quelle: Facebook

Weiterlesen über Künstliche Intelligenz:

steady2

MIXED.de XR-Podcast - jetzt reinhören

Aktuell: Apple waits, Oculus goes | Alle Folgen



Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.