KI-Forscher von Facebook nutzen die technologische Grundlage moderner Sprach-KIs, um Objekte auf Bildern besser zu erkennen. Wie hilft Sprachtechnik bei Bildanalysen?

2017 veröffentlichten Google-Forscher die Transformer-Architektur, die heute die Grundlage aller größeren Sprach-KIs bildet, darunter Googles BERT, Facebooks RoBERTa oder OpenAIs GPT-3.

Transformer sorgte für große Fortschritte bei Sprachmodellen, Übersetzung und Spracherkennung, indem sie es Sprach-KIs ermöglicht, sich auf bestimmte Teile ihrer Eingabedaten zu konzentrieren und diese im Kontext der gesamten Daten zu verarbeiten – etwa Sätze innerhalb eines Artikels.

Die zuvor häufig verwendeten LSTM-Netzwerke (“Long short-term memory”) können bis zu hundert Wörter Kontext erfassen. Die Transformer-Architektur hingegen kann tausende Wörter gleichzeitig verarbeiten. Die KI-Forscher nennen diesen Mechanismus, wie man ihn auch beim Menschen nennen würde: Aufmerksamkeit.

Diese Transformer-Architektur kann auch in anderen Anwendungen nützlich sein: Abseits der Verarbeitung natürlicher Sprache (NLP) fanden Transformer etwa vereinzelt Anwendung in der Mathematik und Facebooks neueste KI könnte Bildanalyse revolutionieren was last modified: Mai 31st, 2020 by Maximilian Schreiner


Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.