OpenAIs Sprach-KI GPT kann jetzt Bilder: Statt Wörter und Sätze produziert die KI Katzen, Vögel oder Zebrastreifen. Die Fotos sind teils unterhaltsam, aber vor allem ein Hinweis, dass KI generalisierbarer wird.

Ende Mai stellte OpenAI die riesige Sprach-KI GPT-3 vor, knapp zwei Wochen später dann das erste eigene KI-Produkt auf Basis von GPT-3. Jetzt gibt es schon die nächste Neuigkeit: Image GPT – eine Bild-KI, die noch auf dem Vorgängermodell GPT-2 beruht.

Die Sprach-KI GPT-2 zeigte letztes Jahr, dass die Kombination aus jeder Menge Daten, großem KI-Modell und Googles Transformer-Architektur neue KI-Höchstleistungen bei der Sprachgenerierung erreicht.

Transformer sorgte für große Fortschritte bei Sprachmodellen, Übersetzung und Spracherkennung, indem sie es Sprach-KIs ermöglicht, sich auf bestimmte Teile ihrer Eingabedaten zu konzentrieren und diese im Kontext der gesamten Daten zu verarbeiten – etwa Sätze innerhalb eines Artikels oder Wörter innerhalb eines Satzes. Im Trainingsprozess versucht die KI dann, das jeweils nächste Wort in einem Satz im Rahmen des bisher gelernten Kontextes vorherzusagen.

OpenAI untersucht jetzt, ob diese Methode auch für andere Datentypen funktioniert. Dass die sogenannte Transformer-Architektur für mehr als Sprache taugt, zeigen KI-Experimente wie die im Mai veröffentlichte


Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.