KI-Forscher von Google haben mit einer modifizierten Transformer-Architektur erstmals ein Sprachmodell mit mehr als einer Billion Parametern trainiert.

Viel hilft viel – das gilt aktuell bei Sprach-KIs: OpenAIs GPT-3 erschien im Mai 2020 mit 175 Milliarden Parametern. Das ist hundertmal größer als der Vorgänger GPT-2. Mit dem Parameterzuwachs kamen neue Möglichkeiten wie spannendere Geschichten, die Imitation berühmter Personen, Code-Generierung und ein bisschen Mathe.

Nur zwei Monate nach GPT-3 stellte Google eine neue Übersetzungs-KI mit 600 Milliarden Parametern vor. Der „M4“-Ansatz (Massively Multilingual, Massive Neural Machine Translation) erlaubt Googles KI, knapp über 100 Sprachen zu übersetzen.

Möglich ist das durch das neue Framework „GShard“, das riesige neuronale Netze wie Googles Übersetzungs-KI über mehrere KI-Chips aufteilt, damit etwa die Speichergrenzen einzelner Chips umgeht und somit das umfassende KI-Training überhaupt erst ermöglicht.

Expertennetze im Transformer

GShard erlaubt den Google-Forschern, das für Sprachaufgaben Standard gewordene Transformer-Modul (Erklärung) zu modifizieren. Üblicherweise wird diese Architektur skaliert, indem mehrere Transformer-Schichten übereinandergestapelt werden. Google nutzte jedoch einen anderen Ansatz: Die For…

MIXED.de Podcast: VR, AR und KI - jede Woche neu

Jetzt reinhören: Alle Folgen


Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.