Google stellt riesiges KI-Sprachmodell mit geringem Energieverbrauch vor

Google stellt mit GLaM ein riesiges KI-Sprachmodell vor, das OpenAIs GPT-3-Leistung bei deutlich geringerem Energieverbrauch erreicht.

Große Sprachmodelle mit Transformer-Architektur gehören zu den erfolgreichsten KI-Technologien der letzten zwei Jahre. Vorreiter ist OpenAI mit dem beeindruckenden GPT-3-Modell, dem zahlreiche Alternativen folgten: Nvidias NeMo Megatron, AI21 Labs Jurassic-1 Jumbo, BAAIs Wu Dao 2.0 oder Europas OpenGPT-X gehören dazu, ebenso eine ganze Reihe an Modellen von Google.

Während diese Modelle beeindruckende Zero- und One-Shot-Fähigkeiten in einer ganzen Reihe von Sprachaufgaben bieten, benötigen sie für KI-Training und Interferenz viel Energie. Für bessere Modelle galt außerdem bisher: mehr Daten, mehr Parameter.

Mixture-of-Experts Transformer ermöglicht geringeren Energieverbrauch

Auf der Suche nach effizienteren Modellen wandten sich Google-Forschende bereits im August 2020 zur Mixture-of-Experts-Architektur (MoE). Bei dieser werden innerhalb eines Netzes zahlreiche untergeordnete Netzabschnitte als Spezialisten für bestimmte Inputs trainiert. So leitet üblicherweise in einem Transformer-Modul ein einzelnes Netz Informationen weiter. Googles Team ersetzte dieses einzelne Netz in der Künstlichen Intelligenz durch zahlreiche Experten-Netze.

Das Feed-Forward-Netz im Transformer wird durch zahlreiche auf bestimmte Inputs spezialisierte FFNs ersetzt. | Video: Google

In der größten Variante des sogenannten „Mixture-of-Experts“-Transformer (kurz: MoE Transformer) kommt das größte Modell mit 36 Schichten auf 600 Milliarden Parameter. OpenAIs GPT-3 hat dagegen 96 Schichten – kommt aber nur auf 175 Milliarden Parameter.

Da jedoch bei einer Anfrage an das Netz immer nur die zugehören Experten-Netze aktiviert werden, benötigen MoE Transformer weniger Energie als ihre klassischen Verwandten mit weniger Parametern. Zusammen mit besserer Hardware können solche Modelle laut einer Studie von Google und der Universität Berkeley die CO2e-Emissionen von starken Sprach-KIs um das 100- bis 1000-fache senken.

Googles neues Sprachmodell hat 1,2 Billionen Parameter

Aufbauend auf den MoE Transformer stellt Google jetzt das "Generalist Language Model" (GLaM) vor. GLaM hat 1,2 Billionen Parameter und 32 MoE-Schichten mit jeweils 64 Experten-Netzen. Trainiert wurde GLaM mit einem 1,6 Billionen Token großen Textdatensatz. GPT-3 dagegen wurde mit einem 499 Milliarden Token großen Datensatz trainiert, hat also deutlich weniger Input bekommen. Alle Texte im GLaM-Trainingsdatensatz wurden automatisiert auf Qualität geprüft und sollen auf dem Niveau von Wikipedia-Artikeln oder Büchern liegen.

Laut Google übertrifft oder erreicht GLaM die Leistung von GPT-3 in fast 80 Prozent der Zero-Shot-Aufgaben und fast 90 Prozent der One-Shot-Aufgaben bei etwa halbem Energieverbrauch pro Abruf. Mit Nvidias neuem 530 Milliarden Megatron-Turing-Modell kann GLaM in sieben Aufgaben mithalten bei fünffach niedrigerem Energieverbrauch.

Empfehlung

KI-Forschung

I-JEPA: Metas KI-Chef Yann LeCun zeigt, was nach generativer KI kommt

Beim Training benötigt GLaM dagegen mehr Rechenleistung pro Token als GPT-3, verbraucht aber aufgrund effizienter Software und Googles TPUv4-Chips weniger als die Hälfte der Energie.

Google hofft, mit dem Ergebnis die Erforschung von rechen- und damit energieeffizienten Sprachmodellen voranzutreiben. GLaM erziele konkurrenzfähige Ergebnisse und sei ein effizienteres Modell als traditionell trainierte Sprachmodelle. Bisher hat Google das Modell nicht veröffentlicht.

Google stellt riesiges KI-Sprachmodell mit geringem Energieverbrauch vor

Mixture-of-Experts Transformer ermöglicht geringeren Energieverbrauch

Googles neues Sprachmodell hat 1,2 Billionen Parameter

I-JEPA: Metas KI-Chef Yann LeCun zeigt, was nach generativer KI kommt

Weiterlesen über Künstliche Intelligenz:

Innerer Monolog: Googles Roboter spricht mit sich selbst

Translatotron 2: Google streicht Deepfakes bei Babelfisch-KI

Google AI: Neues KI-Modell knackt Bildanalyse-Bestwert

Prompts mit vielen Beispielen verbessern die Leistung großer Sprachmodelle

US Air Force testet erfolgreich KI-gesteuertes Kampfflugzeug im simulierten Luftkampf

KI-Forscher warnt: Durch Sprachmodelle droht ein "Wissenskollaps"

Google stellt riesiges KI-Sprachmodell mit geringem Energieverbrauch vor

Mixture-of-Experts Transformer ermöglicht geringeren Energieverbrauch

Googles neues Sprachmodell hat 1,2 Billionen Parameter

Weiterlesen über Künstliche Intelligenz:

Artikel teilen

Bankverbindung