Inhalt
newsletter Newsletter
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Google stellt mit einem riesigen Vision Transformer einen neuen Rekord im ImageNet-Benchmark auf.

Im Herbst 2020 zeigten Google-Forscher, dass KI-Bildanalyse mit sogenanten Transformer-Modellen (Erklärung) prinzipiell möglich ist: Der Vision Transformer (ViT) verarbeitet beim KI-Training Bilder in mehreren Abschnitten und sagt fehlende Bildabschnitte voraus. So entwickelt das System ein Verständnis für die Inhalte eines Bildes.

Die Forscher trainierten unter anderem ein 632 Millionen Parameter großes Transformer-Modell (ViT-Huge) mit 300 Millionen Bildern, das sich in fast allen Bild-Benchmarks an die Leistung der besten Bilderkennungssysteme annäherte.

Transformer-Systeme beweisen sich in der KI-Praxis

Bisherige Erfahrungen aus der Arbeit mit Transformern bei der Verarbeitung natürlicher Sprache zeigen, dass Transformer-Systeme üblicherweise mit mehr Daten und größeren Modellen besser abschneiden. In einer neuen Forschungsarbeit demonstrieren Google-Forscher nun, dass dieses Verhältnis auch für die Vision Transformer gilt.

Anzeige
Anzeige

Die Forscher des Google Brain Teams aus Zürich haben mehrere ViT-Modelle trainiert, um Daten über Performance, benötigte Rechenleistung und Trainingsverlauf zu sammeln. Das größte Modell ViT-G/14 kommt auf knapp zwei Milliarden Parameter, wurde mit drei Milliarden Bildern trainiert und erreicht nach zusätzlichem Training mit dem ImageNet-Datensatz im ImageNet-Benchmark einen neuen Bestwert von 90,45 Prozent Top-1-Genauigkeit.

Es liegt mit diesem Ergebnis knapp 0,1 Prozentpunkte vor dem ViT-Modell ViT-MoE-15B. Das 2012 für den ImageNet-Moment verantwortliche AlexNet liegt mittlerweile auf Platz 415 der Bestenliste mit einer Genauigkeit von 63,3 Prozent. Der ImageNet-Moment gilt als Beweis, dass Deep Learning für maschinelle Lernaufgaben nützlich ist.

Große ViT-Modelle sind Few-Shot-Lerner

Die Forscher testeten außerdem die Few-Shot-Fähigkeiten (Erklärung) ihres ViT-Modells. Bei Few-Shot-Lernmethoden soll ein vortrainiertes KI-Modell anhand weniger Beispiele eine neue oder erweiterte Fähigkeit lernen und so flexibler generalisieren.

Ein mit drei Milliarden Bildern vortrainiertes ViT-G/14 trainierten die Forscher mit zehn Beispielbildern pro ImageNet-Kategorie nach. Das entspricht knapp einem Prozent der üblicherweise für das KI-Training verwendeten ImageNet-Daten.

ViT-G/14 erreichte trotz der wenigen Beispiele eine Top-1-Genauigkeit von 84,86 Prozent und gehört damit zu den Top 80 Systemen im Benchmark. Das Modell der Forscher zeigt so deutlich, dass ein großes Transformer-Modell auch in der Bildanalyse über Few-Shot-Fähigkeiten verfügt und so schnell Muster in bisher ungesehenen Bildern lernen kann. Das Resultat zeige, dass sich größere KI-Modelle lohnen, wenn zusätzliche Rechenleistung verfügbar ist, schreiben die Forscher.

Empfehlung

Noch größere Transformer-Modelle sind für die Zukunft also zu erwarten und könnten eines Tages ein Bildanalyse-System hervorbringen, das für vielfältige Aufgaben mit nur wenigen Beispielen spezialisiert werden kann.

Via: Arxiv; Titelbild: Google

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Weiterlesen über Künstliche Intelligenz:

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!