Das inhaltliche Verständnis für Sprache und Text gilt als Schwachpunkt Künstlicher Intelligenz. Eine neue Methode könnte diese Hürde nach und nach überwinden.

KI-gestützte Bilderkennung ist Teil unseres Alltags: Facebook erkennt Personen auf Fotos, Überwachungskameras scannen U-Bahn-Passagiere und selbstfahrende Autos finden sich testweise auf den Straßen.

Es gibt verschiedene Bewertungsverfahren für das Leistungsvermögen einer Bildanalyse-KI. Die „ImageNet Large Scale Visual Recognition Challenge“ (ILSVRC) ist eines von ihnen. Es gründet auf dem ImageNet-Datensatz, den die bekannte KI-Forscherin Fei-Fei Li 2009 zusammenstellte, Googles aktuelle und bald ehemalige KI-Chefin.

Ihre Idee: Selbst das beste neuronale Netzwerk taugt nichts, wenn die für das Training verwendeten Daten nichts mit der Realität zu tun haben.

Seit der ImageNet-Test existiert, versuchen Forscher Jahr für Jahr mit ihrem KI-System neue Bestmarken zu erreichen. Der Wendepunkt für Bildanalyse-KIs kam 2012, als Forscher ein Deep Learning Netzwerk (DNN) trainierten, das die ImageNet-Herausforderung 41 Prozent besser bestand als alle konkurrierenden Verfahren.

Der Erfolg dieses Netzwerks lag in seinem mehrschichtigen Aufbau begründet. Jede Schicht analysierte einzelne Pixelgruppen, also letztlich Bildinformationen: So erkannte es Ränder, Texturen und Muster bis hin zu Objekten.

Der MIXED.de XR-Podcast #178

Jetzt reinhören: Tik-Tok-Deepfakes, Neon-Wesen und VR-Gewalt | Alle Folgen



Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.