Einblick in die KI-Bildanalyse: KI sieht Texturen statt Formen

Bild-KIs erkennen Objekte - oder vielleicht doch nicht? Deutsche Forscher haben einen Blick in die Black Box KI geworfen und machten eine überraschende Feststellung.

Seit dem ImageNet Durchbruch 2012 hat die Leistung Künstlicher Intelligenz bei der Bilderkennung stetig zugenommen. Dieser Fortschritt ist eine der wesentlichen Grundlagen aktueller KI-Anwendungen wie etwa akkurate Gesichtserkennung, frühzeitige Krebsdiagnose oder fortschrittliche Augmented Reality.

Doch bei allen Erfolgsmeldungen gibt es immer wieder Fälle, in denen KIs bei der Bildanalyse versagen. Oft reichen schon Details, um die KI aus dem Tritt zu bringen: etwa eine geringere Auflösung oder veränderte Lichtverhältnisse. Ein unerwarteter Farbfleck lässt die KI beispielsweise statt einer Schildkröte ein Gewehr sehen.

KI Formen statt Textur 2 — Menschen können den Vogel auf jedem Bild problemlos erkennen trotz Bildstörungen. KIs bringt das meist aus dem Tritt. Bild: Geirhos et al.

Bild-KIs sind angreifbar – weil sie anders funktionieren als gedacht

Eine Forschergruppe aus Deutschland hat jetzt aufgedeckt, warum Bild-KIs zu Fehlern neigen - und wie man sie vermeiden kann.

Das ist wichtig, denn Hacker könnten die visuellen Schwächen ausnutzen und beträchtlichen Schaden anrichten, indem sie blinde Flecken gezielt angreifen: Ein autonomes Auto könnte ein Stoppschild übersehen oder ein Unschuldiger als Verbrecher identifiziert werden.

Doch woher kommen diese blinden Flecken?

KIs identifizieren Objekte, indem sie stufenweise immer komplexere Formen erkennen. Am Anfang sieht die KI zum Beispiel nur einen ovalen Körper. Nach ausreichend Training erkennt sie die Konturen genauer und in ihnen eine Katze. So lautete zumindest bisher die Annahme.

Die Forscher zeigen jedoch, dass diese nicht richtig sein kann. Die Architektur der neuronalen Netze erlaubt zwar prinzipiell den beschriebenen Lermprozess. Aber KIs lernen anders: Sie orientieren sich stärker an Oberflächen und Texturen als an Formen.

Katzenelefant

Um dem Analyseverhalten einer Bild-KI auf die Spur zu kommen, zeigen die Forscher ihr Fotos, auf denen die Form eines Objekts mit der Oberflächentextur eines anderen vermischt ist, etwa die Form einer Katze mit der Haut eines Elefanten.

Empfehlung

KI-Forschung

Minecraft-Bot Voyager programmiert sich mit GPT-4 selbst

Die veränderte Textur erzeugt bei der KI Fehler: Eine Katze mit Elefantenhaut wird nicht mehr als Katze erkannt, obwohl die Form ihres Körpers unverändert ist.

KI Formen statt Textur 3 — Die Geheimnisse des Katzenelefanten bleiben der KI verschlossen: Sie sieht nur einen Elefanten. Menschen würden die Katze sehen auf der Haut eines Elefanten. Bild: Geirhos et al.

Die Erklärung der Forscher: Während Menschen Objekte anhand ihrer Form eindeutig zuordnen können, orientiert sich die KI an der Oberfläche des Objekts.

Diese Annahme ergibt Sinn, denn die KI sucht Pixel für Pixel das Bild nach wiederkehrenden Mustern ab. Genau solche Muster findet sie besonders gut in den Oberflächentexturen. Da ist die Künstliche Intelligenz dann doch ganz Mensch und geht den Weg des geringsten Widerstands.

Formen erkennen ist flexibler

Zwar täuschen sich mitunter auch Menschen und erkennen ein Objekt falsch, wenn es mit ungewöhnlicher Oberfläche erscheint. Aber die Objekterkennung anhand der Form ist insgesamt dennoch verlässlich:

Eine Form sieht unabhängig von externen Einflüssen fast immer gleich aus. Selbst wenn der Mensch nur einen Ausschnitt von ihr sieht, kann er die restliche Form gedanklich ergänzen.

Oberflächen hingegen können je nach Blickwinkel, Lichtverhältnissen und anderen Umwelteinflüssen recht unterschiedlich aussehen.

KI Formen statt Textur 4 — Die Forscher setzen mit einem KI-Tool erstellte Bildvarianten für das Formentraining ein. Trotz Farb- und Musterveränderung bleibt die Form erhalten. Bild: Geirhos et al.

Die Forscher starteten daher einen ersten Versuch, eine Bild-KI mit Form- statt Texturerkennung zu entwickeln. Dafür trainierten sie die KI mit Fotos von Objekten, deren Texturen ständig wechselten, während die Form erhalten blieb.

Das neue Trainingsverfahren hatte gleich zwei positive Folgen: Die formbasiert trainierte KI erzielte in den Bilderkennungstests der Forscher eine überdurchschnittliche Leistung. Und sie lässt sich bei ihrer Analyse nicht so leicht durch Angriffe aus der Bahn werfen.

Titelbild: Geirhos et al., Quelle: Open Review

Einblick in die KI-Bildanalyse: KI sieht Texturen statt Formen

Bild-KIs sind angreifbar – weil sie anders funktionieren als gedacht

Katzenelefant

Minecraft-Bot Voyager programmiert sich mit GPT-4 selbst

Formen erkennen ist flexibler

Weiterlesen über Künstliche Intelligenz

Autonomes Fahren: Die Robo-Autos von Google, Apple, Baidu und Co.

Autonomes Fahren: 8 Start-ups fahren fahrerlos durch Kalifornien

Tesla: US-Behörden veröffentlichen neuen Unfall-Bericht

Jenseits der Wortvorhersage: So könnte die Zukunft von KI-Sprachmodellen aussehen

KI-Forscher zeigen Lösungsansatz für eines der größten LLM-Probleme

Prompts mit vielen Beispielen verbessern die Leistung großer Sprachmodelle

Einblick in die KI-Bildanalyse: KI sieht Texturen statt Formen

Bild-KIs sind angreifbar – weil sie anders funktionieren als gedacht

Katzenelefant

Formen erkennen ist flexibler

Weiterlesen über Künstliche Intelligenz

Artikel teilen

Bankverbindung