Daten für das KI-Training sind teuer. Günstiger wäre es, man würde sie künstlich generieren. Forscher halten das für keine gute Idee, weil es Vorurteile in KI-Systemen verstärken könnte.

KI-Systeme werden mit vielen Daten trainiert: Durch sie lernen sie Vorlieben von Kunden kennen, antizipieren, wann die nächste Wartung für ein Flugzeug ansteht, wie Menschen aussehen oder Sprache zu Text wird.

Der Zugriff auf hochwertige Daten für das KI-Training ist allerdings ungleich verteilt: Große Tech-Unternehmen wie IBM, Microsoft, Google, Facebook oder Amazon haben durch jahrelange Forschung, und weil sie Nutzerdaten anzapfen, einen klaren Vorteil.

Viele Unternehmen nutzen daher die vortrainierten KI-Systeme der großen Konzerne. Das geht schneller und günstiger, als von Grund auf neu zu starten.

Unternehmen und Start-ups, die ein unabhängiges KI-Produkt entwickeln wollen, müssen jedoch für viel Geld eigene Daten sammeln und für das KI-Training aufbereiten. Anbieter wie Samasource haben aus dem aufwendigen Prozess der Datenaufbereitung ein eigenes Geschäft gemacht – sponsored by Niedriglöhnen in Entwicklungsländern.

Synthetische Daten als Geschäftsmodell

Doch es existiert eine Möglichkeit, schnell und günstig an viele Daten für das KI-Training zu gelangen: Entwickler und Forscher können Daten künstlich generieren.

Diese synthetischen Daten könnten beispielsweise Kaufentscheidungen tausender fiktionaler Kunden sein oder täuschend echte Porträtfotos aus einem GAN-Netzwerk, die für das Training einer Gesichtserkennungs-KI verwendet werden.

Unternehmen wie GenRocket, Mostly AI, Hazy und AI Reverie oder Open-Source-Lösungen wie Synthea generieren diese künstlichen Daten für das Künstliche-Intelligenz-Training – vereinfacht ausgedrückt – auf Knopfdruck. Da die generierten Daten günstiger als echte sind, ist die Nachfrage in den letzten Jahren konstant gestiegen.

Künstliche Daten können KI-Vorurteile verstärken

Der Einsatz synthetischer Daten könnte sich jedoch dort rächen, wo KI-Systeme potenziell folgenschwere Entscheidungen treffen, etwa bei der Gesichtserkennung oder einer medizinischen Diagnose.

Der Grund: Die synthetischen Daten werden auf Grundlage einiger weniger echter Daten extrapoliert. So wie ein niedrig aufgelöstes Bild bei der Hochskalierung Bildfehler deutlicher zeigt, übernehmen und verstärken künstlich aufgeblähte Datensätze vorhandene Vorurteile der Ursprungsdaten.

“Synthetische Daten können für Tests fertiger KI-Systeme nützlich sein, aber gefährlich und irreführend, wenn es um Training geht”, sagt Deb Raji, KI-Forscherin und Stipendiatin beim AI Now Institut.

Weiß, männlich, Fake-Gesicht

GAN-Netzwerke etwa tendieren dazu, beim Generieren von Gesichtsfotos die Ausnahmen in ihren Trainingsdaten zu ignorieren. Wenn also in den KI-Trainingsdaten der generativen Algorithmen wenige Menschen mit dunkler Hautfarbe vorkommen, generiert die KI auch weniger Fake-Porträts von Menschen mit dunkler Hautfarbe.

Solche Vorurteile finden sich schon in aktuellen KI-Systemen. Doch der Versuch, diese mit synthetischen Daten wegzutrainieren, kann Vorurteile noch verstärken, wenn die Ausgangsdaten bereits Vorurteile enthalten.

Eine Studie der Arizona State University verdeutlicht dieses Phänomen: Ein GAN-Netzwerk wurde mit 17.245 Porträts von Ingenieuren trainiert. 80 Prozent davon männlich, 76 Prozent mit heller Hautfarbe. Nach dem Training generierte das GAN-Netzwerk neue Bilder: 93 Prozent männlich, 99 Prozent mit heller Hautfarbe.

Würde ein KI-System für Gesichtserkennung mit diesem Datensatz trainiert, würde es Frauen und Menschen mit dunkler Hautfarbe schlechter identifizieren. Wenn dieses System dann für einen Einstellungsprozess in einem Unternehmen eingesetzt wird, würde es bevorzugt Männer mit heller Hautfarbe einstellen.

Vorurteilsfreie KI-Daten: Die Welt so abbilden, wie sie sein sollte

Eine Lösung für das Vorurteilsproblem ist bisher nicht in Sicht, aber es gibt Ansätze für die Generierung vorurteilsfreier synthetischer Daten. Forscher aus Stanford manipulieren ein GAN-Netzwerk, um Eigenschaften wie Geschlecht oder Hautfarbe auszugleichen und so diversifizierte Gesichtsfotos zu generieren.

Eine andere Möglichkeit wäre, die Vorurteile in den echten Daten mit komplementären Vorurteilen in den synthetischen Daten auszubalancieren. Finden sich beispielsweise in Bilddaten 80 Prozent Männer und 20 Prozent Frauen, könnte ein synthetischer Datensatz mit einem Verhältnis von 80 Prozent Frauen und 20 Prozent Männern das Ungleichgewicht ausgleichen.

Unternehmen wie Haze oder Mostly AI experimentieren mit solchen Methoden. Doch sie erfordern eine genaue Analyse der Echtwelt-Daten, eine klare Vorstellung davon, welche Vorurteile diese enthalten, und natürlich den Willen der Kunden, diesen aufwendigen Rechercheprozess zu bezahlen.

Synthetische Daten haben also auch Potenzial, Vorurteile in KI-Trainingsdaten zukünftig zu beseitigen. Julia Stoyanovich, die an der Universität New York Informatik lehrt, hat eine genaue Vorstellung, wie dieses Unterfangen gelingen könnte: Gute Trainingsdaten für Künstliche Intelligenz müssten “die Welt so darstellen, wie sie sein sollte”.

Via: Slate; Titelbild: Generated Photos

Weiterlesen über Künstliche Intelligenz:

steady2

MIXED.de XR-Podcast - jetzt reinhören

Aktuell: Alles über Oculus Quest 2 | Alle Folgen



Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.