Googles Bild-KI Imagen übertrifft DALL-E 2 – aber Google hat Bedenken

Googles Bild-KI Imagen übertrifft DALL-E 2 – aber Google hat Bedenken

Mit der generativen Bild-KI Imagen zeigt nach OpenAI auch Google, dass Künstliche Intelligenz glaubhafte und nützliche Bilder generieren kann.

Mit Werbeeinnahmen bezahlen wir unsere Redakteur:innen.
Mit einem MIXED-Abo kannst Du unsere Seite werbefrei lesen.

Imagen ist Googles Antwort auf OpenAIs kürzlich vorgestellte Bild-KI DALL-E 2. Mit einem Unterschied: OpenAI enthüllte DALL-E 2 direkt als Produkt samt Beta-Test, das ab Sommer für mehr Menschen verfügbar sein soll.

Imagen schlägt laut Googles Forschenden DALL-E 2 zwar bei Präzision und Qualität, aber derzeit liegt die generative KI nur als wissenschaftliche Arbeit vor. Aus ethischen Gründen wird sich das zeitnah wohl auch nicht ändern, dazu später mehr.

Imagen generiert Bilder passend zu Texteingaben. | Bild: Google AI

Aus Text wird Bild

Imagen setzt auf ein großes, vortrainiertes Transformer-Sprachmodell (T5), das eine numerische Bildrepräsentation (Bild-Embedding) erzeugt, aus dem ein Diffusionsmodell ein Bild erstellt. Diffusionsmodelle sehen während des Trainings Bilder, die schrittweise verrauscht werden. Diesen Prozess können die Modelle nach dem Training umkehren, also aus dem Rauschen ein Bild generieren.

Der Generierungsprozess von Imagen. Ursprung der Bildgenerierung ist das Textverständnis eines großen Transformer-Sprachmodells. Theoretisch könnte auch ein anderes Sprachmodell für die Eingabe verwendet werden, was sich wiederum auf die Qualität der Bilder auswirken dürfte. | Bild: Google AI

Das niedrig aufgelöste Originalbild (64 x 64) wird dann per KI-Skalierung auf bis zu 1024 x 1024 Pixel vergrößert – die gleiche Auflösung wie bei DALL-E 2. Ähnlich wie bei Nvidia DLSS, fügt die KI-Skalierung dem generierten Originalbild neue, inhaltlich passende Details hinzu, sodass es auch in der Zielauflösung eine hohe Schärfe bietet. Über diesen Hochskalierungsprozess spart Imagen viel Rechenleistung, die notwendig wäre, wenn das Modell direkt hohe Auflösungen ausgeben würde.

Imagen schneidet bei menschlicher Bewertung besser ab als DALL-E 2

Eine wesentliche Erkenntnis des Google-AI-Teams ist, dass ein großes vortrainiertes Sprachmodell „überraschend effektiv“ ist für die Kodierung von Text für die anschließende Bildsynthese. Für eine realistischere Bildgenerierung habe außerdem die Vergrößerung des Sprachmodells eine größere Wirkung als ein umfassenderes Training des Diffusionsmodells, das das eigentliche Bild erstellt.

Das Team entwickelte den Benchmark „DrawBench“, bei dem Menschen die Qualität eines generierten Motivs bewerten und wie gut das Motiv zum Eingabetext passt. Dabei vergleichen sie die Ausgaben mehrere Systeme parallel.

Empfohlener Beitrag

Eine verträumte Küstenstadt abstrakt gezeichnet.
KI-Kunst per Knopfdruck – diese App macht süchtig
Mit Werbeeinnahmen bezahlen wir unsere Redakteur:innen.
Mit einem MIXED-Abo kannst Du unsere Seite werbefrei lesen.

Beim DrawBench Benchmark wurden von Imagen und DALL-E 2 generierte Bilder von Menschen hinsichtlich der Passgenauigkeit zur Eingabe und der Motivqualität bewertet. Die menschlichen Tester:innen zogen dabei laut Google Imagen-Bilder „deutlich“ vor. | Bild: Google AI

Bei diesem Test schnitt Imagen signifikant besser ab als DALL-E 2, was die Forschenden unter anderem auf das höhere Sprachverständnis des Textmodells zurückführen. Die Anweisung „A panda making latte art“ könne Imagen in den meisten Fällen in das passende Motiv umsetzen: ein Panda, der Milch formvollendet in einen Kaffee kippt. DALL-E 2 erzeuge stattdessen ein Panda-Gesicht im Milchschaum.

Links die von Imagen generierten Bilder, die in drei von vier Fällen ein zur Eingabe passendes Motiv zeigen. Rechts die in vier von vier Fällen falsche Interpretation von DALL-E 2. | Bild: Google

Auch bei einem Benchmark anhand des COCO-Datensatzes (Common Object in Context) erzielte Imagen einen neuen Bestwert (7,27) und schnitt besser ab als DALL-E (17,89) und DALL-E 2 (10,39). Alle drei Bildmodelle wurden zuvor nicht mit den Coco-Daten trainiert. Nur Metas „Make-A-Scene“ (7,55) agiert hier auf Augenhöhe mit Imagen, allerdings wurde Metas Bild-KI mit Coco-Daten trainiert.

Bewege dich langsam und lasse Dinge heil

Eine Veröffentlichung des Modells ist aus ethischen Gründen derzeit nicht vorgesehen, da das zugrundeliegende Textmodell „soziale Verzerrungen und Einschränkungen“ enthalte, weshalb Imagen etwa „schädliche Stereotypen“ erzeugen könne.

logo
  • checkMIXED.de ohne Werbebanner
  • checkZugriff auf mehr als 9.000 Artikel
  • checkKündigung jederzeit online möglich
ab 2,80 € / Monat
logo

Zudem habe Imagen derzeit „erhebliche Einschränkungen“ bei der Generierung von Bildern mit Menschen darauf, einschließlich „einer generellen Tendenz, Bilder von Menschen mit helleren Hauttönen zu erzeugen, und einer Tendenz, dass Bilder, die verschiedene Berufe darstellen, mit westlichen Geschlechterstereotypen übereinstimmen.“

Aus diesem Grund will Google Imagen oder ähnliche Technologie „nicht ohne weitere Schutzmaßnahmen“ veröffentlichen. Auch DALL-E 2 hat diese Probleme. OpenAI rollt die Bild-KI daher nur sehr langsam an circa 1000 Tester:innen pro Monat aus. Ein kürzliches Zwischenfazit nach drei Millionen generierten Bildern zeigte, dass derzeit nur ein Bruchteil der DALL-E-Motive gegen die Inhaltsrichtlinien von OpenAI verstoßen.

Jeff Dean, leitender KI-Forscher bei Google AI, sieht in KI das Potenzial, die Kreativität in der Zusammenarbeit zwischen Mensch und Computer zu fördern. Imagen sei „eine Richtung“, die Google dabei verfolge. Dean teilt bei Twitter zahlreiche Bildbeispiele. Mehr Informationen und eine interaktive Demo gibt es auf der Projektseite zu Imagen.

Quellen: Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding