Google Parti: Neue Bild-KI übertrifft DALL-E 2

Google Parti: Neue Bild-KI übertrifft DALL-E 2

Googles neueste Bild-KI Parti generiert Bilder aus besonders umfangreichen Beschreibungen. Dadurch lassen sich die Ergebnisse noch genauer steuern.

Mit Werbeeinnahmen bezahlen wir unsere Redakteur:innen.
Mit einem MIXED-Abo kannst Du unsere Seite werbefrei lesen.

Kürzlich stellte Google die Bild-KI Imagen vor, die mit einer ähnlichen Architektur (Diffusion) wie Open AIs DALL-E 2 Bilder generiert, aber für den Input ein großes KI-Sprachmodell verwendet – und dank dessen höherem Sprachverständnis bessere Bild-Ergebnisse aus Textbeschreibungen generieren kann.

Das jetzt von Google neu vorgestellte KI-Modell Parti (Pathways Autoregressive Text-to-Image) testet eine alternative Architektur (autoregressiv), die noch näher an der Funktion von großen Sprachmodellen etwa für die Übersetzung ist.

Diese Sprachmodelle sagen passende neue Wörter anhand vorheriger Wörter und im Kontext des Satzes oder Absatzes vorher. Parti wendet dieses Prinzip auf Bilder an – mit Erfolg.

Parti skaliert – und hat laut Google Weltwissen

Denn wie bei den großen Sprachmodellen zeigt sich auch bei Parti, dass die Bild-KI mit umfassenderem Training und mehr Parametern deutlich bessere Ergebnisse erzielt. Einfach gesagt: Das KI-Modell skaliert – und wie. Zudem kann es besonders lange, komplexe Texteingaben akkurat in Bilder umsetzen, was für ein noch besseres Verständnis für den Zusammenhang zwischen Sprache und Motiven spricht.

A portrait photo of a kangaroo wearing an orange hoodie and blue sunglasses standing on the grass in front of the Sydney Opera House holding a sign on the chest that says Welcome Friends!

Parti kann anhand besonders ausführlicher Texteingaben detaillierte Bilder generieren. Je umfassender das Modell trainiert ist, desto besser funktioniert das. Das größte Modell kann sogar schreiben. Die Eingabe für dieses Bild lautet: „A portrait photo of a kangaroo wearing an orange hoodie and blue sunglasses standing on the grass in front of the Sydney Opera House holding a sign on the chest that says Welcome Friends!“ | Bild: Google

Das Bild oben zeigt den Qualitätsunterschied bei derselben Eingabeaufforderung bei vier unterschiedlich umfangreich trainierten Parti-Modellen. Das größte Modell mit 20 Milliarden Parametern generiert das fehlerfreiste Bild passend zur umfangreichen Texteingabe. Anders als DALL-E 2 kann Parti in der größten Fassung sogar Wörter richtig schreiben („Welcome Friends“).

„Das Modell 20B eignet sich besonders gut für abstrakte Aufgaben, die Weltwissen, bestimmte Perspektiven oder das Schreiben und Darstellen von Symbolen erfordern“, schreibt Googles Forschungsteam.

Empfohlener Beitrag

Eine verträumte Küstenstadt abstrakt gezeichnet.
KI-Kunst per Knopfdruck – diese App macht süchtig
Mit Werbeeinnahmen bezahlen wir unsere Redakteur:innen.
Mit einem MIXED-Abo kannst Du unsere Seite werbefrei lesen.

Eingabe: „A photo of an astronaut riding a horse in the forest. There is a river in front of them with water lilies.“ | Bild: Parti / Google

Menschliche Tester:innen bevorzugten die Ausgaben des größten Modells im Vergleich zum Drei-Milliarden-Modell in rund 63 Prozent der Fälle. In rund 76 Prozent der Fälle sprachen sie dem 20-Milliarden-Modell die besser zum Text passende Bildausgabe zu.

Beschreibung: „A green sign that says ‚Very Deep Learning‘ and is at the edge of the Grand Canyon. Puffy white clouds are in the sky.“ | Bild: Parti / Google

Generiert werden die Bilder in der Auflösung 256 x 256 Pixel, anschließend werden sie auf 1024 x 1024 Pixel hochskaliert.

Auch Parti kann nicht zählen

Parti kann zudem fantastische Bilder generieren von Motiven, die nicht Teil des Trainingsmaterials waren und die nicht existieren. Die Forschenden sprechen der Bild-KI die Fähigkeiten zu, Weltwissen genau wiederzugeben, viele Protagonisten und Objekte mit feinen Details und Interaktionen zusammenzustellen und ein bestimmtes Bildformat sowie einen bestimmten Stil einzuhalten.

logo
  • checkMIXED.de ohne Werbebanner
  • checkZugriff auf mehr als 9.000 Artikel
  • checkKündigung jederzeit online möglich
ab 2,80 € / Monat
logo

Parti beherrscht wie Imagen oder DALL-E 2 viele unterschiedliche Bildstile. Dafür reicht es, den gewünschten Stil in die Textbeschreibung aufzunehmen. | Bild: Google

Dennoch habe das System noch zahlreiche Probleme, etwa bei der Darstellung von sinnvollen Größenverhältnissen oder bei der Unterscheidung und – wie DALL-E 2 – Zählung von Objekten innerhalb eines Bildes.

Bei der Bildeingabe „Zwei Baseballs liegen links von drei Tennisbällen“ generiert das System zwei Tennisbälle und rechts davon einen weiteren Tennisball mit den Nähten eines Baseballs. Hinzu kommen technische Fehler wie auslaufende Farben.

Bild: Parti / Google

Bedenken hat das Forschungsteam hinsichtlich der Generierung von Stereotypen, ein Problem, mit dem Imagen und DALL-E 2 ebenso zu kämpfen haben. So werden etwa Klischees von typischen Männer- und Frauenberufen verstärkt. Zudem gebe es wegen der möglichen fotorealistischen Generierung von Menschen ein zusätzliches Deepfake-Risiko. Deswegen verzichten die Forschenden zunächst auf die Veröffentlichung des Modells, des Codes und weiterer Daten. Es möchte weiter an den Problemen arbeiten.

Ist Parti Googles Bild-KI für Pathways

Interessant ist noch der Name: Das P in Parti steht für Pathways, Googles KI-Architektur der nächsten Generation, die Googles KI-Chef Jeff Dean Ende 2021 erstmals vorstellte.

Ziel von Pathways ist ein intelligentes KI-Mehrzwecksystem, das eines Tages „über Millionen Aufgaben“ hinweg generalisieren kann. Dass Parti das Pathway im Namen trägt, könnte ein Hinweis sein, dass es den Bild-Part in dieser Zukunftsarchitektur übernimmt. Laut Googles Forschungsteam sind Kombinationen aus der Parti- und der Imagen-Architektur denkbar.

Das Team zeigt auf einer Webseite viele weitere interaktive Positiv- und Negativbeispiele von Parti-Bildern und erklärt den Aufbau des Systems im Detail.