Inhalt
newsletter Newsletter

Deepminds neue Video-KI Transframer kann eine ganze Reihe von Bild- und Videoaufgaben erledigen - und aus einem einzelnen Bild 30 Sekunden lange Videos träumen.

Generative KI-Systeme sind in den letzten Jahren aus den Forschungslaboren in die industrielle und private Anwendung gelangt, den Startschuss gab OpenAIs großes Sprachmodell GPT-3. Das Unternehmen zeigte dann im April das Bild-System DALL-E 2 und brachte so indirekt Alternativen wie Midjourney oder Stable Diffusion hervor.

Die Google-Schwester Deepmind zeigt nun mit Transframer ein KI-Modell, das einen Ausblick auf die nächste Generation generativer KI-Modelle bieten könnte.

Deepmind Transframer: Ein Modell mit vielen Aufgaben

Deepminds Transframer ist ein Framework für visuelle Vorhersagen, das gleich acht Bildmodellierungs und -verarbeitungsaufgaben lösen kann, etwa Tiefenschätzung, Instanzsegmentierung, Objekterkennung oder Video-Vorhersagen.

Anzeige
Anzeige

Transframer greift dafür auf eine Reihe von Kontextbildern mit zugehörigen Annotationen wie Zeitmarken oder Kamerastandpunkte zurück und verarbeitet davon ausgehend die Abfrage für ein Bild.

Transframer bietet ein Framework für mehrere Bild-Aufgaben. | Bild: Deepmind

Das Modell verarbeitet komprimierte Bilder mit einem U-Net, dessen Outputs an einen DCTransfromer-Decoder weitergegeben werden. Konkret werden die Bilder per DCT (Diskrete Kosinustransformation) komprimiert, DCT wird auch im Kompressionsverfahren JPEG verwendet. Der DCTransformer ist auf DCT-Tokens spezialisiert.

Transframer generiert neue Blickwinkel und ganze Videos

Neben klassischen Bild-Aufgaben wie der Tiefenschätzung und Objekterkennung beherrscht Transframer auch die Synthese neuer Blickwinkel auf ein Objekt und die Vorhersage von Videoverläufen.

In einem kurzen Tweet zeigt Deepmind etwa sechs 30-Sekunden-Videos, die Transframer aus einem einzigen Input-Bild erträumt hat. Trotz der niedrigen Auflösung lässt sich eine gewisse Konsistenz erkennen.

Empfehlung

Laut Deepmind zeigen die Ergebnisse, dass sich ein Framework wie Transframer für anspruchsvolle Bild- und Videomodellierungsaufgaben eigne. Transframer könne zudem als Multitasker Probleme der Bild- und Videoanalyse lösen, für die bisher spezialisierte Modelle eingesetzt werden, so die Forschenden.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!