Microsoft veröffentlicht eine neue Bildanalyse-KI, die genauer und schneller als vergleichbare Systeme ist.

Kabetec VR-Brille

“Fair Multi-Objekt Tracking” (FairMOT) entstand in einer Kooperation zwischen Microsoft und der chinesischen Huazhong Universität. FairMOT sei anderen vergleichbaren Bildanalyse-KIs überlegen und könne auf moderner Hardware 30 Bilder pro Sekunde analysieren, schreiben die Forscher. Die leistungsstarke Künstliche Intelligenz erkennt so zuverlässig Objekte in Echtzeit-Videomaterial.

Beim Echtzeittracking von Videoaufnahmen müssen KIs ein Objekt zunächst korrekt identifizieren und dann in jedem Bild wiedererkennen (Re-Identifikation). Die meisten KI-Techniken nutzen für diese beiden Schritte jeweils ein eigenes KI-Netzwerk.

So erreichen sie eine hohe Genauigkeit, benötigen aber viel Rechenleistung. Videoanalyse in Echtzeit ist mit so einem Doppelnetzansatz daher nur mit einem Supercomputer möglich.

Effizientes, schnelles Objekttracking

Alternative Ansätze versuchen, die Objekterkennung und Re-Identifikation in einem KI-Netzwerk zu vereinen. In der Praxis führt das zwar zu schnellerem Tracking, aber die Genauigkeit fällt ab.

Hier setzt Microsofts FairMOT an: Es schafft, beide Aufgaben in einem Netzwerk zu vereinen, ohne an Genauigkeit zu verlieren.

Microsoft ersetzt dafür die in der Objekterkennung üblichen ankerbasierten Bounding-Boxen, da diese zu ungenau für die Re-Identifikation seien. Stattdessen nutzen die Forscher einen feinmaschigeren Detektor.

Traditionelle eingesetzte Bounding-Boxen (links) sind zu ungenau für die Re-Identifikation. Microsoft setzt stattdessen einen feinmaschigeren Detektor ein (rechts). Bild: Zhang et al.

Traditionelle eingesetzte Bounding-Boxen (links) sind zu ungenau für die Re-Identifikation. Microsoft setzt stattdessen einen feinmaschigeren Detektor ein (rechts). Bild: Zhang et al.

In Multi-Objekt-Tracking Benchmarks (MOT15, MOT16 und MOT17) gehört Microsofts KI-Objekterkennung konstant zu den genausten Bildanalyse-KIs bei einer Analysegeschwindigkeit von 25 bis 30 Bildern pro Sekunde.

FairMOT kostenlos verfügbar

FairMOT ist Open-Source und kann kostenlos auf GitHub heruntergeladen werden. Neben dem Quellcode hat Microsoft dort einige vortrainierte KI-Modelle veröffentlicht, die Aufnahmen oder Live-Video analysieren können.

Als mögliche Anwendungsfälle nennen die Forscher öffentliche Sicherheit, Analyse von Sportvideos, Altenpflege oder die Steuerung von Computern mit visuellen Interfaces.

Quelle: Arxiv; Titelbild: Microsoft

Weiterlesen über Künstliche Intelligenz:

steady2

MIXED.de XR-Podcast - jetzt reinhören

Aktuell: Intels VR-Linsen, Apples Tech-Brille und KI-Demokratie | Alle Folgen



Hinweis: Links auf Online-Shops in Artikeln können sogenannte Affiliate-Links sein. Wenn ihr über diesen Link einkauft, erhält MIXED.de vom Anbieter eine Provision. Für euch verändert sich der Preis nicht.