Künstliche Intelligenz isoliert Instrumente aus Musikvideos

Künstliche Intelligenz isoliert Instrumente aus Musikvideos

Im April stellte Google eine KI vor, die aus einem Stimmengewirr heraushören kann, was einzelne Sprecher sagen. Nun zeigen MIT-Forscher, dass das nachträgliche Isolieren von Audioquellen auch auf Musik anwendbar ist: Eine von den Wissenschaftlern entwickelte KI kann in Videos musikalischer Darbietungen einzelne Instrumente ausmachen und klanglich isolieren.

Das künstliche neuronale Netz erkennt in Videos bis zu zwanzig verschiedene Instrumente und kann deren Klang in einer separaten Tonspur rekonstruieren. Trainiert wurde die KI mit 60 Stunden Videoaufnahmen musikalischer Darbietungen.

Das System nutzt zur Analyse wie Googles Stimmen-KI sowohl Audio- als auch Video-Informationen der Aufnahme. Ein künstliches neuronales Netz untersucht das Bild und identifiziert die Tonquelle - in diesem Fall das betreffende Instrument - auf Pixelbasis, während ein zweites Netz den Ton analysiert. Ein drittes Netz weist den identifzierten Pixeln die Klänge des jeweiligen Instruments zu und sorgt so für die künstliche Trennung der beiden Tonquellen.

___STEADY_PAYWALL___

Nachträgliches Abmischen

Mit dem "Pixelplayer" getauften KI-System können Nutzer in einem analysierten Video auf ein bestimmtes Instrument klicken, um es sich isoliert anzuhören oder deren Lautstärke nachträglich anzupassen (siehe Youtube-Video). Das soll Toningenieuren ermöglichen, alte Konzertaufnahmen neu abzumischen oder auf experimenteller Basis bestimmte Instrumente auszutauschen.

logo
  • checkMIXED.de ohne Werbebanner
  • checkZugriff auf mehr als 9.000 Artikel
  • checkKündigung jederzeit online möglich
ab 3,50 € / Monat
logo

Laut dem Leiter des Forcshungsprojekts Hang Zhao könnte die Technologie außerdem Robotern helfen, ihre Umgebung besser zu verstehen, indem sie Geräuschquellen auseinanderzuhalten lernen.

Die KI-Wissenschaftler wollen das künstliche neuronale Netz mit noch mehr Videomaterial trainieren. Dadurch soll es zukünftig mehr Instrumente erkennen und mit größeren Ensembles zurecht kommen.

| Featured Image: Hang Zhao et al. | Source: MIT News