Meta: Neue Sprach-KI kann lachen, schreien, gähnen

Meta: Neue Sprach-KI kann lachen, schreien, gähnen

Meta stellt neue Forschung zu Sprach-KI vor: Maschinell generierte Stimmen können nun weinen, lachen, gähnen oder natürlicheren Smalltalk führen.

Mit Werbeeinnahmen bezahlen wir unsere Redakteur:innen.
Mit einem MIXED-Abo kannst Du unsere Seite werbefrei lesen.

Im vergangenen Oktober stellte Meta das Sprachmodell „Generative Spoken Language Model“ (GSLM) vor. Die Besonderheit: Anstatt wie üblich mit Text ist das KI-Modell mit undokumentierten Audiodaten selbstüberwacht trainiert.

Beim Training arbeitet sich die KI durch die Audiodaten, erkennt eigenständig Muster in ihnen und lernt, die zugrundeliegenden Laute nachzuahmen, um daraus neue Sätze zu bilden oder existierende Sätze zu vervollständigen. Aus Perspektive der Meta-Forschenden ist diese Art, Sprache zu lernen, vergleichbar mit der von Menschen.

GSML lernt Dialoge

Jetzt stellt Meta zwei Weiterentwicklungen der bei GSLM verwendeten Trainingstechnik vor, die natürlichere KI-Dialoge ermöglichen sollen. Zum einen kann Metas Sprach-KI jetzt emotionale Laute wie Lachen, Gähnen oder Weinen nachahmen – dies sei in der Kommunikation wichtig, um die Intention und den Kontext einer Aussage besser zu vermitteln.

Original neutral:

KI-generiert mit Lachen:

Original neutral:

KI-generierter Langweiler:

Original neutral:

KI-generiert wütend:

Das ebenfalls neu vorgestellte und auf Dialoge optimierte GSML-Modell dGSML generiert laut Meta natürlicher klingende Audio-Dialoge mittels KI-Agenten, die im Gespräch Denkpausen einlegen oder Überschneidungen in Gesprächen verarbeiten können. Die Agenten sollen so differenzierter soziale Hinweise in Sprache erkennen, die sich nicht explizit in den gewählten Wörtern wiederfinden, und sich besser an gängige Gesprächskonventionen halten können.

Trainiert wurde dGSML mit rund 2000 Stunden ungelabelter Audio-Dialoge aus dem Fisher-Datensatz, der rund 16000 englische englischsprachige Telefongespräche enthält. Der Datensatz stammt aus 2004. Die Forschenden gehen davon aus, dass sie mit höherwertigen Trainingsdaten besseres Audio generieren können.

Sprache und Gestik als Metaverse-Interface

Meta betont im Kontext der neuen Forschungsergebnisse erneut die Bedeutung Künstlicher Intelligenz fürs Metaverse: Audio-KI-Modelle wie die vorgestellten könnten in Kombination mit etwa Gestensteuerung neue Interaktionsmöglichkeiten schaffen.

Empfohlener Beitrag

Googles beste KI-Bildanalyse ist LiT – und schlägt OpenAI
logo
  • checkMIXED.de ohne Werbebanner
  • checkZugriff auf mehr als 9.000 Artikel
  • checkKündigung jederzeit online möglich
ab 2,80 € / Monat
logo

Mit Werbeeinnahmen bezahlen wir unsere Redakteur:innen.
Mit einem MIXED-Abo kannst Du unsere Seite werbefrei lesen.

Das KI-Training mit Audio- statt mit Textdaten per selbstüberwachtem Lernen sehen sie dabei als wesentlichen Baustein. Forschende könnten sich von den traditionellen textbasierten Modellen lösen und „natürlichere, ansprechendere KI-Systeme der Zukunft“ entwickeln.

Als Beispiel für ein unmittelbares Anwendungsszenario der jetzt vorgestellten Methoden nennen die Forschenden die direkte Synchronisierung von Videos ohne den Umweg über eine Textübersetzung, bei der emotionale Interpretationen verloren gehen können.

Mehr zum aktuellen Stand Künstlicher Intelligenz und Sprache gibt es in unserem KI-Podcast DEEP MINDS mit Sebastian Riedel von Meta AI im folgenden Video.

Weitere Audio-Beispiele der emotionalen Meta-KI gibt es auf der Projektseite, Details und Beispiele zu dGSLM gibt es hier.

Meta sammelt außerdem parallel per Videobrille audiovisuelle Daten aus der Ich-Perspektive, die helfen sollen, fortschrittliche Künstliche Intelligenz etwa für Assistenzaufgaben anhand von Alltagsbeispielen zu trainieren.

Weiterlesen über Künstliche Intelligenz:

Quellen: Arxiv 1, Arxiv 2, Meta