大型音頻語言模型 - Agents Report

速報

研究者提出「指令向量導向」技術，透過比較不同指令提示下的模型激活，於固定音訊中生成導向向量，顯著改變大型音頻語言模型（LALM）的時間注意力分布，使其聚焦於聲音相關區段。

深度分析

Audio Flamingo Next 由 NVIDIA 與馬里蘭大學合作開發，採用四段式架構與時間音頻思考鏈技術，支援長達30分鐘音檔推理，實驗顯示其在多項基準測試中超越同類模型，提升長音頻與音樂理解能力。

深度分析

NVIDIA 與馬里蘭大學推出全開源 Audio Flamingo Next，採用自訂 Whisper 編碼器與旋轉時間嵌入，支援長音頻多步推理。模型在多項基準上超越同類閉源系統，提升音樂與長音頻理解能力，將推動音頻 AI 應用的廣泛落地。