速報
指令向量導向大規模音頻語言模型:提升時間注意力與事件定位
研究者提出「指令向量導向」技術,透過比較不同指令提示下的模型激活,於固定音訊中生成導向向量,顯著改變大型音頻語言模型(LALM)的時間注意力分布,使其聚焦於聲音相關區段。
速報
研究者提出「指令向量導向」技術,透過比較不同指令提示下的模型激活,於固定音訊中生成導向向量,顯著改變大型音頻語言模型(LALM)的時間注意力分布,使其聚焦於聲音相關區段。
深度分析
Audio Flamingo Next 由 NVIDIA 與馬里蘭大學合作開發,採用四段式架構與時間音頻思考鏈技術,支援長達30分鐘音檔推理,實驗顯示其在多項基準測試中超越同類模型,提升長音頻與音樂理解能力。
深度分析
NVIDIA 與馬里蘭大學推出全開源 Audio Flamingo Next,採用自訂 Whisper 編碼器與旋轉時間嵌入,支援長音頻多步推理。模型在多項基準上超越同類閉源系統,提升音樂與長音頻理解能力,將推動音頻 AI 應用的廣泛落地。