DRIFT 框架:讓預訓練視覺語言模型支援連續輸出
近年視覺語言模型多採用離散文字自回歸解碼,雖能在多任務上展現零樣本能力,卻難以處理需要精確連續輸出的任務,例如事件時間邊界定位或機器人控制指令。
背景與挑戰
現代視覺語言模型(VLM)多以離散文字自回歸解碼為主,雖然在多任務零樣本推論上表現優異,但在需要精確連續輸出的應用(如事件時間邊界定位、機器人控制)上表現不佳。
DRIFT 框架概念
DRIFT(Diffusion‑Refinement Inference Framework for Tokens)提供一套將預訓練 VLM 轉換為連續解碼的通用方法。它由兩個核心模組組成:
- 基礎預測器:產生目標輸出的粗略估計。
- 生成式細化模組:採用流匹配(flow matching)技術,對粗估結果進行迭代式改進。
此殘差式設計將生成問題從學習全域輸出分布,改為在強先驗附近建模局部殘差分布,從而大幅簡化優化難度。
實驗驗證
研究在感知與規劃兩大類任務上測試 DRIFT,包括視覺定位(visual grounding)與機器人控制(robotic control)。測試模型涵蓋多模態大型語言模型(MLLM)、視覺語言模型(VLA)以及視覺動作模型(WAM)。在所有任務與架構上,DRIFT 均超過強基準的回歸與生成式方案,顯示其在連續輸出任務上的廣泛適用性與效能提升。
延伸閱讀
- 在有限維代數框架下解析 grokking:結構張量、嵌入與泛化機制
- Goldstone 類自由度讓等變深度網路自然穩定:跨層傳訊與長期記憶機制
- Kolmogorov–Arnold 網路(KANs):揭示訓練動態、泛化與差分隱私下的限制
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。