視覺語言模型 - Agents Report

深度分析

「Rank‑Then‑Act」：利用視覺‑語言模型排序實現無獎勵強化學習新範式

本研究提出Rank‑Then‑Act(RTA)框架，利用視覺‑語言模型在洗牌影片上以群組相對政策優化學習進度排序，並以Spearman排序相關作為唯一獎勵，於離散與連續控制任務均達到或超越既有影片獎勵基線，顯示僅靠影片序列的序數訊號即可驅動政策學習。

深度分析

ProCal：推論階段前景/背景提示校準提升開放詞彙物件偵測定位精度

研究聚焦開放詞彙物件偵測的定位校準問題，提出在推論階段加入前景與背景提示的ProCal模組，結合VLM前景分數與抑制分數形成提案先驗，提升新類別的APr約2.5點，顯示校準可改善偵測排序。實驗在OV‑LVIS與OV‑COCO上均獲顯著提升，證明模型在無需額外訓練的情況下即可改善新目標的定位品質。

深度分析

「EgoSafetyBench」：首個自我視角影片基準評估視覺語言模型即時安全防護能力

隨著視覺語言模型被提議作為家庭與工廠機器人的即時安全守護，研究團隊推出EgoSafetyBench，收錄1,200個機器人視角影片，細分情境與視覺訊號誤導兩軸，測試模型在偵測明顯與情境危險、以及對錯誤標示的反應。結果顯示即使最先進模型也常錯過關鍵危險時刻，且誤導文字會導致過度干預或漏判。

深度分析

視覺語言模型在非對稱對話中過度預測共識的偏誤：以 Qwen3‑VL 與 Gemma3 為例

本研究以HCRCMapTask對話資料檢測視覺語言模型在資訊不對稱情境下判斷參與者是否已達成共同理解。結果顯示，提供真實地圖圖像或文字說明會使模型過度預測對齊，將潛在的參照重疊誤當成已建立的共識；而非資訊性圖像則降低此偏誤。此偏誤可能限制模型在真實協作對話中的可靠性。

速報

Label Imitation Game：利用 Turing 測試網路提升偽標籤精準度

偽標籤雖能大幅擴增資料規模，但易受幻覺影響。研究提出 Label Imitation Game，利用 Turing Test Network 以全局情境審核偽標籤，提升三大視覺語言模型的標籤準確度。實驗顯示，僅訓練於分類資料的 TTN 亦能有效修剪偵測偽標籤，將最差類別 F1 提升 28%，微調後更達 44%。此方法亦促成零召回類別的恢復。

速報

預測誤差門控與元認知：新型記憶與視覺語言模型的雙重突破

本研究探討利用小型預測器在凍結編碼器潛在空間產生的預測誤差訊號，作為可塑性門檻與元認知基礎。第一套系統結合非參數式情節記憶與離線重播，於凍結的 DINOv2 或 I‑JEPA 骨幹上持續學習 1000 個 ImageNet 類別，顯示出顯著的記憶保持與少樣本表現。

深度分析

京東 AIIC：利用自演化 LLM/VLM 及本體外部化提升商品知識與搜尋效能

京東推出OxygenAIItemCenter，以LLM/VLM為核心，結合人機協作打造百億商品的動態本體與高精度知識庫，實現94.2%精確率與80%以上屬性自動填補，日處理億級商品更新，支援搜索、推薦與營運等多場景，顯著提升搜索覆蓋與點擊率。

深度分析

IBM 發布 Granite 4.0 3B Vision：企業文件視覺語言模型新突破

IBM 於 2026 年推出 Granite 4.0 3B Vision，結合 ChartNet 圖表資料與 DeepStack 特徵注入，以 LoRA 掛載於 Granite 4.0 Micro。模型在表格、圖表與語意鍵值對抽取基準上領先，提供企業更低成本且高效的文件自動化解決方案。

深度分析

多教師蒸餾 TheProfessor 提升 CLIP 系列模型在領域轉移任務的效能

隨著CLIP族模型規模龐大，部署成本高昂。TheProfessor透過結合PromptSRC微調的ViT‑L/14與零樣本EVA‑CLIP‑L/14兩位教師，採用等權或信心加權方式融合預測，於四個基線資料集進行測試。結果顯示，信心加權在EuroSAT上提升HM5.78分，平均提升1.77分。

深度分析

Neuro‑Symbolic Drive：結合規則式規劃與視覺語言模型的自駕車推理框架

為提升自駕車語言模型的可解釋性與行為一致性，研究者將傳統規則式規劃器的執行痕跡轉換為結構化推理序列，作為視覺語言模型的監督。實驗在模擬環境中顯示，加入詳細規則推理可將3秒ADE從0.47降至0.26，失敗率亦下降近二成，顯示規則導向的推理能顯著提升安全性。

深度分析

「Vero」開源強化學習食譜：打造多任務視覺語言模型的通用推理能力

Vero 團隊提出一套完整開放的強化學習流程，針對六大視覺推理任務類別蒐集 60 萬筆高品質樣本，並以任務導向的獎勵設計進行單階段訓練。實驗顯示，與四種主流基礎模型結合後，Vero 在 30 項基準測試上平均提升 3.7 至 5.5 分，並在多項專項測試中超越同尺寸商業模型。

深度分析

RAINbow 自動擴增對話導航資料集：提升 Embodied AI 之 DialNav 成功率

本研究針對 DialNav 訓練資料稀缺問題，提出自動化生成管線，將現有 VLN 資料轉換為多輪對話，打造 23.8 萬筆 RAINbow 資料集。結合雙策略訓練與改良定位模型，使模型在 Seen 場景成功率提升至 58.24%，Unseen 場景翻倍至 29.05%，創下新紀錄。研究同時提供跨方案比較與未來產業影響洞見。