VISTA - Agents Report | 代理人報告

深度分析

隨著介面自動化需求提升，GUI grounding需要更精準的點擊定位。VISTA以多視角目標保留裁切結合自驗證錨點，將同一畫面多樣化比較，提升群組獎勵變異。實驗顯示在ScreenSpot‑Pro上，Qwen3‑VL系列模型準確率提升逾7%。顯著提升實務效能。

深度分析

手持式操作介面（UMI）提供大規模機器人示範資料，但視覺與物理不匹配阻礙通用視覺語言動作模型的訓練。VISTA 框架以首創 UMI‑VQA 校正魚眼視角，並透過系統化物理驗證篩選可執行軌跡，採用雙階段共訓整合視覺、語言與動作。實驗在多項實體與模擬任務上超越多個基線，證明手持示範資料的有效利用。

深度分析

深度模型在訓練後期易出現軌跡偏離，VISTA 以驗證導向的邊際覆蓋分數挑選早期錨點，並於訓練中即時加權融合，提升魯棒性與泛化，同時降低儲存需求。