深度分析 VISTA 框架:結合魚眼視角與物理驗證的通用視覺語言動作模型 手持式操作介面(UMI)提供大規模機器人示範資料,但視覺與物理不匹配阻礙通用視覺語言動作模型的訓練。VISTA 框架以首創 UMI‑VQA 校正魚眼視角,並透過系統化物理驗證篩選可執行軌跡,採用雙階段共訓整合視覺、語言與動作。實驗在多項實體與模擬任務上超越多個基線,證明手持示範資料的有效利用。
深度分析 VISTA:驗證驅動的自蒸餾軌跡適應框架提升模型魯棒性 深度模型在訓練後期易出現軌跡偏離,VISTA 以驗證導向的邊際覆蓋分數挑選早期錨點,並於訓練中即時加權融合,提升魯棒性與泛化,同時降低儲存需求。