深度分析
GEASS:無需額外訓練的標題引導模組,降低視覺語言模型幻覺
隨著視覺語言模型在問答與推理上表現優異,卻常因物件幻覺削弱可信度。研究提出GEASS作為訓練免費的調節模組,根據答案信心、資訊增益與路徑分歧三項指標,動態決定自產標題的影響程度。實驗在POPE與HallusionBench以及四種模型上顯示,可提升約5%正確率,僅增加兩次前向運算。
深度分析
隨著視覺語言模型在問答與推理上表現優異,卻常因物件幻覺削弱可信度。研究提出GEASS作為訓練免費的調節模組,根據答案信心、資訊增益與路徑分歧三項指標,動態決定自產標題的影響程度。實驗在POPE與HallusionBench以及四種模型上顯示,可提升約5%正確率,僅增加兩次前向運算。
深度分析
大型多模態模型在 3D 環境中易產生幻覺,影響決策安全。3D-VCD 透過在 3D 場景圖加入語意與幾何擾動,對比原始與失真情境的預測,以抑制過度依賴語言先驗的 token。實驗顯示此方法在 3D-POPE 與 HEAL 基準上提升了實體化推理表現,為具身代理人的可靠性提供新方向。