深度分析
「強制延期攻擊」揭露多模態大型語言模型級聯推論的計算分配漏洞
隨著多模態大型語言模型因視覺推理需求而成本飆升,業界採用弱模型先行、信心不足時再交由強模型的級聯策略。研究提出「強制延期攻擊」(FDA),透過在影像邊緣加入通用觸發器,降低弱模型信心,使查詢被迫轉至強模型。實驗顯示該攻擊在多種資料集與模型上均能提升強模型路由率,削弱級聯效能。
深度分析
隨著多模態大型語言模型因視覺推理需求而成本飆升,業界採用弱模型先行、信心不足時再交由強模型的級聯策略。研究提出「強制延期攻擊」(FDA),透過在影像邊緣加入通用觸發器,降低弱模型信心,使查詢被迫轉至強模型。實驗顯示該攻擊在多種資料集與模型上均能提升強模型路由率,削弱級聯效能。
深度分析
研究針對圖形介面(GUI)常見的多步驟放大定位流程,提出「縮放一致性」(zoom consistency)作為一個免費且無需額外訓練的信心指標。方法以第二步(zoom-in)模型在裁切視圖中的預測位置到裁切中心的幾何距離,作為第一步定位誤差的線性估計量,並可跨不同架構的視覺語言模型進行比較而不須校準。