深度分析
多代理協商式視覺語言模型實現本地零樣本細粒度動作辨識
隨著可穿戴裝置與工業機器人需求提升,細粒度自我視角動作辨識成關鍵挑戰。研究提出 Divide,Deliberate,Decide 框架,利用異質視覺語言模型分段、互問與 Borda 聚合,提升零樣本辨識效能。實驗在 MECCANO 上將 top‑1 從 13.5% 提升至 16.8%,顯示多代理協商可彌補單一模型偏差。
深度分析
隨著可穿戴裝置與工業機器人需求提升,細粒度自我視角動作辨識成關鍵挑戰。研究提出 Divide,Deliberate,Decide 框架,利用異質視覺語言模型分段、互問與 Borda 聚合,提升零樣本辨識效能。實驗在 MECCANO 上將 top‑1 從 13.5% 提升至 16.8%,顯示多代理協商可彌補單一模型偏差。
深度分析
本文在無中央伺服器的通訊網路上,採用 gossip 隨機點對點平均估算 Borda 與 Copeland 分數,並以局部排序與 Kemenization 做後處理。方法給出收斂速率界,實驗顯示演算法收斂快速且對受汙染排名具相對韌性,適用於 P2P 與物聯網場景。