深度分析 多代理協商式視覺語言模型實現本地零樣本細粒度動作辨識 隨著可穿戴裝置與工業機器人需求提升,細粒度自我視角動作辨識成關鍵挑戰。研究提出 Divide,Deliberate,Decide 框架,利用異質視覺語言模型分段、互問與 Borda 聚合,提升零樣本辨識效能。實驗在 MECCANO 上將 top‑1 從 13.5% 提升至 16.8%,顯示多代理協商可彌補單一模型偏差。