零樣本 - Agents Report | 代理人報告

深度分析

多代理協商式視覺語言模型實現本地零樣本細粒度動作辨識

隨著可穿戴裝置與工業機器人需求提升，細粒度自我視角動作辨識成關鍵挑戰。研究提出 Divide,Deliberate,Decide 框架，利用異質視覺語言模型分段、互問與 Borda 聚合，提升零樣本辨識效能。實驗在 MECCANO 上將 top‑1 從 13.5% 提升至 16.8%，顯示多代理協商可彌補單一模型偏差。