流式策略 - Agents Report

深度分析

QPILOTS：利用 Q‑導向梯度的流式策略即時強化方法

隨著流匹配與擴散策略在連續控制與視覺語言動作模型中成為主流，研究提出QPILOTS於推論時透過Q‑梯度引導去噪流程，分為快速單點與可微抽樣兩種變體，在OGBench基準上達到90%平均成功率，並在LIBERO任務中優於先前方法。QPILOTS‑U使用單點近似，QPILOTS‑M透過學習的輔助網路抽取可微後驗樣本，兩者皆在不改動基礎流的情況下提升策略表現。