深度分析 QPILOTS:利用 Q‑導向梯度的流式策略即時強化方法 隨著流匹配與擴散策略在連續控制與視覺語言動作模型中成為主流,研究提出QPILOTS於推論時透過Q‑梯度引導去噪流程,分為快速單點與可微抽樣兩種變體,在OGBench基準上達到90%平均成功率,並在LIBERO任務中優於先前方法。QPILOTS‑U使用單點近似,QPILOTS‑M透過學習的輔助網路抽取可微後驗樣本,兩者皆在不改動基礎流的情況下提升策略表現。