強化學習 - Agents Report

深度分析

從 vLLM V0 到 V1：四項後端校正消除 logprob 差異，提升強化學習訓練一致性

ServiceNow‑AI 在 vLLM 從 V0 升級至 V1 時，發現 rollout token logprob 與訓練端不符，導致 RL 指標偏離。透過調整 processed_logprobs、執行時預設、即時權重更新與 fp32 lm_head，指標恢復與 V0 近似，證明先確保推論正確性再做目標校正更有效。