深度分析 從 vLLM V0 到 V1:四項後端校正消除 logprob 差異,提升強化學習訓練一致性 ServiceNow‑AI 在 vLLM 從 V0 升級至 V1 時,發現 rollout token logprob 與訓練端不符,導致 RL 指標偏離。透過調整 processed_logprobs、執行時預設、即時權重更新與 fp32 lm_head,指標恢復與 V0 近似,證明先確保推論正確性再做目標校正更有效。