深度分析 利用多臂強盜與彈性序列平行,Spotlight 大幅加速 Diffusion Transformer RL 訓練 DiT強化學習後訓練成本高,研究提出Spotlight系統,同步利用閒置的SpotGPU進行種子探索,並採用彈性序列平行與搶占感知排程,允許探索階段使用前一迭代的舊模型權重保留相對排名,實測可在相同驗證分數下提速至4倍,總成本降低1.4至6.4倍,同時提升影像品質。