大型語言模型推理 - Agents Report

深度分析

STRIDE：以成功失敗對比提升大型語言模型推理效能的細粒度 RLVR 框架

隨著可驗證回饋強化學習在大語言模型推理上崛起，STRIDE透過比較成功與失敗的回應軌跡，利用n‑gram策略的頻率差異與推理熵篩選，辨識出具決策價值的關鍵模式，並在強化學習中賦予差異化優勢。實驗顯示，STRIDE在多項數學、視覺語言與代理任務上持續領先基線，提升平均效能逾數個百分點，此方法亦為未來多模態與自動決策系統提供可擴充的驗證框架。