強化學習 - Agents Report

深度分析

為解決大型語言模型在電商助理上流暢卻無法完成任務的問題，EcomRLVE‑GYM 以多回合、工具增強的可驗證環境擴展 RLVE 框架，提供八種購物情境並採用 12 軸難度課程。實驗以 Qwen 3 8B 搭配 DAPO 訓練 300 步，顯示環境擴展與自適應難度能提升代理人在真實任務中的完成度。