深度分析
EcomRLVE‑GYM:多回合可驗證電商對話環境與自適應難度強化學習框架
為解決大型語言模型在電商助理上流暢卻無法完成任務的問題,EcomRLVE‑GYM 以多回合、工具增強的可驗證環境擴展 RLVE 框架,提供八種購物情境並採用 12 軸難度課程。實驗以 Qwen 3 8B 搭配 DAPO 訓練 300 步,顯示環境擴展與自適應難度能提升代理人在真實任務中的完成度。
深度分析
為解決大型語言模型在電商助理上流暢卻無法完成任務的問題,EcomRLVE‑GYM 以多回合、工具增強的可驗證環境擴展 RLVE 框架,提供八種購物情境並採用 12 軸難度課程。實驗以 Qwen 3 8B 搭配 DAPO 訓練 300 步,顯示環境擴展與自適應難度能提升代理人在真實任務中的完成度。
Ecom-RLVE
研究團隊將 RLVE 框架從單回合推理擴展為能處理多回合、具工具介入的電商對話環境,命名為 Ecom‑RLVE。該平台提供八類可程式驗證場景(如商品探索、替代、購物車、退貨、訂單追蹤、政策問答、組合規劃與多意圖旅程),每個場景搭配程序化題目生成、十二軸難度課程與演算法可驗證的獎勵設計。