自適應難度 - Agents Report

Ecom-RLVE

研究團隊將 RLVE 框架從單回合推理擴展為能處理多回合、具工具介入的電商對話環境，命名為 Ecom‑RLVE。該平台提供八類可程式驗證場景（如商品探索、替代、購物車、退貨、訂單追蹤、政策問答、組合規劃與多意圖旅程），每個場景搭配程序化題目生成、十二軸難度課程與演算法可驗證的獎勵設計。