代理式強化學習 - Agents Report

深度分析

OpenEnv 推出新治理機制，標準化代理式強化學習環境介面

OpenEnv為代理式強化學習提供標準化執行環境，近日由多家AI大廠組成治理委員會管理，支援HTTP、WebSocket與Docker部署。它以Gymnasium風格API作為介面層，讓任何模型可無縫接入，同時不限定獎勵或訓練流程。此舉有望加速開源代理模型的訓練與跨平台整合。

深度分析

OpenEnv：開源代理式強化學習的標準化執行環境與治理框架

OpenEnv為打造代理人可操作的執行環境而生，近期由Meta‑PyTorch、Nvidia、Hugging Face等多家機構組成治理委員會。它將環境以Gymnasium風格API標準化，支援HTTP、WebSocket與Docker打包，任何模型皆可無縫接入。此舉有望提升開源代理模型的訓練效率。

AEM

AEM：回應層級熵調節於多回合代理式強化學習的實作與驗證

強化學習在多回合代理任務因稀疏回饋難以分配步驟責任。AEM提出回應層級的自適應熵調節，利用相對驚訝量作為內在不確定性代理，動態放大或縮放步驟優勢以引導探索至利用。實驗顯示在多個基準與不同模型規模上能穩定提升效能。在SWE-bench-Verified等任務與1.5B至32B模型範圍獲得可觀改善。

深度分析

COVERT：可控驗證的工具使用資料合成框架提升代理式強化學習效能

現有工具使用合成資料多用於離線微調，缺乏即時回饋環境。COVERT 透過雙階段產生可靠軌跡並加入干擾與雜訊，同時保留 Oracle 呼叫作為真值。實驗顯示在 Qwen2.5‑Instruct‑14B 上提升 BFCL v3 至 59.9%、ACEBench 至 59.3%，證明合成環境可作為 RL 精煉的有效補充。

深度分析

GPT‑OSS 代理式強化學習實驗與技術修正報告

在 AI 代理需求日增的背景下，本文探討 GPT-OSS 的代理式強化學習訓練流程，說明了環境互動、工具調用與多步決策的實作方法，並指出 MoE 路由不一致與注意力匯流問題導致的梯度爆炸。透過修正 log‑probability 與引入 FlashAttention v3 的注意力匯流支援，訓練穩定性與收斂速度大幅提升，預示此技術將加速開源模型在商業代理應用中的落地。