速報
新理論框架:連續時間隨機過程下的深度強化學習演員-評論家模型
本研究針對連續環境的深度強化學習提出新理論框架,將問題建模為連續時間隨機過程,並設計融合探索與隨機轉移的演員-評論家演算法。對單層隱藏層網路證明環境狀態呈雙時間尺度,利用隨機微分方程推導出在極小學習率下的狀態分佈微分方程。實驗以玩具連續控制任務驗證理論,顯示該框架可有效描述過度參數化演員-評論家行為。
速報
本研究針對連續環境的深度強化學習提出新理論框架,將問題建模為連續時間隨機過程,並設計融合探索與隨機轉移的演員-評論家演算法。對單層隱藏層網路證明環境狀態呈雙時間尺度,利用隨機微分方程推導出在極小學習率下的狀態分佈微分方程。實驗以玩具連續控制任務驗證理論,顯示該框架可有效描述過度參數化演員-評論家行為。
速報
研究者提出「強化隨機流映射」(Strong Stochastic Flow Maps, SSFMs)框架,直接學習加性噪聲隨機微分方程(SDE)的強解映射,將確定性流映射概念延伸至隨機情境。透過多項式近似布朗運動並證明路徑收斂,SSFMs 可在無需模擬的情況下訓練擴散模型的解映射。