新理論框架:連續時間隨機過程下的深度強化學習演員-評論家模型

本研究針對連續環境的深度強化學習提出新理論框架,將問題建模為連續時間隨機過程,並設計融合探索與隨機轉移的演員-評論家演算法。對單層隱藏層網路證明環境狀態呈雙時間尺度,利用隨機微分方程推導出在極小學習率下的狀態分佈微分方程。實驗以玩具連續控制任務驗證理論,顯示該框架可有效描述過度參數化演員-評論家行為。

連續時間隨機深強演員評論家示意

研究背景與動機

深度強化學習在連續控制領域的表現持續提升,但對於其理論基礎仍缺乏完整描述,特別是演員-評論家結構在隨機環境中的行為。

新理論框架

研究者將連續環境的強化學習問題視為連續時間隨機過程,結合隨機控制的觀點,提出一個可同時處理探索與隨機轉移的演員-評論家模型。

雙時間尺度分析

對單層隱藏層神經網路而言,環境狀態可拆解為兩個時間尺度:環境時間與梯度時間。透過無限寬度極限,描述環境狀態與累積折扣回報的隨機變量如何在梯度步驟中演化。

隨機微分方程推導

利用隨機微分方程理論,首次在連續強化學習中導出在極小學習率下,狀態分佈的無限小變化方程,提供對過度參數化演員-評論家演算法的非參數化描述。

實驗驗證

研究團隊在一個玩具連續控制任務上進行實驗,結果與理論預測高度吻合,證實了新框架的可行性。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more