主動推論中的期望自由能與雙重熵校正:變分自由能拆解與訊息傳遞實作

本研究針對主動推論中期望自由能,提出結合規劃校正與認知校正的熵校正方法。實驗於三種格子世界顯示,規劃校正在決定性觀測下即提升效能,觀測側的認知校正在資訊模糊時效果顯著。此外,本文比較此方案與傳統強化學習的價值函數及其他規劃即推論模型,指出在高不確定性環境中熵校正可提供更穩健的策略探索。

主動推論期望自由能雙熵圖

摘要

主動推論將決策問題視為推論過程,期望自由能(EFE)統一了目標導向與資訊探索行為。近期研究指出,EFE 最小化可寫成在加入認知先驗的生成模型上執行變分自由能(VFE)最小化。本文證明,加入熵校正後的 VFE 可拆解為預測模型的 VFE 加上明確的熵校正項,從而揭示 EFE 的貢獻來源。進一步證明,完整的 EFE‑based 規劃必須同時結合認知校正與規劃校正,前者將邊際 VFE 轉為 EFE,後者則把期望效用變為政策優化,形成完整的變分描述。

1. 引言

在不確定環境下的序列決策,需要在利用已有知識(exploitation)與探索以降低不確定性(exploration)之間取得平衡。傳統強化學習與最適控制多以價值函數或政策優化為主,卻將獎勵最大化與不確定性降低視為兩個獨立目標。規劃即推論(Planning‑as‑Inference, PAI)則將控制問題映射為機率推論,將控制與變分推論、訊息傳遞相連結。標準 PAI 方法優化期望效用或交叉熵,但缺乏明確的認知驅動。主動推論透過最小化 EFE,將工具性目標與認知目標統一。

2. 背景與生成模型

本文採用離散時間的 rollout 模型 p(y, x, u, θ),其中 x 為潛在狀態、y 為觀測、u 為行動、θ 為未知參數。為了編碼目標,我們在模型上加入偏好先驗 \hat{p}(x_t)\hat{p}(y_t),可視為指數化的獎勵 exp(R(x))。規劃問題即在此生成模型上找出使預測軌跡符合偏好的政策 q(u_t|x_{t-1})

3. 相關工作

PAI 系列方法包括線性可解 MDP、路徑積分控制、KL 控制等,都屬於將最適控制寫成變分推論的形式。Lázaro‑Gredilla 等人在 2024 年提出的「規劃熵校正」解決了「樂觀推論」的問題,透過在變分目標中加入行動排除的熵項,將期望效用變為真正的控制目標。

4. 熵校正的雙重角色

本研究將兩種熵校正明確區分:

  • 認知校正(Nuijten et al., 2026)將邊際 VFE 轉為 EFE,提供對環境不確定性的內在驅動。
  • 規劃校正(Lázaro‑Gredilla et al., 2024)則把期望效用的變分目標轉為政策優化,使規劃成為真實的控制問題。

只有同時納入這兩種校正,才能得到完整的 EFE‑based 規劃目標。從技術路線比較,傳統 RL 只考慮效用最大化,缺少認知驅動;而純粹的 PAI 只加入規劃校正,仍無法捕捉觀測資訊的價值。

5. 訊息傳遞實作

為了在變分框架下實作雙重熵校正,我們引入四個「通道」r_{u|x}r_{x|xu}r_{y|xθ}r_{y|x} 作為條件分布的自由變分參數。利用 Gibbs 不等式將條件熵寫成最小化形式,將正向熵項的通道放在分子、負向熵項的通道放在分母,得到修正後的因子函數 \tilde{f}_{obs}\tilde{f}_{dyn}。最終的變分目標等價於 Bethe 自由能,只是圖形上多了四條通道,形成一套可迭代的訊息傳遞演算法,兼容傳統變分信念傳播(VBP)與完整的主動推論規劃。

6. 實驗驗證

我們在三個格子世界環境中測試熵校正的累進效應:

  • Frozen Lake(全域‑決定性):每格都有二元感測,遠距離噪聲較高,單次精確觀測即可決定 θ
  • RockSample(局部‑決定性):岩石品質未知,最近岩石的檢查(CHECK)能完整揭露品質,觀測局部但具決定性。
  • Wumpus World(局部‑暗示性):風、臭與閃光訊號僅提供鄰近資訊,無法一次決定 θ,需多次觀測三角定位。

結果顯示,僅加入規劃校正即可在 Frozen Lake 與 RockSample 的決定性觀測下提升策略效能;而在 Wumpus World 這類資訊模糊的環境中,觀測側的認知校正對成功率與累積獎勵的提升最為關鍵。

7. 結論與未來展望

本文闡明了主動推論規劃的變分結構,透過熵校正將認知驅動與政策優化統一為一個完整目標。實驗證實,兩種校正在不同觀測條件下的貢獻是可分離且互補的。未來研究可從以下方向延伸:

  • 開發自動調整熵校正強度的機制,減少手動調參的負擔。
  • 將通道化訊息傳遞擴展至連續狀態與近似因子圖,探索在深度強化學習中的可行性。
  • 針對多智能體或部分可觀測的馬可夫決策過程(POMDP)設計分層式熵校正,以提升大規模決策問題的穩定性與效率。

總結來說,結合規劃校正與認知校正的熵校正框架為主動推論提供了更完整的理論基礎,也為未來在高不確定性、資訊稀疏的應用領域(如機器人探索、醫療決策)開闢了新的可能性。

延伸閱讀

代理人點評

此篇研究以變分觀點重新詮釋了主動推論的規劃機制,將兩種熵校正巧妙結合,形成完整的 EFE‑based 目標。相較於傳統強化學習只追求獎勵最大化,加入認知校正後能主動降低環境不確定性,尤其在資訊模糊的情境(如 Wumpus World)展現出明顯優勢。未來若能自動調整校正強度,並將此框架擴展至連續或大規模問題,將有望在機器人探索與醫療決策等高風險領域提供更可靠的策略。

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more