Pareto Q-Learning 搭配獎勵機器人:多目標強化學習新突破
研究團隊推出 Pareto Q-Learning with Reward Machines(PQLRM),結合向量化 Q 值的 Pareto 前緣近似與獎勵機器人(Reward Machines)的自動機結構,針對非馬可夫、以獎勵機器人編碼的多目標任務提供樣本效率高的多策略演算法。
研究團隊發表了 Pareto Q-Learning with Reward Machines(PQLRM),這是一套針對獎勵結構以獎勵機器人(Reward Machines, RM)描述的多目標強化學習演算法。
核心概念
PQLRM 結合了兩項技術:
- Pareto Q-Learning(PQL):維持向量化 Q 值集合,以近似 Pareto 前緣,處理多目標衝突。
- Q-Learning with Reward Machines(QRM):利用獎勵訊號的分解自動機結構,提升樣本效率。
透過此結合,演算法在非馬可夫、以 RM 編碼的獎勵下仍能保持高效的樣本利用率,並產生多策略。
實驗結果
實驗顯示,PQLRM 相較於直接在交叉產物 MDP 上套用傳統 PQL 基線,收斂速度更快。更重要的是,PQLRM 能合成出 QRM 無法達成的 Pareto 最優政策,證明其在多目標強化學習情境下具備明顯優勢。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。