速報 Pareto Q-Learning 搭配獎勵機器人:多目標強化學習新突破 研究團隊推出 Pareto Q-Learning with Reward Machines(PQLRM),結合向量化 Q 值的 Pareto 前緣近似與獎勵機器人(Reward Machines)的自動機結構,針對非馬可夫、以獎勵機器人編碼的多目標任務提供樣本效率高的多策略演算法。