Reward Machines - Agents Report

速報

研究團隊推出 Pareto Q-Learning with Reward Machines（PQLRM），結合向量化 Q 值的 Pareto 前緣近似與獎勵機器人（Reward Machines）的自動機結構，針對非馬可夫、以獎勵機器人編碼的多目標任務提供樣本效率高的多策略演算法。