SAC - Agents Report | 代理人報告

強化學習

將遊戲敵群的風格約束納入強化學習基準。ARC-RL在MuJoCo上建構四款受ARC Raiders啟發的機體，統一觀測與動作，採用單一閉式多項獎勵（含速度追蹤、生存、相位鎖定步態、動作正則與安全懲罰），並提供外部CPG示範作為先驗；作者比較多種線上與含先驗方法，評估其對形態與風格限制的適應性。