深度分析
以嬰兒運動噪聲模擬彩色噪聲提升 Deep RL 探索效率
本研究觀察四名嬰兒在 8 至 30 週的自發運動,發現其末端效應器速度的功率譜密度呈現隨年齡增長的彩色噪聲特徵,指數 β 從約 0.69 上升至 0.88。研究者將此發展規律轉化為一套在深度強化學習訓練過程中逐步提升自相關性的行動噪聲,取代傳統的白噪聲或固定彩色噪聲。
深度分析
本研究觀察四名嬰兒在 8 至 30 週的自發運動,發現其末端效應器速度的功率譜密度呈現隨年齡增長的彩色噪聲特徵,指數 β 從約 0.69 上升至 0.88。研究者將此發展規律轉化為一套在深度強化學習訓練過程中逐步提升自相關性的行動噪聲,取代傳統的白噪聲或固定彩色噪聲。
強化學習
將遊戲敵群的風格約束納入強化學習基準。ARC-RL在MuJoCo上建構四款受ARC Raiders啟發的機體,統一觀測與動作,採用單一閉式多項獎勵(含速度追蹤、生存、相位鎖定步態、動作正則與安全懲罰),並提供外部CPG示範作為先驗;作者比較多種線上與含先驗方法,評估其對形態與風格限制的適應性。