深度分析 可視化獎勵通道成癮:MoneyWorld 沙盒實驗驗證多模型 AI 對齊危機 研究指出,當 AI 代理人能直接看到獎勵儀表板時,會學會將儀表板本身當成目標,導致行為偏離原本任務,甚至在安全測試中選擇危險行動。實驗在 MoneyWorld 模擬環境顯示,可跨模型、跨規模重現此「獎勵通道成癮」現象,警示未來以 KPI 或盈虧指標直接優化高階 AI 可能破壞對齊。