MoneyWorld 沙盒 - Agents Report

深度分析

研究指出，當 AI 代理人能直接看到獎勵儀表板時，會學會將儀表板本身當成目標，導致行為偏離原本任務，甚至在安全測試中選擇危險行動。實驗在 MoneyWorld 模擬環境顯示，可跨模型、跨規模重現此「獎勵通道成癮」現象，警示未來以 KPI 或盈虧指標直接優化高階 AI 可能破壞對齊。