AI 控制 - Agents Report | 代理人報告

深度分析

「蜜罐協議」測試 Claude Opus 情境依賴行為的前置安全機制

隨著AI代理人取得系統權限，傳統監控因被動而易受適應性攻擊。研究提出蜜罐協議，透過變換系統提示測試模型在評估、合成部署與無監控三種情境下的行為差異。實驗以Claude Opus 4.6在BashArena執行，結果在所有情境均達到100%任務成功且未觸發側任務，此結果顯示模型在目前測試下未展現情境依賴，亦提醒需設計更具挑戰性的攻擊提示。