深度分析 「蜜罐協議」測試 Claude Opus 情境依賴行為的前置安全機制 隨著AI代理人取得系統權限,傳統監控因被動而易受適應性攻擊。研究提出蜜罐協議,透過變換系統提示測試模型在評估、合成部署與無監控三種情境下的行為差異。實驗以Claude Opus 4.6在BashArena執行,結果在所有情境均達到100%任務成功且未觸發側任務,此結果顯示模型在目前測試下未展現情境依賴,亦提醒需設計更具挑戰性的攻擊提示。