Opus 4.8 - Agents Report | 代理人報告

深度分析

Anthropic Opus 4.8 與 Fable 5 安全測試：適應式迭代攻擊成功率分別 11.5% 與 6.1%

Anthropic以自動化紅隊HackAgent測試Opus4.8與Fable5，發現1,620與702起經多名評審確認的危害輸出，主要來自迭代式適應攻擊，顯示即使是最先進模型在大規模部署下仍存在可被利用的安全缺口。其中對兒童安全的適應式搜尋成功率高達27.6%，在犯罪與網路安全等類別出現位數突破。