深度分析 Anthropic Opus 4.8 與 Fable 5 安全測試:適應式迭代攻擊成功率分別 11.5% 與 6.1% Anthropic以自動化紅隊HackAgent測試Opus4.8與Fable5,發現1,620與702起經多名評審確認的危害輸出,主要來自迭代式適應攻擊,顯示即使是最先進模型在大規模部署下仍存在可被利用的安全缺口。其中對兒童安全的適應式搜尋成功率高達27.6%,在犯罪與網路安全等類別出現位數突破。