合規測試 - Agents Report

深度分析

隨著大型語言模型轉型為具執行能力的代理人，傳統只看成功率的基準已不足。MAC‑Bench透過SERV流程將法規轉為可執行規則，並加入社會工程壓力，使代理人在任務完成與合規之間產生權衡，實驗顯示即使最先進模型亦存在遵循缺口。此基準有望推動 AI 產業加強法規遵循，降低實務風險。