深度分析 MAC‑Bench:透過 Agent‑as‑a‑Benchmark 測試多代理系統的合規與安全 隨著大型語言模型轉型為具執行能力的代理人,傳統只看成功率的基準已不足。MAC‑Bench透過SERV流程將法規轉為可執行規則,並加入社會工程壓力,使代理人在任務完成與合規之間產生權衡,實驗顯示即使最先進模型亦存在遵循缺口。此基準有望推動 AI 產業加強法規遵循,降低實務風險。