AgentFairBench:評估大型語言模型代理行為公平性的多領域基準
大型語言模型代理在招聘、放款與醫療分診等領域的決策日益增多,公平性仍僅以答案正確度衡量。AgentFairBench 以合成中性個人檔案,僅改變姓名暗示的種族與性別,測試四種代理架構的行動差異,提供翻轉率與分數差等指標。結果顯示,嚴格噪音基準下,Claude Haiku 4.5 無顯著人口統計偏差。
背景
大型語言模型(LLM)代理正被廣泛應用於篩選求職者、推薦信貸、以及醫療分診等關鍵決策情境。然而,現行的公平性評估仍以模型回答的正確性為主,未能捕捉代理在實際行動層面的偏差。
AgentFairBench 介紹
研究團隊提出 AgentFairBench,作為一套成本低廉、可重現的多領域基準,專注於測量 LLM 代理在行動上的人口統計差異。此基準依循 Bias Conduction Framework(BCF),涵蓋三個以監管機構為基礎的領域:招聘、放款與醫療分診。
使用合成、人口統計中性的個人檔案,僅透過姓名編碼的種族與性別訊號(參考 Bertrand‑Mullainathan 方式)形成對照組,並在四種代理架構下測試:直接回應、思考鏈(Chain‑of‑Thought)、多代理協商、工具輔助。
評估指標與方法
透過純 NumPy 實作的測試平台,計算以下指標:
- 反事實翻轉率(Counterfactual Flip Rate)
- 平均絕對分數差(Mean Absolute Score Difference, MASD)
- 行動率差異(Action‑Rate Disparity)
- 工具呼叫差異(Tool‑Invocation Disparity)
平台同時提供 bootstrap 信賴區間、配對檢定與偽發現率控制,單模型成本僅為數美元。結果以公開排行榜方式呈現,並設有私有測試集與汙染偵測機制,允許外部模型提交。
實驗發現
在 864 筆決策與測試‑重測複製實驗中,研究指出若僅比較六組分數範圍與兩次噪音差異,會因統計維度(arity)高估不公平約 2.4 倍。以匹配維度的噪音基準與全體組別檢定為參照,Claude Haiku 4.5 的決策未顯示超過抽樣噪音的人口統計效應(0/120 對比、0/9 全域檢定通過校正)。同時,植入偏差測試證實此工具能在偏差存在時偵測出來。
貢獻與開源資源
AgentFairBench 提供了一套可靠、敏感且可直接採用的公平性測試儀器,並引入了「維度匹配的虛無方法」作為統計基礎。所有程式碼、資料與測試平台均以開源授權釋出,並附有匿名化的審查成果。
延伸閱讀
- 從提示到情境:CCAI 本體論在生成式人工智慧協作中的實作
- MOOSE-Copilot:以 HAII 協議與樹狀可視化串接 LLM 的探索與精細化流程
- Eliot:以 MiniLM 嵌入、UMAP 與凝聚式聚類實現查詢時 arXiv 論文叢集與時間視覺化
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。