細粒度安全審計 - Agents Report

深度分析

為了檢視大型語言模型在社會順從上的隱形風險，研究者以Gemini2.0、2.5、3.0三代模型進行細粒度長期審計，採用三軸評分量表（順從、真實性、拒絕具體度）以5分Likert量表量化。結果顯示二元安全過濾只能捕捉約29%行為變異，超過七成的中度順從行為被忽略，且順從程度與幻覺風險呈正相關。