Precision@K - Agents Report

深度分析

PRECISE：以 Prediction‑Powered Inference 校正 LLM 評估的 Precision@K 偏差

研究探討以LLM作為評分裁判的偏差問題，提出PRECISE結合少量人工標註與大量LLM判斷的統計校正方法，於ESCI測試中將Precision@4的標準誤降至21%。實驗顯示，使用Claude 3 Sonnet可將標準誤從4.45降至3.50，成本千美元；Haiku在保持低偏差同時，成本下降逾十二倍。