深度分析 PRECISE:以 Prediction‑Powered Inference 校正 LLM 評估的 Precision@K 偏差 研究探討以LLM作為評分裁判的偏差問題,提出PRECISE結合少量人工標註與大量LLM判斷的統計校正方法,於ESCI測試中將Precision@4的標準誤降至21%。實驗顯示,使用Claude 3 Sonnet可將標準誤從4.45降至3.50,成本千美元;Haiku在保持低偏差同時,成本下降逾十二倍。