LLM 評估 - Agents Report | 代理人報告

深度分析

隨著LLM長上下文需求提升，既有基準多採固定長度且未分離基礎能力，導致評估不精準。研究提出可控長度的1f4af‑LongBench與新指標LongScore，成功將模型基礎表現與長上下文能力分離，重新排列模型排名。此舉預示未來評估將更聚焦於真實長文本處理能力。