深度分析 長上下文基準升級:1f4af‑LongBench 與 LongScore 助力 LLM 128k token 評測 隨著LLM長上下文需求提升,既有基準多採固定長度且未分離基礎能力,導致評估不精準。研究提出可控長度的1f4af‑LongBench與新指標LongScore,成功將模型基礎表現與長上下文能力分離,重新排列模型排名。此舉預示未來評估將更聚焦於真實長文本處理能力。