跨領域測試 - Agents Report

深度分析

隨著大型語言模型快速迭代，傳統以單一分數評估已顯不足。研究提出JE‑IRT幾何嵌入框架，將模型與題目同投射於共享空間，方向代表語意、向量長度代表難度，透過幾何交互預測正確率。實驗證明此法能解釋跨領域表現下降，並以輕量嵌入快速納入新模型，顯示出與人為科目劃分不同的內部分類。