深度分析
JE‑IRT 幾何式評估框架:以向量空間重新詮釋大型語言模型能力
隨著大型語言模型快速迭代,傳統以單一分數評估已顯不足。研究提出JE‑IRT幾何嵌入框架,將模型與題目同投射於共享空間,方向代表語意、向量長度代表難度,透過幾何交互預測正確率。實驗證明此法能解釋跨領域表現下降,並以輕量嵌入快速納入新模型,顯示出與人為科目劃分不同的內部分類。
深度分析
隨著大型語言模型快速迭代,傳統以單一分數評估已顯不足。研究提出JE‑IRT幾何嵌入框架,將模型與題目同投射於共享空間,方向代表語意、向量長度代表難度,透過幾何交互預測正確率。實驗證明此法能解釋跨領域表現下降,並以輕量嵌入快速納入新模型,顯示出與人為科目劃分不同的內部分類。
深度分析
自動提示優化需大量評估成本,研究提出 POES 以 IRT 辨識效用、覆蓋項與切換成本為目標,形成子模組保證。實驗顯示在相同預算下提升 6.2% 準確度,且以 20 樣本即可匹配 30‑50 樣本的效果,顯著降低 token 消耗。