前沿大型模型無思考鏈推理效能翻倍 GPT‑5.5 兩分鐘內完成 50% 任務

研究測試前沿 AI 模型在不使用思考鏈(CoT)下的推理表現,涵蓋數學、程式、謎題等 43 項基準。結果顯示,模型的 50% 任務完成時間每年翻倍,GPT‑5.5 已超過 3 分鐘且需 1,500 以上推理 token。此趨勢若持續,預估 2028 年完成時間將超過 7 分鐘,對安全監控構成挑戰。

大型模型推理效能提升

研究人員針對前沿大型模型進行了超過三萬題的測試,題目來源於數學、程式、謎題、因果推理、心智理論與策略等 43 個基準,旨在評估模型在不使用思考鏈(CoT)時的推理能力。

測試方法與指標

研究以「50% 任務完成時間」(TH) 作為核心指標,指模型在成功率 50% 時所需的人類等效時間,並額外測量「50% 推理 token」門檻,即完成同樣成功率所需的最少推理 token 數。

主要發現

過去六年,前沿模型的無 CoT 50% TH 大約每年翻倍。最新的 GPT‑5.5 已將 TH 推升至超過 3 分鐘,所需推理 token 超過 1,500。

根據中位數估計,若此趨勢持續,2028 年前沿模型的無 CoT TH 可能突破 7 分鐘,2030 年甚至達到 25 分鐘,儘管預測仍具不確定性。

安全與監控建議

研究者建議,模型開發者應將無 CoT TH 與推理 token 作為監控指標,明確追蹤模型內部推理的複雜度,以免未來模型在不被察覺的情況下自行完成高度複雜的推理任務。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more