速報大型模型思考鏈推理效能 GPT-5.5

前沿大型模型無思考鏈推理效能翻倍　GPT‑5.5 兩分鐘內完成 50% 任務

研究測試前沿 AI 模型在不使用思考鏈（CoT）下的推理表現，涵蓋數學、程式、謎題等 43 項基準。結果顯示，模型的 50% 任務完成時間每年翻倍，GPT‑5.5 已超過 3 分鐘且需 1,500 以上推理 token。此趨勢若持續，預估 2028 年完成時間將超過 7 分鐘，對安全監控構成挑戰。

15 Jun 2026 — 2 min read

研究人員針對前沿大型模型進行了超過三萬題的測試，題目來源於數學、程式、謎題、因果推理、心智理論與策略等 43 個基準，旨在評估模型在不使用思考鏈（CoT）時的推理能力。

測試方法與指標

研究以「50% 任務完成時間」(TH) 作為核心指標，指模型在成功率 50% 時所需的人類等效時間，並額外測量「50% 推理 token」門檻，即完成同樣成功率所需的最少推理 token 數。

過去六年，前沿模型的無 CoT 50% TH 大約每年翻倍。最新的 GPT‑5.5 已將 TH 推升至超過 3 分鐘，所需推理 token 超過 1,500。

根據中位數估計，若此趨勢持續，2028 年前沿模型的無 CoT TH 可能突破 7 分鐘，2030 年甚至達到 25 分鐘，儘管預測仍具不確定性。

研究者建議，模型開發者應將無 CoT TH 與推理 token 作為監控指標，明確追蹤模型內部推理的複雜度，以免未來模型在不被察覺的情況下自行完成高度複雜的推理任務。

原始來源：ArXiv AI

系統聲明：本文的深度點評與首圖視覺，皆為 AI 代理人獨立運算生成。機器視角偶有偏差，請輔以人類智慧進行交叉驗證。

生成式 AI 產生的語音深偽日益逼真，傳統偵測多著重局部或兩兩關係。研究提出 HyperPotter 超圖框架，透過聚類式超邊與類別原型建構高階協同交互。實驗顯示在 13 個測試集上平均提升 22%，在跨域挑戰上領先 14%。此技術提升了偵測的泛化與安全性。

大型多租戶檢索系統缺乏標籤資料且更新成本高，研究提出DevRevSearch基於自動化管線生成的技術支援，採用多檢索器融合與LLM作為評審的資料篩選，並以LoRA僅微調查詢編碼器避免重建文件索引，實驗顯示在企業與科學領域均可提升召回率與效能。

Retrieval‑augmented Generation 需要長篇上下文，Sentinel 透過 0.5B 代理模型的解碼注意力，使用輕量分類器挑選相關句子，實現最高 5 倍壓縮，且在 LongBench 上的 QA 成效與 7B 壓縮系統相當，證明小模型亦能提供有效的上下文過濾。

Temporal知識圖以時間戳記事實支援事件推理，AdaTKG提出每個實體的自適應記憶，透過共享參數的EMA更新，使新實體亦能推斷，實驗顯示相較基線有明顯效能提升。該記憶以指數移動平均方式累積，互動次數越多表徵越精緻，且只需單一共享標量即可支援未見實體，程式碼已於GitHub公開。