測試時擴展 - Agents Report

深度分析

從自洽到生成‑驗證：LRM 在 PlanBench 與 Mystery Blocksworld 的表現與挑戰

大型推理模型在計畫與推理基準上取得突破，研究對比測試時擴展與傳統LLM的自洽與生成‑測試框架，指出缺乏外部驗證易產生幻覺與過度自信，提出混合驗證架構降低風險，預示未來開發者將更依賴可靠的驗證機制與跨模型協同。以PlanBench與Mystery Blocksworld為例，驗證模型在更大規模與不可解問題仍易產生錯誤計畫。

MaxProof：人口層級測試時擴展提升 AI 數學證明競賽表現

從自洽到生成‑驗證：LRM 在 PlanBench 與 Mystery Blocksworld 的表現與挑戰