深度分析 從自洽到生成‑驗證:LRM 在 PlanBench 與 Mystery Blocksworld 的表現與挑戰 大型推理模型在計畫與推理基準上取得突破,研究對比測試時擴展與傳統LLM的自洽與生成‑測試框架,指出缺乏外部驗證易產生幻覺與過度自信,提出混合驗證架構降低風險,預示未來開發者將更依賴可靠的驗證機制與跨模型協同。以PlanBench與Mystery Blocksworld為例,驗證模型在更大規模與不可解問題仍易產生錯誤計畫。