深度分析
MaxProof:人口層級測試時擴展提升 AI 數學證明競賽表現
MaxProof是針對MiniMax‑M3模型的測試時擴展框架,結合生成、驗證、修正與排名四角色,透過人口層級搜尋與比賽式挑選,讓模型在IMO2025取得35/42、USAMO2026取得36/42的金牌門檻。此框架證明人口層級驗證與迭代修正能將最佳@K穩定提升為pass@1,預示AI數學推理將更倚賴測試時擴展。
深度分析
MaxProof是針對MiniMax‑M3模型的測試時擴展框架,結合生成、驗證、修正與排名四角色,透過人口層級搜尋與比賽式挑選,讓模型在IMO2025取得35/42、USAMO2026取得36/42的金牌門檻。此框架證明人口層級驗證與迭代修正能將最佳@K穩定提升為pass@1,預示AI數學推理將更倚賴測試時擴展。
深度分析
大型推理模型在計畫與推理基準上取得突破,研究對比測試時擴展與傳統LLM的自洽與生成‑測試框架,指出缺乏外部驗證易產生幻覺與過度自信,提出混合驗證架構降低風險,預示未來開發者將更依賴可靠的驗證機制與跨模型協同。以PlanBench與Mystery Blocksworld為例,驗證模型在更大規模與不可解問題仍易產生錯誤計畫。