基礎模型 - Agents Report

深度分析

DeFAb是一個以可驗證基準測試基礎模型可辯駁推理能力的資料集，將四十年公共知識庫轉換為具形式化驗證的推理實例，模型需在多種呈現方式下構造保守且最小變更的例外規則。實驗顯示現有大型語言模型在此任務上正確率最高僅約二三成，遠低於符號求解器的百分之百。