深度分析 DeFAb:以 Answer Set Programming 評測大型語言模型的可辯駁推理能力 DeFAb是一個以可驗證基準測試基礎模型可辯駁推理能力的資料集,將四十年公共知識庫轉換為具形式化驗證的推理實例,模型需在多種呈現方式下構造保守且最小變更的例外規則。實驗顯示現有大型語言模型在此任務上正確率最高僅約二三成,遠低於符號求解器的百分之百。