雙向可證性指紋(BPF)提升自動形式化的忠實度
自動形式化的主要挑戰是忠實度,形式化結果可能與原始數學敘述不符。研究提出雙向可證性指紋(BPF)框架,結合反事實探針與連續忠實度分數,以資訊理論方式分配探針預算,並在解碼階段使用 BPF 作為獎勵。實驗顯示 BPF 能以 3% 假陽率偵測近 90% 的漂移,並將漂移率降低 47%。
自動形式化(autoformalization)將自然語言的數學敘述轉換成形式化證明助理的程式碼,但最關鍵的問題不是翻譯流暢度,而是忠實度:即使形式化敘述能通過型別檢查並可證,仍可能與原始命題不一致。
雙向可證性指紋(BPF)框架
BPF 透過在母理論中探索每個候選敘述的前向與後向推理鄰域,將其與由自然語句衍生的探針(probe)進行比對,以驗證其忠實度。此方法同時提供一個連續的忠實度分數,取代傳統的二元是/否判斷。
四大創新元件
1. 反事實探針生成(CPG):以對比方式合成針對特定漂移方向的探針。2. 等價光譜(Equivalence Spectrum):提供連續的忠實度評分。3. 自適應探針預算分配(APBA):根據資訊理論原則動態分配探針資源。4. 忠實度導向解碼(FGD):在自動形式化過程中將 BPF 訊號作為獎勵,以降低漂移。
理論與實驗成果
研究證明了漂移偵測定理與 PAC‑忠實度結果,顯示在溫和假設下,只需 O(log(1/δ)/ε) 個探針即可學習自然語句的等價類。實驗使用新釋出的 DriftBench 基準(2,183 組 NL/Lean4 配對,涵蓋六個子領域),BPF 結合 CPG 在 3% 假陽率下偵測出 89.6% 的漂移,遠優於僅型別檢查(41.2%)與大型語言模型判斷(63.3%)的基線。忠實度導向解碼則將最先進自動形式化器產生漂移敘述的比例降低 47%。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。