機械可解釋性 - Agents Report

深度分析

GCFF 演算法：無須稀疏限制，從生物啟發中長出階層式語意神經元

本研究提出 Group-Contrastive Forward-Forward (GCFF) 演算法，一種受生物視覺系統啟發的訓練方法。不同於現有稀疏字典學習（SDL）仰賴線性重建與稀疏限制來提取語意特徵，GCFF 透過類別特定路由與類別層級對比學習，在非線性多層網路中自然產生單語意神經元。

深度分析

Transformer FFN 稀疏層間依賴解析：免訓練歸因方法揭示 GPT‑2 與 Qwen2.5 計算路徑

研究針對 Transformer 中的前饋網路神經元，提出免訓練歸因方法，發現僅需少量前層激活與注意力輸出即可重建神經元激活，且在適度稀疏下模型困惑度不變。實驗覆蓋 GPT‑2 系列與 Qwen2.5 多種規模，顯示約 17%‑19% 神經元具可辨識的專門計算，且稀疏路徑呈次線性增長，為模型壓縮與電路解釋提供新方向。

速報

近正交特徵字典提升語言模型可干預性

機械可解釋性研究認為語言模型的概念以線性特徵呈現在激活空間中，然而特徵交織會導致干擾，使局部干預產生意外影響。研究者受「獨立因果機制」原則啟發，提出將內部特徵約束為近正交，以促進模組化表示並支援因果干預。透過分析特徵字典的自一致性，建立上界以量化干擾傳播，並將其轉化為正交正則化項。

深度分析

跨層編碼器特徵交互度量與計算稀疏化：緊湊證明新突破

研究針對跨層編碼器（crosscoder）特徵交互提出互動度量，並以此設計計算稀疏的跨編碼器，僅保留單一特徵即可維持約60%MLP效能；相較標準跨編碼器僅保留10%效能。此度量亦可用於語意特徵聚類，協助偵測異常代理人，提升AI解釋性與安全性。

深度分析

「光譜參與率」結合任務篩選與因果消融：三步驟定位 Transformer 注意力頭專門化電路

本研究提出三步驟方法，利用每層注意力頭的光譜參與率指標篩選出與特定任務相關的電路，並以匹配隨機與全層上限做因果驗證，證實在 51M 至 1B 參數模型中，約 17%‑19% 的頭具備可辨識的專門計算能力。跨架構驗證顯示此方法在密集式與混合專家模型皆能找出 3‑6 頭的誘導電路，且比例隨規模擴大保持恆定。

深度分析

大型語言模型時間偏好定位與 CAA 干預實驗：以 Qwen3-4B 為例

本研究聚焦於 Qwen3-4B-Instruct-2507 這款蒸餾大型語言模型，透過機械可解釋性技術定位其內部時間偏好子圖。結合梯度屬性、線性探測與激活修補等四條管線，發現層 17‑35 為關鍵區域，其中注意力層 L24 與 MLP 層 L31‑L35 影響最大。

深度分析

機械可解釋性與行為評估的審計缺口：AI治理驗證的存取與可重複性挑戰

近年國際治理框架開始要求可審核的高風險AI安全證據，從歐盟AI法到各地指引與檢驗機制，均把無隱藏目標、阻絕失控前兆、限制災難性能力等高階主張納入檢驗範圍。本文指出現有的行為評估、紅隊測試與合規文件，雖能觀察模型輸出與流程合規，卻不足以支撐對潛在表徵或長期代理行為的否定性主張。