深度分析
大型語言模型時間偏好定位與 CAA 干預實驗:以 Qwen3-4B 為例
本研究聚焦於 Qwen3-4B-Instruct-2507 這款蒸餾大型語言模型,透過機械可解釋性技術定位其內部時間偏好子圖。結合梯度屬性、線性探測與激活修補等四條管線,發現層 17‑35 為關鍵區域,其中注意力層 L24 與 MLP 層 L31‑L35 影響最大。
深度分析
本研究聚焦於 Qwen3-4B-Instruct-2507 這款蒸餾大型語言模型,透過機械可解釋性技術定位其內部時間偏好子圖。結合梯度屬性、線性探測與激活修補等四條管線,發現層 17‑35 為關鍵區域,其中注意力層 L24 與 MLP 層 L31‑L35 影響最大。
深度分析
近年國際治理框架開始要求可審核的高風險AI安全證據,從歐盟AI法到各地指引與檢驗機制,均把無隱藏目標、阻絕失控前兆、限制災難性能力等高階主張納入檢驗範圍。本文指出現有的行為評估、紅隊測試與合規文件,雖能觀察模型輸出與流程合規,卻不足以支撐對潛在表徵或長期代理行為的否定性主張。