深度分析
權重範數決定 Grokking 時間尺度:因果延遲法則實驗驗證
研究發現,神經網路在模組算術任務中出現延遲泛化(grokking)。透過在訓練時固定權重範數,證明範數決定grokking的時間尺度,呈指數延遲。提升範數會延長學習時間,但不阻止最終泛化,且此法則於未正規化注意力模型與稀疏奇偶任務均成立。
深度分析
研究發現,神經網路在模組算術任務中出現延遲泛化(grokking)。透過在訓練時固定權重範數,證明範數決定grokking的時間尺度,呈指數延遲。提升範數會延長學習時間,但不阻止最終泛化,且此法則於未正規化注意力模型與稀疏奇偶任務均成立。
Grokking
研究發現神經網路在 Grokking 過程中的更新方向集中於「光譜邊緣」,揭示了學習本質上是發現低維度函數模式的過程。傳統解釋性工具難以捕捉此現象,而學習模式則與任務的代數對稱性高度相關,為 AI 泛化機制提供了全新的數學解釋。