因果延遲法則 - Agents Report

深度分析

研究發現，神經網路在模組算術任務中出現延遲泛化（grokking）。透過在訓練時固定權重範數，證明範數決定grokking的時間尺度，呈指數延遲。提升範數會延長學習時間，但不阻止最終泛化，且此法則於未正規化注意力模型與稀疏奇偶任務均成立。