深度神經網路塑性喪失與Hessian頻譜崩潰:持續學習新突破

本研究探討深度神經網路在持續學習情境下為何會失去塑性,導致無法在不重新初始化參數的情況下學習新任務。作者發現,新任務初始化時會出現Hessian頻譜崩潰,意味著有意義的曲率方向消失,梯度下降失效。

深度神經網路Hessian崩潰

背景說明

持續學習要求模型在不遺忘舊任務的同時,仍能有效吸收新任務的知識。許多深度神經網路在面對新任務時,需要重新初始化參數,顯示出塑性喪失的問題。

核心發現

研究發現,塑性喪失前會出現Hessian頻譜崩潰,即在新任務初始化時,有意義的曲率方向消失,使得梯度下降變得無效。透過對線性化ReLU網路的分析,作者推導出ε‑rank條件,說明何時訓練能成功。

理論連結

作者證明,損失加權的Gram矩陣在譜上等價於廣義Gauss‑Newton近似,將神經張量核(NTK)動力學與Hessian曲率直接關聯。

對策與正則化

針對頻譜崩潰,研究討論了Hessian的Kronecker分解近似,進一步提出兩項正則化策略:1. 維持高有效特徵秩;2. 加入L2懲罰。

實驗驗證

在多項持續監督與強化學習任務上,結合上述兩項正則化後,模型顯著保留了對新任務的塑性,避免了重新初始化的需求。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more