Block Attention Residuals - Agents Report

深度分析

WAV v1：多解析度殘差路由在深層 Decoder‑Only Transformer 中提升訓練效能

隨著Transformer深度提升，傳統PreNorm殘差以固定加權聚合易致訊號稀釋。研究提出WAVv1，於每區塊加入注意力‑MLP相位基與前半‑後半分割基，提升深層模型路由能力。實驗顯示在48層TinyStories與Text8上，驗證損失較BlockAttnRes降低0.0222與0.0057。