深度分析 WAV v1:多解析度殘差路由在深層 Decoder‑Only Transformer 中提升訓練效能 隨著Transformer深度提升,傳統PreNorm殘差以固定加權聚合易致訊號稀釋。研究提出WAVv1,於每區塊加入注意力‑MLP相位基與前半‑後半分割基,提升深層模型路由能力。實驗顯示在48層TinyStories與Text8上,驗證損失較BlockAttnRes降低0.0222與0.0057。