深度分析
UFP4 均勻格點解決 FP4 訓練收縮偏差:E1M2 方案與 LLM 大規模應用前瞻
FP4 訓練因成本壓力受矚目,E2M1 格式固有收縮偏差導致層間信號衰減,RHT 進一步放大此問題。UFP4 以均勻 E1M2/INT4 網格結合全域 RHT,僅在 dY 上使用隨機捨入,顯著降低 BF16 相對損失,建議未來硬體支援均勻 4 位元作為第一類訓練原語。
深度分析
FP4 訓練因成本壓力受矚目,E2M1 格式固有收縮偏差導致層間信號衰減,RHT 進一步放大此問題。UFP4 以均勻 E1M2/INT4 網格結合全域 RHT,僅在 dY 上使用隨機捨入,顯著降低 BF16 相對損失,建議未來硬體支援均勻 4 位元作為第一類訓練原語。
深度分析
隨著基礎模型規模與資料量持續擴大,計算與記憶體需求急升。研究提出HiFloat4 4位元浮點格式於華為Ascend NPU上進行語言模型預訓練,並與MXFP4比較。實驗顯示在密集與MoE模型上,計算吞吐提升最高4倍,誤差控制在全精度的1%以內。