FP4

深度分析

FP4 訓練因成本壓力受矚目，E2M1 格式固有收縮偏差導致層間信號衰減，RHT 進一步放大此問題。UFP4 以均勻 E1M2/INT4 網格結合全域 RHT，僅在 dY 上使用隨機捨入，顯著降低 BF16 相對損失，建議未來硬體支援均勻 4 位元作為第一類訓練原語。

深度分析

隨著基礎模型規模與資料量持續擴大，計算與記憶體需求急升。研究提出HiFloat4 4位元浮點格式於華為Ascend NPU上進行語言模型預訓練，並與MXFP4比較。實驗顯示在密集與MoE模型上，計算吞吐提升最高4倍，誤差控制在全精度的1%以內。