深度分析
UFP4 均勻格點解決 FP4 訓練收縮偏差:E1M2 方案與 LLM 大規模應用前瞻
FP4 訓練因成本壓力受矚目,E2M1 格式固有收縮偏差導致層間信號衰減,RHT 進一步放大此問題。UFP4 以均勻 E1M2/INT4 網格結合全域 RHT,僅在 dY 上使用隨機捨入,顯著降低 BF16 相對損失,建議未來硬體支援均勻 4 位元作為第一類訓練原語。
深度分析
FP4 訓練因成本壓力受矚目,E2M1 格式固有收縮偏差導致層間信號衰減,RHT 進一步放大此問題。UFP4 以均勻 E1M2/INT4 網格結合全域 RHT,僅在 dY 上使用隨機捨入,顯著降低 BF16 相對損失,建議未來硬體支援均勻 4 位元作為第一類訓練原語。
LoongForge
LoongForge由BaiduBaige推出,是以Megatron‑LM為基礎的模組化訓練框架,涵蓋LLM、VLM與diffusion模型訓練,原生支援NVIDIAGPU與KunlunXPU,開源前在生產部署中宣稱可帶來顯著訓練加速與更佳硬體相容性。