深度分析
FP8 與 Ozaki Scheme II 結合 Kulisch 重建:重新定義 HPC 雙精度運算
隨著AI專用GPU逐漸拋棄原生FP64,研究提出以FP8為基礎的OzakiSchemeII以及Kulisch重建技術,透過中國剩餘定理在記憶體受限工作負載上模擬雙精度。實驗顯示在B300與RubinGPU上,FP8+Ozaki可將FP64效能提升至數百倍,奪回記憶體上限,為未來高效能運算提供路徑。
深度分析
隨著AI專用GPU逐漸拋棄原生FP64,研究提出以FP8為基礎的OzakiSchemeII以及Kulisch重建技術,透過中國剩餘定理在記憶體受限工作負載上模擬雙精度。實驗顯示在B300與RubinGPU上,FP8+Ozaki可將FP64效能提升至數百倍,奪回記憶體上限,為未來高效能運算提供路徑。
速報
GPU近年透過FP8提升運算,但大型推薦模型(LRM)因數值敏感難以直接套用。研究提出LoKA框架,包括Probe線上量測層級統計、Mods調整模型以增穩定性、及Dispatch於執行時選最快合格FP8內核。實驗顯示LoKA能在維持準確度下使LRM更實務化。
深度分析
大型基礎模型在分散式與低精度環境下訓練時,AdamW易遭數值與通訊瓶頸影響。本研究提出StoSignSGD,於符號運算注入結構化隨機性以維持無偏更新,理論上修復SignSGD於非平滑目標的發散,並在FP8預訓練與7B微調實驗展現穩定性與效率提升。