深度分析
步驟感知溫度縮放 (ReSET) 提升 NVFP4 大型推理模型的精度與效能
NVFP4低精度能減少推理成本,但在大型推理模型上會降低正確率。研究提出ReSET以步驟熵調整溫度,並設計小批次CUDA‑corekernel,實測提升2點準確度與最高2.5倍解碼速度,同時克服Tensor‑Core小批次佔用低問題,為邊緣AI部署深層模型提供可行路徑。
深度分析
NVFP4低精度能減少推理成本,但在大型推理模型上會降低正確率。研究提出ReSET以步驟熵調整溫度,並設計小批次CUDA‑corekernel,實測提升2點準確度與最高2.5倍解碼速度,同時克服Tensor‑Core小批次佔用低問題,為邊緣AI部署深層模型提供可行路徑。
深度分析
去年 Holo3 推出即受熱烈採用,為滿足桌面與行動裝置需求,Holo3.1 提供量化 FP8、Q4GGUF、NVFP4 模型,支援本地與雲端推論,加入函式呼叫協議與原生執行,行動環境正確率提升至 79%,本地推論速度提升近兩倍,同時小型 0.8B 與 4B 版本提供成本效益,整體效能較前代提升超過 25%。
NVFP4
針對腦瘤MRI像素級異常分割,本研究比較CNN、ViT與Swin三種架構在500K至15M規模及八種NVFP4四位元QAT食譜下之表現,發現Swin於各尺度對QAT食譜高度魯棒,先進食譜可避免注意力離散化並減緩大型CNN因梯度量化造成的效能衰退。
深度分析
大型語言模型訓練成本高昂,TetraJet-v2 提出一套端到端的 4 位全量化訓練方法,全面使用 NVFP4 表示法於所有線性層的啟動值、權重與梯度。