NVFP4 - Agents Report | 代理人報告

深度分析

步驟感知溫度縮放 (ReSET) 提升 NVFP4 大型推理模型的精度與效能

NVFP4低精度能減少推理成本，但在大型推理模型上會降低正確率。研究提出ReSET以步驟熵調整溫度，並設計小批次CUDA‑corekernel，實測提升2點準確度與最高2.5倍解碼速度，同時克服Tensor‑Core小批次佔用低問題，為邊緣AI部署深層模型提供可行路徑。

深度分析

Holo3.1 量化模型升級：跨環境韌性、NVFP4 加速與多尺寸本地部署

去年 Holo3 推出即受熱烈採用，為滿足桌面與行動裝置需求，Holo3.1 提供量化 FP8、Q4GGUF、NVFP4 模型，支援本地與雲端推論，加入函式呼叫協議與原生執行，行動環境正確率提升至 79%，本地推論速度提升近兩倍，同時小型 0.8B 與 4B 版本提供成本效益，整體效能較前代提升超過 25%。

NVFP4

Swin Transformer 對 NVFP4（FP4）量化感知訓練的魯棒性：架構、尺度與 QAT 食譜比較

針對腦瘤MRI像素級異常分割，本研究比較CNN、ViT與Swin三種架構在500K至15M規模及八種NVFP4四位元QAT食譜下之表現，發現Swin於各尺度對QAT食譜高度魯棒，先進食譜可避免注意力離散化並減緩大型CNN因梯度量化造成的效能衰退。

深度分析

TetraJet-v2：以 NVFP4 實現全流程 4 位（fully-FP4）訓練，並以 OsciReset 與 OutControl 抑制權重振盪與外點

大型語言模型訓練成本高昂，TetraJet-v2 提出一套端到端的 4 位全量化訓練方法，全面使用 NVFP4 表示法於所有線性層的啟動值、權重與梯度。