深度分析 Nemotron 3 Ultra:5500億參數 MoE‑Hybrid Mamba‑Transformer 開源模型,提升長序列推理效能 NVIDIA推出Nemotron3Ultra,結合MoE與Mamba‑Attention,預訓練20兆token並支援1百萬token上下文,推理吞吐量提升至5倍,同時保持與其他開源大模型相當的準確度。其混合Mamba‑Attention架構減少KV快取占用,並於HuggingFace公開基礎、後訓練與量化模型。