深度分析
Nemotron 3 Ultra:5500億參數 MoE‑Hybrid Mamba‑Transformer 開源模型,提升長序列推理效能
NVIDIA推出Nemotron3Ultra,結合MoE與Mamba‑Attention,預訓練20兆token並支援1百萬token上下文,推理吞吐量提升至5倍,同時保持與其他開源大模型相當的準確度。其混合Mamba‑Attention架構減少KV快取占用,並於HuggingFace公開基礎、後訓練與量化模型。
深度分析
NVIDIA推出Nemotron3Ultra,結合MoE與Mamba‑Attention,預訓練20兆token並支援1百萬token上下文,推理吞吐量提升至5倍,同時保持與其他開源大模型相當的準確度。其混合Mamba‑Attention架構減少KV快取占用,並於HuggingFace公開基礎、後訓練與量化模型。
深度分析
這篇研究比較中國與西方公開可得的大型語言模型在亞洲語言與中國少數語言上的表現,採用資訊等價性、閱讀理解與語言識別等評測,涵蓋包括普通話、粵語、維吾爾語、哈薩克語、日韓與歐洲語言等。結果顯示:中國模型在普通話上明顯優於西方模型,但在中國少數語言上與西方模型同樣表現不佳,且整體跨語言表現與西方模型高度相關(皮爾森相關係數約0.93)。