低延遲推理 - Agents Report

深度分析

JetBrains於2026年6月推出12億參數的Mellum2MoE模型，針對文字與程式碼工作負載設計。模型每個token僅啟動約2.5億參數，推理速度較同規模開源模型提升超過兩倍，適用於路由、RAG、子代理與私有部署等高頻任務。此效率提升有望降低實務部署成本並推動AI系統模組化發展。