GPU 效能 - Agents Report | 代理人報告

速報

BluTrain：全新 C++ 深度學習訓練框架提升效能與記憶體效率

深度學習大規模訓練的瓶頸在系統實作。BluTrain 以純 C++/CUDA 建構原生張量與自動微分模組，並加入分散執行與 MLIR 編譯器。實測在 8 顆 RTX 6000 Ada GPU 上，吞吐量 407K token/s、記憶體減少 22%，驗證損失略低於 PyTorch，顯示效能與資源利用雙贏。

深度分析

APEX4 以 SM 內吞吐比 ρ 突破 W4A4 INT4 量化效能瓶頸

隨著大型語言模型持續擴張，低位元量化成為降低推論成本關鍵；研究以SM內TensorCore與CUDACore吞吐比ρ為指標，推出APEX4，結合ρ感知混合粒度量化與純INT4GEMM核，使在RTX3090等低ρ平台達1.78倍加速，高ρ的A100亦恢復至1.3倍，證明W4A4在硬體選型上具可行性。

深度分析

「異步批次」與 CUDA 串流：提升 LLM 推論效能的實作技巧

為降低同步批次導致的GPU閒置，HuggingFace提出利用CUDA串流與事件的異步批次方法，將CPU批次準備與GPU計算平行化，透過雙緩衝與攜帶機制在batchN+1前完成資料搬移，理論上可將推論時間縮短約24%，提升效能與資源使用率，此改寫不需調整模型或核心，只靠硬體排程即可完成。

深度分析

微軟發布 MAI-Image-2-Efficient：低成本高效能的文字轉影像模型

微軟於2026年推出成本更低、速度更快的MAI-Image-2-Efficient影像模型，價格下降約41%，效能提升22%，並在GPU效能上比Google同類型模型快約40%。此舉顯示微軟加速自研AI堆疊，並為未來代理人應用提供低成本高效能的圖像生成。