深度分析 「異步批次」與 CUDA 串流:提升 LLM 推論效能的實作技巧 為降低同步批次導致的GPU閒置,HuggingFace提出利用CUDA串流與事件的異步批次方法,將CPU批次準備與GPU計算平行化,透過雙緩衝與攜帶機制在batchN+1前完成資料搬移,理論上可將推論時間縮短約24%,提升效能與資源使用率,此改寫不需調整模型或核心,只靠硬體排程即可完成。