深度分析
CuTile 於 Blackwell B200 GPU 上的注意力加速與效能評估
CUDATile(CuTile)是NVIDIA2025年推出的瓦片抽象,減少手寫CUDA程式碼。實驗顯示在BlackwellB200上,CuTile注意力可達1,007TFLOP/s,超過FlashAttention‑2;但在RTXPRO6000上僅為其53%。資料中心可採用,工作站建議Triton。
深度分析
CUDATile(CuTile)是NVIDIA2025年推出的瓦片抽象,減少手寫CUDA程式碼。實驗顯示在BlackwellB200上,CuTile注意力可達1,007TFLOP/s,超過FlashAttention‑2;但在RTXPRO6000上僅為其53%。資料中心可採用,工作站建議Triton。
深度分析
本研究比較CUDA Tile與cuBLAS、Triton、WMMA等在Hopper與Blackwell GPU上針對GEMM、融合注意力與LLM推論的表現。CuTile以Python磁磚抽象簡化Tensor Core與TMA使用,並在B200上對融合注意力取得領先,但在工作站等級Blackwell上效能下降,突顯跨架構可攜性風險。