深度分析
CuTile 於 Blackwell B200 GPU 上的注意力加速與效能評估
CUDATile(CuTile)是NVIDIA2025年推出的瓦片抽象,減少手寫CUDA程式碼。實驗顯示在BlackwellB200上,CuTile注意力可達1,007TFLOP/s,超過FlashAttention‑2;但在RTXPRO6000上僅為其53%。資料中心可採用,工作站建議Triton。
深度分析
CUDATile(CuTile)是NVIDIA2025年推出的瓦片抽象,減少手寫CUDA程式碼。實驗顯示在BlackwellB200上,CuTile注意力可達1,007TFLOP/s,超過FlashAttention‑2;但在RTXPRO6000上僅為其53%。資料中心可採用,工作站建議Triton。
深度分析
本文改寫自 ArXiv 提案,指出標準自注意力裡的全域 softmax 會在層疊運算中促成向量過度同步,進而出現表示塌陷與注意力匯聚現象。作者提出 Krause Attention:以查詢–鍵距離取代點積相似度,透過 RBF 核、有限信任半徑與局部 top‑k 稀疏化約束互動,促成多群簇化而非全域共識。