Transformer 注意力 - Agents Report

深度分析

MoA 框架實現記憶體流量最小化的 Transformer 注意力機制

研究以陣列數學（MoA）框架重構縮放點積注意力與穩定softmax，代數化消除所有中間緩衝，使記憶體流量達理論最小O(ndk+ndv)。相較傳統O(n²)實作，預測在長序列下可提升數十倍速度並大幅降低能耗，同時保持硬體無關與正確性，此方法亦提供可預測的成本模型，支援未來exascale計算平台。

深度分析

CuTile 於 Blackwell B200 GPU 上的注意力加速與效能評估

CUDATile（CuTile）是NVIDIA2025年推出的瓦片抽象，減少手寫CUDA程式碼。實驗顯示在BlackwellB200上，CuTile注意力可達1,007TFLOP/s，超過FlashAttention‑2；但在RTXPRO6000上僅為其53%。資料中心可採用，工作站建議Triton。

深度分析

Krause Attention：以有界信任與 RBF 距離重構 Transformer 注意力

本文改寫自 ArXiv 提案，指出標準自注意力裡的全域 softmax 會在層疊運算中促成向量過度同步，進而出現表示塌陷與注意力匯聚現象。作者提出 Krause Attention：以查詢–鍵距離取代點積相似度，透過 RBF 核、有限信任半徑與局部 top‑k 稀疏化約束互動，促成多群簇化而非全域共識。