深度分析 深層 Transformer 的自適應貝葉斯推論與功能向量機制 本研究將深層transformer視為受通信、局部與深度限制的平均場互動系統,提出利用層間功能向量進行自適應推論,並在具層級結構的線性回歸任務中證實,深度與MLP區塊的結合能顯著降低預測誤差功能向量作為上下文的緊湊摘要,使查詢能在單次前向傳播即獲得最佳後驗分布。