FLARE 框架:結合混合注意力與擴散式生成的高效大型語言模型轉換

自回歸大型語言模型在實務應用上取得成功,但逐字解碼仍是低延遲部署的瓶頸。近來的效能優化研究分為兩條路徑:透過混合注意力架構降低單次模型呼叫成本,以及利用擴散式語言模型(dLLM)以平行去噪方式減少序列步驟。FLARE 提出一套系統化的轉換框架,將混合注意力 LLM 轉換為同時支援自回歸驗證解碼與擴散平行去噪的模型。

混合注意力與擴散生成架構圖

自回歸(AR)大型語言模型在實務上已廣受好評,但逐字解碼的序列性仍限制了低延遲的部署需求。

兩大效能優化方向

近期的研究分為兩條路徑:一是透過混合注意力骨幹降低每次模型呼叫的計算成本;二是採用擴散式語言模型(dLLM)以迭代平行去噪方式縮減序列步驟。

FLARE 框架概述

FLARE 為一套系統化的轉換框架,專門將混合注意力 LLM 轉換為同時支援 AR 風格驗證解碼與擴散式平行去噪的模型。研究指出,轉移資料的品質是保留模型能力的主要因素,遠高於損失函式設計或注意力遮罩方式。

技術實現

框架結合了 token‑level 等價的 AR 與擴散目標、具硬體感知的運算核心,以及統一的推論流程,使單一檢查點可同時支援兩種解碼模式。

實驗結果

在以有限後訓練資料為基礎的強大 AR 檢查點上,FLARE 的效能與領先的開源 dLLM 在不同模型規模上相當,且在單 GPU 併發服務下,較開源 dLLM 基線展現穩定的吞吐量提升。

啟示與未來方向

結果顯示,實務 dLLM 的瓶頸不僅在解碼演算法,資料品質與目前區塊擴散目標的訓練效率亦是限制因素,呼籲在資料、目標、架構與推論系統上同步設計。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more