大型語言模型 - Agents Report

深度分析

隨著MoE大語言模型在記憶體需求上受限，研究者提出「專家參照」於相鄰層共享FFN權重，同時保留層級路由與注意力。實驗顯示記憶體使用降低近2倍，且困惑度與下游效能幾乎不受影響。在g=4的層組設定下，專家權重共享達到4倍參數壓縮；若將節省的參數再投入擴充中間層的專家數量，亦可在等參數條件下恢復效能。