深度分析 Expert Tying 降低 MoE 大型語言模型記憶體需求的實驗與分析 隨著MoE大語言模型在記憶體需求上受限,研究者提出「專家參照」於相鄰層共享FFN權重,同時保留層級路由與注意力。實驗顯示記憶體使用降低近2倍,且困惑度與下游效能幾乎不受影響。在g=4的層組設定下,專家權重共享達到4倍參數壓縮;若將節省的參數再投入擴充中間層的專家數量,亦可在等參數條件下恢復效能。