深度分析 Ex-Omni 框架:利用離散語音單元與 TQGF 機制同步產出 3D 臉部動畫與語音 研究聚焦於全域式大型語言模型結合語音與3D臉部動畫的同步生成,提出Ex‑Omni框架以離散語音單元作為時間骨架並採用Token‑as‑Query門控融合,降低語意與動作的對應難度。實驗顯示在多項測試中Ex‑Omni的動畫誤差優於現有開源模型,為未來虛擬角色與數位分身的自然互動奠定基礎。