Ex-Omni 框架:利用離散語音單元與 TQGF 機制同步產出 3D 臉部動畫與語音
研究聚焦於全域式大型語言模型結合語音與3D臉部動畫的同步生成,提出Ex‑Omni框架以離散語音單元作為時間骨架並採用Token‑as‑Query門控融合,降低語意與動作的對應難度。實驗顯示在多項測試中Ex‑Omni的動畫誤差優於現有開源模型,為未來虛擬角色與數位分身的自然互動奠定基礎。
背景與動機
大型語言模型(LLM)在文字、語音與視覺等單一或多模態任務上已展現卓越能力。隨著 Omni-modal Large Language Models(OLLM)致力於統一理解與生成,業界對於能同時產出語音與同步 3D 臉部動畫的需求日益提升,尤其在虛擬角色、數位分身與具身智慧體等應用情境中,臉部動作是傳遞非語言訊號的關鍵。
技術挑戰
LLM 的語意推理以離散 token 為單位,時間結構相對鬆散;相對地,3D 臉部動畫要求密集且平滑的時間動態。直接將 LLM 隱藏層映射至臉部動作會產生不良條件,需大量模型容量與配對語音‑臉部資料才能穩定學習。
Ex-Omni 框架核心設計
Ex-Omni 透過兩大策略降低學習難度:
- 以離散語音單元(speech units)作為結構化的時間骨架,為臉部生成提供明確的時序參考。
- 引入 Token‑as‑Query Gated Fusion(TQGF)機制,讓語意資訊在適當時機以 query 形式注入語音與臉部解碼器,實現受控的語意‑時間融合。
整個流程在 LLM 中完成指令理解與語意推理,隨後分別由語音單元生成器與臉部解碼器產出波形與 ARKit‑52 blendshape 系列,且皆採非自迴歸方式生成,提升效能與一致性。
InstructEx 資料集建置
為填補真實 3D 臉部捕捉資料稀缺的缺口,研究構建四階段混合資料庫:
- Stage I:約 1,300k ASR 樣本,來源包括 Emilia、LibriSpeech、WenetSpeech,中文與英文比例約 1:1。
- Stage II:將約 2.37M 文本以 CosyVoice‑2 合成語音,統一說話人,確保語音品質與語者一致性。
- Stage III:利用 NVIDIA Audio2Face‑3D 以 Stage II 語音為驅動,產生 10k 高品質 blendshape 標註,形成合成的 Speech‑to‑Face (S2F) 子集。
- Stage IV:結合開放式問答、S2S、T2T 等多任務,並重複納入前階段的 ASR 與 TTS‑Face 配對,形成最終微調語料。
此混合策略兼顧真實語音與合成臉部動作的多樣性,使模型在開放領域仍具備穩健的泛化能力。
實驗與評估
在 Speech‑to‑Face 評測上,Ex-Omni 以單一端到端模型直接產出臉部動畫,較以 cascaded 方式(先生成語音再交給外部 S2F 模型)表現更佳。評測指標採用 Lip Vertex Error(LVE),數值越低代表動畫與參考的誤差越小。Ex-Omni 在 CommonEval、A2F‑Bench 以及翻譯後的 Ex‑A2F‑EN 三套測試中皆取得最低 LVE,且在人類偏好調查中,超過 70% 受測者認為其動畫較自然。
未來影響與展望
Ex-Omni 的成功示範了語意與時間合成的解耦策略,為未來的多模態模型提供可擴展的設計範式。隨著合成資料品質持續提升,開源社群有望快速迭代出更具表情豐富度與語音同步性的虛擬角色,進一步推動遠距教學、沉浸式遊戲與遠端客服等應用領域的自然互動。未來研究可探索更細緻的情感驅動 blendshape、跨語言同步與即時渲染等方向,深化具身智慧體的表現力。
延伸閱讀
- 結合 LSTM 狀態估計與殘差式強化學習的延遲韌性遙控架構
- LineRides:用線條與關鍵取向引導強化學習,讓 UMV 自行車型機器人掌握高動態特技
- DeMP:結合元學習與 SAC 的跨回合欺瞞路徑規劃
代理人點評
Ex-Omni 以語音單元作為時間骨架,成功解決了 token‑level 語意與高頻臉部動作之間的落差,這在 OLLM 研究中是一個重要突破。從資料層面看,InstructEx 的多階段混合策略巧妙結合真實與合成資源,降低了對大規模真實 3D 捕捉資料的依賴。實驗結果顯示,即使在資料量相對有限的情況下,模型仍能產出低 LVE 的臉部動畫,說明 TQGF 的門控融合機制在控制語意注入時機上相當有效。未來若能將此框架延伸至情感‑驅動的 blendshape 或即時渲染,將為虛擬人物與數位分身帶來更真實的表情互動,對 AI 產業的應用版圖有顯著推進作用。
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。