Speech-to-Face - Agents Report

深度分析

研究聚焦於全域式大型語言模型結合語音與3D臉部動畫的同步生成，提出Ex‑Omni框架以離散語音單元作為時間骨架並採用Token‑as‑Query門控融合，降低語意與動作的對應難度。實驗顯示在多項測試中Ex‑Omni的動畫誤差優於現有開源模型，為未來虛擬角色與數位分身的自然互動奠定基礎。