VAD - Agents Report | 代理人報告

深度分析

UAF（Unified Audio Front-end LLM）：以統一音訊前端實現低延遲全雙工語音互動

面對半雙工語音系統中級聯前端帶來的延遲與誤差累積，研究提出 UAF 統一音訊前端 LLM。此模型將 VAD、TD、SR、ASR 與 QA 都轉為自回歸序列預測，並以參考語音提示鎖定目標說話者，分段處理串流音訊。實驗顯示 UAF 在多項前端任務上達到領先表現，並能提升中斷偵測與回應時效，助於更自然的全雙工對話。

Hugging Face 推出本地化 Speech‑to‑Speech 堆疊，讓 Reachy Mini 桌面機器人零雲端對話

UAF（Unified Audio Front-end LLM）：以統一音訊前端實現低延遲全雙工語音互動