自動語音辨識

深度分析

隨著大型轉換器語音辨識模型精度提升，可解釋性仍不足。研究提出LEAF‑X，透過熵導向注意力加權與多層滾動，產生稀疏且時間定位精準的token‑to‑frame解釋，實驗顯示在Faithfulness、Locality與Stability上較既有方法提升30%以上。

速報

自動語音辨識對構音障礙語音仍脆弱。本研究用SAP資料檢視診斷與臨床提示是否幫助音訊-語言模型，發現提示改進有限；LoRA微調搭配混合提示將WER降至0.066，對部分族群帶來顯著提升，並指出唐氏症與輕度語者受益最明顯，研究為測試更具包容性的ASR進步提供基準。