深度分析
LEAF‑X:以熵導向注意力提升 Transformer 語音辨識的可解釋性與時間定位精準度
隨著大型轉換器語音辨識模型精度提升,可解釋性仍不足。研究提出LEAF‑X,透過熵導向注意力加權與多層滾動,產生稀疏且時間定位精準的token‑to‑frame解釋,實驗顯示在Faithfulness、Locality與Stability上較既有方法提升30%以上。
深度分析
隨著大型轉換器語音辨識模型精度提升,可解釋性仍不足。研究提出LEAF‑X,透過熵導向注意力加權與多層滾動,產生稀疏且時間定位精準的token‑to‑frame解釋,實驗顯示在Faithfulness、Locality與Stability上較既有方法提升30%以上。
速報
自動語音辨識對構音障礙語音仍脆弱。本研究用SAP資料檢視診斷與臨床提示是否幫助音訊-語言模型,發現提示改進有限;LoRA微調搭配混合提示將WER降至0.066,對部分族群帶來顯著提升,並指出唐氏症與輕度語者受益最明顯,研究為測試更具包容性的ASR進步提供基準。