音訊-語言模型挑戰構音障礙語音:ASR提示策略與LoRA微調評測

自動語音辨識對構音障礙語音仍脆弱。本研究用SAP資料檢視診斷與臨床提示是否幫助音訊-語言模型,發現提示改進有限;LoRA微調搭配混合提示將WER降至0.066,對部分族群帶來顯著提升,並指出唐氏症與輕度語者受益最明顯,研究為測試更具包容性的ASR進步提供基準。

音訊語言模型與LoRA優化示意

音訊-語言模型在構音障礙語音的提示與微調評估

自動語音辨識對構音障礙與其他非典型語音仍然脆弱。本研究基於Speech Accessibility Project建立基準,測試診斷標籤、臨床語音評分與更詳盡的臨床描述在推播提示下是否能改善轉寫。

跨九款模型的匹配比較發現,直接將臨床上下文作為提示並未帶來實質改善,甚至常使詞錯率退步。以LoRA進行情境相關微調、並混合多種提示格式,詞錯率降至0.066,相對凍結基線減少約52%,且在無提示情況下仍維持表現。組別分析顯示唐氏症與輕度語者獲得明顯收益。研究同時提供一個可衡量進展的測試床,助力更包容的ASR發展。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more