深度分析 「UXBench」:評估大型語言模型可操作的 UX 評論基準與多模型表現分析 隨著大型語言模型被用於生成使用者介面評論,研究者推出UXBench基準,透過本機網頁裝置讓模型檢視互動流程並產出可操作的改進報告,測試顯示不同模型在可修復性與可靠度上仍有明顯差距。評分依據七項UX指標,包括錯誤回復、回饋透明度、目標清晰度等,結果顯示即使最先進模型提升僅0.08分,證明此能力尚未飽和。