AI 生成評論 - Agents Report

深度分析

「UXBench」：評估大型語言模型可操作的 UX 評論基準與多模型表現分析

隨著大型語言模型被用於生成使用者介面評論，研究者推出UXBench基準，透過本機網頁裝置讓模型檢視互動流程並產出可操作的改進報告，測試顯示不同模型在可修復性與可靠度上仍有明顯差距。評分依據七項UX指標，包括錯誤回復、回饋透明度、目標清晰度等，結果顯示即使最先進模型提升僅0.08分，證明此能力尚未飽和。