機器學習評估 - Agents Report

深度分析

本研究分析57套機器學習評估harness以建立評估工程框架。論文提出五階段工作流程，涵蓋環境佈建、規格整合、執行、評估與報告。作者以近兩萬條GitHub議題分類根因，指出規格階段整合外部模型與資料占最大比例，且未實作功能、文件缺失與輸入驗證不足是主要成因，提示評估基礎設施是可靠度瓶頸。