資料策展 - Agents Report

深度分析

CuraWeb：多重訊號驅動的資料篩選框架，兼顧品質與多樣性

大型語言模型（LLM）的預訓練資料品質至關重要，但現有篩選流程（如 FineWeb-Edu、DCLM）過度專注單一品質指標，導致資料分布狹窄、長尾知識流失。為解決此問題，研究團隊提出 CuraWeb 框架，將傳統線性篩選轉為品質、冗餘度與多樣性的聯合最佳化。

深度分析

NeurIPS 2025 挑戰賽揭示多模態推理關鍵：難度篩選優於資料量

NeurIPS 2025 資料策展挑戰賽（DCVLR）旨在探討在多模態推理任務中，資料集的選擇與過濾如何影響模型表現。研究團隊以 Qwen2.5-VL-7B-Instruct 為基礎模型，在固定訓練協議下，僅使用 1,000 筆精心挑選的範例便奪得冠軍。

速報

Curation-Bench：自動化資料策展的通用編碼代理人測試平台

資料策展是現代人工智慧開發中最關鍵卻最耗時的環節。研究團隊提出 Curation-Bench，透過固定模型、訓練流程與評估套件，讓編碼代理人可在指令列環境中檢視、實作與修正資料政策，並重複提交至訓練管線。實驗顯示，未經特別調校的代理人在十輪內即可達到既有資料選取基線的表現，但仍傾向微調既有政策而非探索新方法。

深度分析

FineVision：為開源視覺－語言模型構建可複製的資料策展流程

FineVision 是一個公開釋出的視覺－語言訓練語料庫，作者以半自動化、人工在環的資料策展流程，統整來自超過200個公開來源、整理為185個子集，形成超過2400萬筆樣本的語料。資料處理涵蓋格式統一、去重、污染檢測與跨基準測試集去汙等機制，同時將多樣任務（包含 GUI/agentic 操作）納入統一行為空間。

深度分析

從動態系統看大型語言模型：資料策展、依賴門檻與泛化衰退

研究指出大型語言模型改變知識生產；本文用人類—模型反饋迴路建立簡化動態模型，聚焦人類認知、資料品質與模型能力三變數，並以信息論說明過度依賴AI會導致資料多樣性下降與次優穩定。研究還預測存在臨界依賴門檻，超過後系統可能進入低多樣性悖論性平衡，建議以資料策展與人機協作設計作為緩解。