深度分析
IRTS-ToolBench:首套工具化不規則時間序列問答基準,驗證 LLM 與 AI 代理推理能力
現實系統的時間序列普遍不規則,IRTS-ToolBench以語意導向的正則轉不規則管線與30種工具庫,收錄1,700題跨13領域10種任務,填補了現有基準只支援規則序列的缺口。測試顯示,啟用工具呼叫可將模型在異常偵測等關鍵任務的正確率提升逾5%,並顯示AI代理在處理不規則時間序列時的潛在優勢。
深度分析
現實系統的時間序列普遍不規則,IRTS-ToolBench以語意導向的正則轉不規則管線與30種工具庫,收錄1,700題跨13領域10種任務,填補了現有基準只支援規則序列的缺口。測試顯示,啟用工具呼叫可將模型在異常偵測等關鍵任務的正確率提升逾5%,並顯示AI代理在處理不規則時間序列時的潛在優勢。
深度分析
隨著大型語言模型快速發展,評估結果的可比性變得更具挑戰。NVIDIA 以 Nemotron 3 Nano 30B A3B 推出完整開放評估食譜,使用 NeMo Evaluator 統一基準、提示與執行設定,支援多種推理端點。實驗顯示模型在多項任務上取得具體分數,且提供結構化日誌供深入分析,提升評估透明度與可重現性。