LLM 基準

不規則時間序列工具化介面

深度分析

IRTS-ToolBench：首套工具化不規則時間序列問答基準，驗證 LLM 與 AI 代理推理能力

現實系統的時間序列普遍不規則，IRTS-ToolBench以語意導向的正則轉不規則管線與30種工具庫，收錄1,700題跨13領域10種任務，填補了現有基準只支援規則序列的缺口。測試顯示，啟用工具呼叫可將模型在異常偵測等關鍵任務的正確率提升逾5%，並顯示AI代理在處理不規則時間序列時的潛在優勢。

NVIDIA Nemotron 3 Nano 30B 開放評估全攻略：NeMo Evaluator 使用指南與結果分析

深度分析

NVIDIA Nemotron 3 Nano 30B 開放評估全攻略：NeMo Evaluator 使用指南與結果分析

隨著大型語言模型快速發展，評估結果的可比性變得更具挑戰。NVIDIA 以 Nemotron 3 Nano 30B A3B 推出完整開放評估食譜，使用 NeMo Evaluator 統一基準、提示與執行設定，支援多種推理端點。實驗顯示模型在多項任務上取得具體分數，且提供結構化日誌供深入分析，提升評估透明度與可重現性。