深度分析
利用世界回饋即時終止 RLHF 工作:EvalStop 設計與實驗成果
隨著雲端大型語言模型微調平台大量使用RLHF,傳統排程忽視評分與真實品質的落差。研究提出EvalStop,利用世界回饋評分連續下降k次即提前終止工作,保留最佳檢查點。此方法對比依賴訓練損失的SLAQ,避免資源被跑分占用,同時兼顧跨租戶公平。
深度分析
隨著雲端大型語言模型微調平台大量使用RLHF,傳統排程忽視評分與真實品質的落差。研究提出EvalStop,利用世界回饋評分連續下降k次即提前終止工作,保留最佳檢查點。此方法對比依賴訓練損失的SLAQ,避免資源被跑分占用,同時兼顧跨租戶公平。
DataCenterGym
資料中心的運算、熱量與能源相互影響,傳統調度忽略熱慣性與冷卻反饋。DataCenterGym提供物理導向模擬,整合排隊、建築熱動力與在地HVAC,並以分層模型預測控制(H‑MPC)協同排程,實驗顯示在多目標下優於基線。並揭示熱耗與能源、效能間的權衡與實務意涵。