大型語言模型評審 - Agents Report

速報

POLARIS：以大型語言模型評審與人類參考注入提升開源寫作模型長度表現

研究指出，開源小型模型在長篇創意寫作上常因篇幅不足或品質下降而不敵前沿模型。團隊提出 POLARIS 訓練配方，結合以大型語言模型作為評審的結構化故事品質評分與人類參考注入（將教師強制的人寫故事作為高獎勵錨點）。在 Qwen3.5-9B 上使用約 1.4 千組短篇小說資料，於四顆 A100 GPU 訓練後得到 POLARIS-9B。