POLARIS:以大型語言模型評審與人類參考注入提升開源寫作模型長度表現
研究指出,開源小型模型在長篇創意寫作上常因篇幅不足或品質下降而不敵前沿模型。團隊提出 POLARIS 訓練配方,結合以大型語言模型作為評審的結構化故事品質評分與人類參考注入(將教師強制的人寫故事作為高獎勵錨點)。在 Qwen3.5-9B 上使用約 1.4 千組短篇小說資料,於四顆 A100 GPU 訓練後得到 POLARIS-9B。
開源小型模型在長篇創意寫作上常出現篇幅不足或品質急速下降的問題,與最先進的商業模型相比差距明顯。為了解決這一瓶頸,研究團隊提出 POLARIS(Policy Optimization with LLM-as-a-judge rewards and Anchored-Reference Injection for Storywriting),採用兩大關鍵技術:一是以大型語言模型作為評審,利用結構化的故事品質評分表作為即時獎勵;二是人類參考注入(Human-Reference Injection,簡稱 HRI),在每個 GRPO 組別中加入教師強制的人寫故事,作為高獎勵錨點。
訓練流程與資源
研究以 Qwen3.5-9B 為基礎模型,使用約 1.4 千組來自 100 本短篇小說選集的提示‑故事對作為資料集,並在四顆 A100 GPU 上執行訓練,最終得到 POLARIS-9B。
效能評估
在五個涵蓋內部與外部提示、不同評分標準的基準測試中,POLARIS-9B 能更精確遵守篇幅指示,且在品質上與遠大於自身參數規模的模型相當。盲測結果顯示,受測者更偏好 POLARIS-9B 而非原始 Qwen3.5-9B,與 Qwen3.5-27B 的表現相當。
值得注意的是,儘管訓練資料僅包含最多 4k 詞的故事,POLARIS-9B 在面對要求三倍長度(約 12k 詞)的提示時,仍能維持品質與篇幅遵從,遠超其他開源模型在相同條件下的表現。
意義與未來方向
此結果顯示,篇幅泛化是一項重要的壓力測試,可用來區分在其他指標上相近的創意寫作模型。未來可進一步探索更大規模的參考注入與多樣化的品質評分,以提升開源模型在長篇創作上的競爭力。
延伸閱讀
- 以受限 WebAssembly 與純度憑證建立可驗證的認知工作流程治理
- 以符號猜想與 LLM 支援的 SCALAR 框架:低深度 QAOA 參數可預測性研究
- SCALAR:在理論物理中以 Actor–Critic–Judge 多回合互動提升 LLM 解題能力
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。