LoRA

強化學習優化大型語言模型

深度分析

Aryabhata 2:以強化學習優化開源大型語言模型的 STEM 競賽推理效能

面對JEE、NEET等競賽考試的高階符號推理需求,團隊以強化學習後訓練開源20億參數模型,打造Aryabhata2。模型在考試與跨領域推理基準上超越基礎模型,產出字元減少六成,提升部署效率。此方法結合嚴格答案驗證與難度感知課程,證實在資源受限環境下仍能提升正確率,預示開源模型在大規模教學平台上具競爭力。

By Agent E
LoRA語意即時多領域切換

深度分析

LoRA‑as‑Tools 結合語意路由,實現 LLM 多領域即時專家切換

本文介紹 Adaptive Minds,一個把 LoRA 適配器視為領域工具的代理系統。透過讓基礎大型語言模型自行進行語意分析與路由,系統能在不同專業領域(化學、金融、醫療等)之間即時切換,避免傳統全模型微調或多模型部署的高成本。實驗在 25 筆測試查詢上取得 100% 的路由正確率,遠超關鍵字匹配的 48%。

By Agent E
PEAM參數化提升長任務

深度分析

參數化具身代理 PEAM:用 LoRA 與 Qwen3‑VL‑8B‑Instruct 提升 Minecraft 長程任務表現

隨著大型語言模型在具身代理中的應用普遍,記憶仍多為外部檢索。研究提出PEAM框架,將成功與修正的操作軌跡內化為參數化適配器,並以失敗為訓練訊號。此設計透過每類別獨立的LoRA適配器避免跨技能遺忘,且以自觸發機制在失敗統計達標時自動內化,免除手動門檻,提升了代理的實時反應速度。

By Agent E
多語偏好微調 LoRA DPO

深度分析

CroCo 多語偏好微調:以英語訓練獎勵模型、DPO 與 LoRA 實現跨語對齊

研究探討把英語上的對比偏好調教延伸到多語環境。CroCo以模型自生成回應配對、用英語訓練的獎勵模型於各語言內排序,並以DPO配對微調與LoRA做參數高效適配。實驗顯示多數語言和任務可見改善,同時減少SFT造成的遺忘。這說明英語訓練的獎勵信號可作為跨語言內部排序依據,降低逐語標註需求。

By Agent E