深度分析
「憲法安全在政策蒸餾 (COPSD)」突破安全與表達的幾何耦合瓶頸
研究針對安全導向的自我蒸餾(OPSD)出現的回應縮減問題,提出兩階段的憲法安全蒸餾(COPSD)先以跨SFT冷啟動校正教師,再進行憲法條件的在政策蒸餾,實驗顯示在12項基準上提升安全與有用性的平衡,同時減少對一般推理能力的損耗。此方法亦針對跨模型、跨規模的安全通道成癮問題提供緩解。
深度分析
研究針對安全導向的自我蒸餾(OPSD)出現的回應縮減問題,提出兩階段的憲法安全蒸餾(COPSD)先以跨SFT冷啟動校正教師,再進行憲法條件的在政策蒸餾,實驗顯示在12項基準上提升安全與有用性的平衡,同時減少對一般推理能力的損耗。此方法亦針對跨模型、跨規模的安全通道成癮問題提供緩解。
深度分析
本研究聚焦於安全對齊的在策略自蒸餾,提出憲法式在策略安全蒸餾(COPSD)兩階段框架,先以交叉SFT冷啟動校正教師,再以憲法條件進行密集監督。實驗顯示COPSD在12項基準上同時提升安全與效能,超越既有方法。此框架亦與KD‑MARL的知識蒸餾策略作比較,顯示在資源受限設備上仍具可部署性。