深度分析
影片擴散模型安全治理新方案:REINS 透過表示空間即時轉向安全子空間
隨著開源影片擴散模型廣泛使用,生成暴力或錯資訊等不安全影像的風險升高。研究提出REINS,於推論階段透過表示空間線性方向將隱藏層向安全子空間微調,無需重新訓練或外部過濾。實驗在九種模型上顯示安全率提升逾二十%,且畫質與動態表現維持,顯示此方法具備成本效益與攻擊韌性。
深度分析
隨著開源影片擴散模型廣泛使用,生成暴力或錯資訊等不安全影像的風險升高。研究提出REINS,於推論階段透過表示空間線性方向將隱藏層向安全子空間微調,無需重新訓練或外部過濾。實驗在九種模型上顯示安全率提升逾二十%,且畫質與動態表現維持,顯示此方法具備成本效益與攻擊韌性。
速報
研究針對大型語言模型的鍵值快取量化(KV cache quantization)進行安全性評估,發現低位元量化會在不顯著提升困惑度的情況下,大幅削弱模型的安全對齊。作者提出幾種失效模式,並開發 Per-Channel Reduction(PCR)診斷工具,能在不需再訓練的前提下,將失去的安全性恢復最高 97%。