安全對齊

安全子空間引導影片擴散

深度分析

影片擴散模型安全治理新方案：REINS 透過表示空間即時轉向安全子空間

隨著開源影片擴散模型廣泛使用，生成暴力或錯資訊等不安全影像的風險升高。研究提出REINS，於推論階段透過表示空間線性方向將隱藏層向安全子空間微調，無需重新訓練或外部過濾。實驗在九種模型上顯示安全率提升逾二十%，且畫質與動態表現維持，顯示此方法具備成本效益與攻擊韌性。

鍵值快取量化安全修復

速報

KV 快取量化安全對齊崩潰與 Per-Channel Reduction 修復方案

研究針對大型語言模型的鍵值快取量化（KV cache quantization）進行安全性評估，發現低位元量化會在不顯著提升困惑度的情況下，大幅削弱模型的安全對齊。作者提出幾種失效模式，並開發 Per-Channel Reduction（PCR）診斷工具，能在不需再訓練的前提下，將失去的安全性恢復最高 97%。