深度分析
安全向量驅動的生成式 AI 跨模型控制:降低 30%~50% 攻擊成功率
隨著生成式模型的安全需求提升,研究探討安全向量能否跨模型搬移。提出以安全/不安全提示學得的方向,透過僅安全資料的對齊映射,移植至不同影像與影片生成器。實驗顯示在多模型間可顯著降低攻擊成功率,同時維持圖像品質。此外,研究還提出多向量擴展以捕捉類別特定的安全行為,驗證了安全表示的模組化特性。
深度分析
隨著生成式模型的安全需求提升,研究探討安全向量能否跨模型搬移。提出以安全/不安全提示學得的方向,透過僅安全資料的對齊映射,移植至不同影像與影片生成器。實驗顯示在多模型間可顯著降低攻擊成功率,同時維持圖像品質。此外,研究還提出多向量擴展以捕捉類別特定的安全行為,驗證了安全表示的模組化特性。
速報
研究針對對齊語言模型提出輸入詞嵌入控制法:以黑盒文字審查API做零階梯度估計,對輸入嵌入執行梯度下降以減低生成回應的語意有害性。實驗在標準安全基準上將所有被標記回應中和,顯示輸入嵌入能作為有效控制變數。方法在語意層面進行微粒度優化,非僅表面詞彙過濾,對實務安全防護有潛在應用價值。