安全控制

安全向量跨模型傳遞示意

深度分析

安全向量驅動的生成式 AI 跨模型控制：降低 30%~50% 攻擊成功率

隨著生成式模型的安全需求提升，研究探討安全向量能否跨模型搬移。提出以安全/不安全提示學得的方向，透過僅安全資料的對齊映射，移植至不同影像與影片生成器。實驗顯示在多模型間可顯著降低攻擊成功率，同時維持圖像品質。此外，研究還提出多向量擴展以捕捉類別特定的安全行為，驗證了安全表示的模組化特性。

輸入詞嵌入控制對齊模型安全

速報

用輸入詞嵌入操控對齊模型：以零階梯度估計降低回應有害性

研究針對對齊語言模型提出輸入詞嵌入控制法：以黑盒文字審查API做零階梯度估計，對輸入嵌入執行梯度下降以減低生成回應的語意有害性。實驗在標準安全基準上將所有被標記回應中和，顯示輸入嵌入能作為有效控制變數。方法在語意層面進行微粒度優化，非僅表面詞彙過濾，對實務安全防護有潛在應用價值。