金融 AI 安全 - Agents Report

深度分析

「FENCE」金融多模態越獄偵測資料集首次發布：提升視覺語言模型安全性

隨著視覺語言模型在金融領域的應用增加，越獄攻擊風險亦隨之擴大。研究推出雙語多模態資料集 FENCE，聚焦影像嵌入的威脅，並以金融場景驗證模型弱點。測試顯示即使是 GPT‑4o 等高安全模型亦有數百分比的攻擊成功率，凸顯防護需求。此外，FENCE 在模型測試中保持高準確率，證明其可作為金融 AI 安全的評估工具。