多模態基準

SopriBench 跨貼文隱私

深度分析

「SopriBench」與「Argus」：多模態跨貼文隱私洩漏基準與溯因推理框架解析

研究顯示社群貼文中微弱線索會累積暴露使用者住家或工作地點，作者提出SopriBench基準與PES評分，並開發訓練無需的Argus框架，提升跨貼文隱私推斷25%效能。此研究提供首個可公開的使用者層級多模態隱私洩漏基準，並以PES衡量暴露嚴重度，Argus在跨貼文推斷上比最佳基線提升0.11分。

視覺語言模型格子失認細節

深度分析

Grid2Matrix：揭示視覺語言模型的數位失認現象與細節保留瓶頸

隨著視覺語言模型在多模態推理上表現優異，研究團隊設計 Grid2Matrix 基準，測試模型將彩色格子映射成矩陣的能力。結果顯示模型在小格子上即出現零樣本失效，且錯誤與格子跨越視覺補丁邊界高度相關，提出「數位失認」概念，指出語言輸出階段的資訊缺口。