速報 視覺語言模型在語言預測上與人類行為的對齊度提升 研究者將五種最新的視覺語言模型與 600 名受測者同時放入網路版 Visual-World 實驗,讓他們在觀看六秒短片時,同步判斷下一個詞彙的出現機率,並追蹤眼球移動。結果顯示,加入視覺資訊後,模型與人類在可預測性評分上的相關性提升(平均 Δr = 0.18),且模型參數規模對此影響不大。