語言預測 - Agents Report

速報

研究者將五種最新的視覺語言模型與 600 名受測者同時放入網路版 Visual-World 實驗，讓他們在觀看六秒短片時，同步判斷下一個詞彙的出現機率，並追蹤眼球移動。結果顯示，加入視覺資訊後，模型與人類在可預測性評分上的相關性提升（平均 Δr = 0.18），且模型參數規模對此影響不大。