多模態評測 - Agents Report

深度分析

研究指出，BloomBench以布魯姆認知層級設計英阿雙語影像問答測試，涵蓋記憶、理解、應用、分析、評估與創造六大層次，揭露現有視覺語言模型在事實回憶與創造力上仍有明顯短板，同時顯示阿拉伯語表現落後於英語，突顯跨語言多模態推理的挑戰，為未來模型在認知深度與語言公平性上的改進提供方向。