速報 DRIFT 框架:讓預訓練視覺語言模型支援連續輸出 近年視覺語言模型多採用離散文字自回歸解碼,雖能在多任務上展現零樣本能力,卻難以處理需要精確連續輸出的任務,例如事件時間邊界定位或機器人控制指令。