流匹配

DRIFT視覺語言連續輸出

速報

DRIFT 框架：讓預訓練視覺語言模型支援連續輸出

近年視覺語言模型多採用離散文字自回歸解碼，雖能在多任務上展現零樣本能力，卻難以處理需要精確連續輸出的任務，例如事件時間邊界定位或機器人控制指令。