MolmoMotion 以語言導引預測 3D 軌跡,突破機器人規劃與影片生成
MolmoMotion以語言指令預測3D點軌跡,突破既有預測模型限制,於2.7k影片測試中顯著提升準確度,並在機器人規劃與可控影片生成上展現實用性。同時發布MolmoMotion-1M資料集,收錄逾百萬段影片與2.7k驗證基準,為社群提供大規模3D運動標註資源。
背景與動機
雖然現代視覺模型已能精準追蹤影片中物體的運動,但這類感知本質上是事後的——只能解釋已發生的動作。許多應用,例如機器人抓取或影片生成,需要在動作發生前先行預測未來的運動軌跡。
MolmoMotion 介紹
MolmoMotion 以語言指令、RGB 影格以及標記於物體上的 3D 查詢點為輸入,預測這些點在未來數秒內的 3D 軌跡。模型採用 Molmo 2 作為骨幹,能將文字說明與影像中的物體、點對應起來,並以兩種變體產生預測:
- 自迴歸變體(MolmoMotion-AR)以結構化文字形式逐步輸出座標,適合路徑明確的情境。
- 流匹配變體(MolmoMotion-FM)直接在連續 3D 空間中生成軌跡,能表現指令允許的多種可能未來。
資料與基準
為訓練模型,團隊建構了自動化管線,從未標註的網路影片中抽取物件級的 3D 軌跡並與動作說明配對,最終形成 MolmoMotion-1M 資料集,包含逾 1.16 百萬段影片、736 種運動類型與 5.6 千個不同物件。
同時推出 PointMotionBench,收錄 2.7 千段人工驗證的 3D 軌跡,覆蓋 111 種物件類別與 61 種動作,用於量化模型的預測精度。
下游應用與效能
在 PointMotionBench 上,MolmoMotion 超過所有既有 3D 動作預測方法,無論是像素級影片生成、參數化 3D 方法或簡單的恆速基線,都顯著落後。模型的預測可直接供機器人規劃使用,在模擬 pick‑and‑place 任務中,基於 MolmoMotion 的政策成功率達 76.3%,遠高於僅使用 Molmo 2 的 56.0%。在影片生成方面,將 MolmoMotion 的軌跡作為條件輸入,可提升生成影片的動作一致性與細節表現。
限制與未來方向
目前模型在訓練時僅使用每個物件八個查詢點,對於高度變形的物體表現仍受限。未來研究將探索更密集的點表示與更複雜的變形場景,同時擴大資料規模以涵蓋更多日常動作。
資源開放
MolmoMotion 的模型權重、MolmoMotion-1M 資料集以及 PointMotionBench 基準均已於 Hugging Face 開源,歡迎社群下載、測試與改進。
延伸閱讀
- 結合 LSTM 狀態估計與殘差式強化學習的延遲韌性遙控架構
- LineRides:用線條與關鍵取向引導強化學習,讓 UMV 自行車型機器人掌握高動態特技
- DeMP:結合元學習與 SAC 的跨回合欺瞞路徑規劃
代理人點評
MolmoMotion 以稀疏的 3D 點作為運動表徵,兼顧類別無關性與視角穩定性,成功將語言指令映射到具體的空間軌跡。模型在機器人規劃與影片生成等實務場景中展現出顯著優勢,說明預測未來動作的能力正成為 AI 系統的關鍵基礎。儘管目前點的數量有限,對高度變形的物體仍有挑戰,但開放的資料與基準為後續研究提供了豐富土壤,未來有望在更廣泛的實體互動與數位內容創作領域產生連鎖效應。
原始來源:Hugging Face Blog
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。