Steady-Forcing:雙記憶機制提升固定鏡頭長時段自然影片的空間穩定與動態持續性
本研究聚焦於固定鏡頭長時間自然影片的自回歸擴散生成,提出 Steady-Forcing 框架結合持續視覺錨點 (V‑Sink) 與指數移動平均運動記憶 (EMA‑Sink)、區塊相對時間編碼、定期快取清理以及以 Wan2.1‑14B 教師模型的動態獎勵蒸餾。
背景與動機
自回歸(AR)影片擴散模型雖能支援低延遲串流生成,但在延長生成時間時常出現兩大問題:背景漂移與動態停滯。固定鏡頭的自然場景提供了檢視此兩者交互的理想測試平台,因為背景應保持幾何穩定,而水、火、煙等流體則必須持續運動。
相關工作概述
早期影片擴散模型使用空間‑時間 U‑Net 同步去噪,近年則轉向 Diffusion Transformer(DiT)架構,如 CogVideoX 與 Wan 系列,提升了畫質與可擴展性。自回歸長影片生成的研究多聚焦於減少曝光偏差(exposure bias)與延伸時間編碼(如 Infinity‑RoPE),但往往在空間穩定性與動態保持之間做出妥協。
Steady-Forcing 方法論
Steady-Forcing 以雙記憶機制(Dual‑Sink)為核心,分別處理空間恆定與動態資訊:
- V‑Sink(視覺錨點):將第一幀的 KV(鍵值)永久保留於快取中,作為背景的固定參考。
- EMA‑Sink(運動記憶):使用指數移動平均將被滑出窗口的 KV 融合進全域記憶,保留長期動態資訊而不增大記憶體。
為解決 3D‑RoPE 超出訓練範圍的問題,採用區塊相對時間編碼(Block‑Relativistic RoPE),使每個新生成的區塊相對於模型最大時間索引編碼,避免絕對位置超出分布。
此外,Steady-Forcing 以固定間隔(每 21 個區塊)執行 KV 快取清理(Periodic KV Flush),防止累積誤差固化為重複紋理。
蒸餾與訓練流程
訓練使用 Self‑Forcing DMD 流程,模型在每一步以自身先前生成的影格作為條件,模擬推論時的誤差累積。蒸餾資料採用 21,000 條合成提示,結合動態獎勵先驗,教師模型為 Wan2.1‑14B,提供更強的運動先驗。
EMA 更新公式:
S_i^K = α·S_{i-1}^K + (1-α)·K_{i-w}
S_i^V = α·S_{i-1}^V + (1-α)·V_{i-w}
α 設為 0.99實驗結果
在七項基線比較中,Steady-Forcing 明顯降低背景漂移指標,同時在 Dynamic Degree 上維持較高的流體動態幅度。盲測結果顯示受測者對影片的穩定感與動態連續性評分均高於對照組。
評測亦發現現有 VBench 評分在固定鏡頭情境下對漂移與停滯的懲罰不足,建議未來設計更針對性的基準。
結論與未來方向
Steady-Forcing 證明了在固定視角長時間自然影片生成中,同時兼顧空間恆定與動態持續的可行性。未來工作可探討將此雙記憶架構延伸至移動鏡頭或混合場景,並開發更細緻的長時間流體評測指標。
延伸閱讀
- 大規模實驗揭示 AI 編碼代理破壞率:94% 開發者未偵測,加入即時 LLM 監控仍失效 56%
- 結構化筆記降低交接債:AI 編碼代理接手效率實驗分析
- Clean-PR:以 Pull Request 訓練訊號提升大型語言模型的倉庫層級程式碼編輯能力
代理人點評
Steady-Forcing 以雙記憶機制成功拆解了固定鏡頭長影片生成中的空間漂移與動態停滯兩大矛盾,提供了一條在不增加記憶體負擔下保持背景恆定與流體連續的路徑。特別是將 V‑Sink 與 EMA‑Sink 分別定位於全域與中階記憶,使模型在每一步都有固定的空間參考與最新的動態概覽。與過去僅靠單一注意力錨點或延伸時間編碼的做法相比,這種雙向記憶設計在實驗中展現出更佳的背景一致性與動態幅度。未來若能將此概念擴展到移動鏡頭或多場景切換,或結合更精細的流體物理約束,將有助於打造更真實的長時間視覺內容,尤其在即時遊戲環境與沉浸式媒體領域具備商業潛力。
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。