訂閱
糾錯(cuò)
加入自媒體

NeurIPS 2025 | 硬剛可靈1.5!阿里通義&清華等開(kāi)源Wan-Move:指哪動(dòng)哪的“神筆馬良”

作者:Ruihang Chu等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

Wan-Move,一個(gè)用于圖像到視頻生成中運(yùn)動(dòng)控制的框架。與需要運(yùn)動(dòng)編碼的現(xiàn)有方法不同,它通過(guò)編輯條件特征注入運(yùn)動(dòng)引導(dǎo),無(wú)需添加新模塊,從而易于大規(guī)模微調(diào)基礎(chǔ)模型。

引入了MoveBench,一個(gè)全面且精心策劃的基準(zhǔn)來(lái)評(píng)估運(yùn)動(dòng)控制。一個(gè)混合了人工和SAM的標(biāo)注流程確保了標(biāo)注質(zhì)量。

在MoveBench和公共數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,Wan-Move支持多樣化的運(yùn)動(dòng)控制任務(wù),并通過(guò)大規(guī)模訓(xùn)練提供商業(yè)級(jí)結(jié)果。

總結(jié)速覽

解決的問(wèn)題

現(xiàn)有視頻生成模型在運(yùn)動(dòng)控制方面存在控制粒度粗糙、可擴(kuò)展性有限的問(wèn)題,導(dǎo)致生成效果難以滿(mǎn)足實(shí)際應(yīng)用需求。

提出的方案

提出了Wan-Move框架,通過(guò)直接編輯原始條件特征來(lái)注入細(xì)粒度運(yùn)動(dòng)控制。其核心是:1)用密集點(diǎn)軌跡表示物體運(yùn)動(dòng);2)將軌跡投影至隱空間并沿軌跡傳播首幀特征,生成對(duì)齊的時(shí)空運(yùn)動(dòng)特征圖;3)將該特征圖作為運(yùn)動(dòng)條件,無(wú)縫集成至現(xiàn)有圖像到視頻基礎(chǔ)模型(如Wan-I2V-14B)。

應(yīng)用的技術(shù)

基于密集點(diǎn)軌跡的細(xì)粒度運(yùn)動(dòng)表示

隱空間特征投影與傳播技術(shù)

無(wú)需修改架構(gòu)的即插即用式運(yùn)動(dòng)條件注入方法

用于基準(zhǔn)評(píng)估的混合標(biāo)注流程(人工+SAM)

達(dá)到的效果

實(shí)現(xiàn)精確、高質(zhì)量的運(yùn)動(dòng)控制,支持多樣化控制任務(wù)

生成5秒480p視頻,運(yùn)動(dòng)控制質(zhì)量媲美商業(yè)級(jí)產(chǎn)品(如Kling 1.5 Pro Motion Brush)

無(wú)需額外運(yùn)動(dòng)編碼器,大幅提升框架可擴(kuò)展性,支持大規(guī)模基礎(chǔ)模型微調(diào)

構(gòu)建MoveBench評(píng)估基準(zhǔn),提供高質(zhì)量、長(zhǎng)時(shí)長(zhǎng)、大數(shù)據(jù)的運(yùn)動(dòng)標(biāo)注測(cè)試集

架構(gòu)方法

視頻擴(kuò)散模型在正向過(guò)程中向干凈數(shù)據(jù)添加高斯噪聲,并學(xué)習(xí)反向過(guò)程以去噪和生成視頻。為了降低計(jì)算成本,去噪網(wǎng)絡(luò)通常在從預(yù)訓(xùn)練VAE獲得的潛在視頻表示上操作。給定輸入視頻,編碼器壓縮時(shí)間和空間維度,壓縮比分別為(時(shí)間)和(空間),同時(shí)將通道維度擴(kuò)展到,得到。解碼器然后從潛在表示重建視頻。

本文工作專(zhuān)注于運(yùn)動(dòng)可控的圖像到視頻(I2V)生成,其中模型需要根據(jù)輸入的第一幀圖像和運(yùn)動(dòng)軌跡生成運(yùn)動(dòng)連貫的視頻。雖然第一幀將通過(guò)VAE編碼成條件特征,但運(yùn)動(dòng)軌跡(可以以不同格式表示)仍保留在像素空間中。因此,關(guān)鍵挑戰(zhàn)在于如何有效地將運(yùn)動(dòng)軌跡編碼成條件特征并將其注入生成模型。為了避免與額外運(yùn)動(dòng)編碼器和融合模塊相關(guān)的信號(hào)退化和訓(xùn)練困難,本文旨在開(kāi)發(fā)一個(gè)無(wú)需架構(gòu)修改即可利用現(xiàn)有I2V模型的運(yùn)動(dòng)控制框架。

潛在軌跡引導(dǎo)

為了實(shí)現(xiàn)以第一幀為條件的視頻生成,流行的I2V模型采用的一種有效方法是將潛在噪聲和第一幀條件特征沿通道維度拼接起來(lái)。

通過(guò)使用預(yù)訓(xùn)練VAE編碼器編碼第一幀以及零填充的后續(xù)幀獲得:

對(duì)于運(yùn)動(dòng)引導(dǎo)表示,本文遵循先前研究,采用點(diǎn)軌跡,因?yàn)樗鼈兲峁┘?xì)粒度控制并捕獲局部和全局運(yùn)動(dòng)。形式上,長(zhǎng)度為的點(diǎn)軌跡可以表示為,其中指定了像素空間中第幀的軌跡位置。現(xiàn)有方法通常采用輔助模塊來(lái)編碼軌跡并將其集成到骨干網(wǎng)絡(luò)中。然而,這種方法可能會(huì)在運(yùn)動(dòng)編碼過(guò)程中降低運(yùn)動(dòng)信號(hào)。此外,訓(xùn)練額外的模塊增加了大規(guī)模微調(diào)基礎(chǔ)模型的復(fù)雜性。這引出了一個(gè)關(guān)鍵問(wèn)題:能否在沒(méi)有輔助模塊的情況下注入像素空間運(yùn)動(dòng)引導(dǎo)?

直觀(guān)地說(shuō),I2V生成旨在動(dòng)畫(huà)化第一幀,而運(yùn)動(dòng)軌跡指定了每個(gè)后續(xù)幀中物體的位置。鑒于VAE模型的平移等變性,相應(yīng)軌跡位置的隱空間特征應(yīng)與第一幀中的特征非常相似。受此啟發(fā),本文提出通過(guò)空間映射直接將軌跡編碼到隱空間,從而消除對(duì)額外運(yùn)動(dòng)編碼器的需求,如如下公式所示:

第一幀的潛在軌跡位置通過(guò)空間映射獲得,而后續(xù)幀的潛在軌跡位置則在每個(gè)連續(xù)的幀上取平均。這確定性地將像素空間軌跡轉(zhuǎn)換為隱空間。為了注入獲得的潛在軌跡,本文提取第一幀在初始軌跡點(diǎn)處的隱空間特征,并根據(jù)將其復(fù)制到后續(xù)幀中,利用隱空間特征的平移等變性,如下圖2(a)所示。

其中,表示時(shí)間索引、高度和寬度處的特征向量。此操作通過(guò)更新有效地將運(yùn)動(dòng)引導(dǎo)注入條件特征,消除了對(duì)顯式運(yùn)動(dòng)條件特征和注入模塊的需求。Wan-Move生成框架的概述如下圖2(b)所示。當(dāng)多個(gè)可見(jiàn)點(diǎn)軌跡在給定的時(shí)空位置重合時(shí),本文隨機(jī)選擇一個(gè)軌跡對(duì)應(yīng)的第一幀特征。

訓(xùn)練和推理

訓(xùn)練數(shù)據(jù)  本文整理了一個(gè)高質(zhì)量的訓(xùn)練數(shù)據(jù)集,該數(shù)據(jù)集經(jīng)過(guò)嚴(yán)格的兩階段過(guò)濾,以確保視覺(jué)質(zhì)量和運(yùn)動(dòng)一致性。首先,手動(dòng)標(biāo)注了1,000個(gè)樣本的視覺(jué)質(zhì)量,并使用它們訓(xùn)練了一個(gè)專(zhuān)家評(píng)分模型進(jìn)行初步質(zhì)量評(píng)估。為了進(jìn)一步提高時(shí)間連貫性,本文引入了運(yùn)動(dòng)質(zhì)量過(guò)濾階段。具體來(lái)說(shuō),對(duì)于每個(gè)視頻,本文從第一幀中提取SigLIP特征,并計(jì)算剩余幀的平均SigLIP特征。這些特征之間的余弦相似度作為本文的穩(wěn)定性度量。根據(jù)對(duì)10,000個(gè)樣本的經(jīng)驗(yàn)分析,本文建立了一個(gè)閾值,只保留內(nèi)容與初始幀保持一致的視頻。這個(gè)兩階段流程最終產(chǎn)生了200萬(wàn)個(gè)高質(zhì)量的720p視頻數(shù)據(jù)集,具有強(qiáng)大的視覺(jué)質(zhì)量和運(yùn)動(dòng)連貫性。

模型訓(xùn)練 基于訓(xùn)練數(shù)據(jù)集,本文使用CoTracker來(lái)跟蹤密集32x32點(diǎn)網(wǎng)格的軌跡。對(duì)于每個(gè)訓(xùn)練迭代,本文從混合分布中采樣個(gè)軌跡:以5%的概率不使用軌跡();以95%的概率,從1到200中均勻采樣。值得注意的是,本文保留了5%的概率來(lái)放棄運(yùn)動(dòng)條件,這有效地保留了模型原始的圖像到視頻生成能力。對(duì)于選定的軌跡,本文提取第一幀特征并將其復(fù)制到后續(xù)的零填充幀中,如上文公式(3)所述。由于CoTracker區(qū)分可見(jiàn)和被遮擋的點(diǎn)軌跡,本文只沿著可見(jiàn)軌跡進(jìn)行特征復(fù)制。在訓(xùn)練期間,模型參數(shù)從I2V模型初始化,并進(jìn)行微調(diào)以預(yù)測(cè)向量場(chǎng),該向量場(chǎng)將樣本從噪聲分布傳輸?shù)綌?shù)據(jù)分布:

其中,表示生成條件的聯(lián)合。

Wan-Move的推理 推理過(guò)程與原始I2V模型非常相似,只是增加了一個(gè)隱空間特征復(fù)制操作。具體來(lái)說(shuō),Wan-Move的生成過(guò)程依賴(lài)于三個(gè)輸入條件:(1)文本提示,(2)作為第一幀的輸入圖像,以及(3)用于運(yùn)動(dòng)控制的稀疏或密集點(diǎn)軌跡。預(yù)訓(xùn)練的umT5和CLIP模型分別用于編碼文本提示和第一幀的全局上下文。生成的圖像嵌入和文本嵌入隨后通過(guò)解耦的交叉注意力注入到DiT骨干網(wǎng)絡(luò)中。此外,VAE用于提取第一幀條件特征,該特征將通過(guò)隱空間特征復(fù)制注入。應(yīng)用無(wú)分類(lèi)器引導(dǎo)以增強(qiáng)與條件信息的對(duì)齊。形式上,設(shè)無(wú)條件向量場(chǎng),以及條件向量場(chǎng)。引導(dǎo)向量場(chǎng)是條件和無(wú)條件輸出的加權(quán)組合,其中引導(dǎo)尺度為:

MoveBench

為了對(duì)運(yùn)動(dòng)控制方法進(jìn)行嚴(yán)格、全面的評(píng)估,本文引入了一個(gè)名為MoveBench的自由許可基準(zhǔn)。與現(xiàn)有基準(zhǔn)相比,MoveBench提供了更多數(shù)據(jù)、更大的多樣性和可靠的運(yùn)動(dòng)標(biāo)注(如上圖5所示)。具體而言,本文設(shè)計(jì)了一個(gè)篩選流程,將視頻庫(kù)分為54個(gè)內(nèi)容類(lèi)別,每個(gè)類(lèi)別10-25個(gè)視頻,產(chǎn)生了1000多個(gè)案例,以確保廣泛的場(chǎng)景覆蓋。所有視頻片段均保持5秒的時(shí)長(zhǎng),以方便評(píng)估長(zhǎng)距離動(dòng)態(tài)。每個(gè)片段都配有針對(duì)單個(gè)或多個(gè)物體的詳細(xì)運(yùn)動(dòng)標(biāo)注。它們包括精確的點(diǎn)軌跡和稀疏的分割掩碼,以適應(yīng)各種運(yùn)動(dòng)控制模型。通過(guò)開(kāi)發(fā)一個(gè)交互式標(biāo)注流程,結(jié)合人工標(biāo)注和SAM預(yù)測(cè),本文確保了標(biāo)注質(zhì)量,兼顧了標(biāo)注精度和自動(dòng)化可擴(kuò)展性。

實(shí)驗(yàn)

實(shí)驗(yàn)部分對(duì)Wan-Move在視頻生成中的運(yùn)動(dòng)控制能力進(jìn)行了全面評(píng)估,并與多種現(xiàn)有方法進(jìn)行了比較。

實(shí)驗(yàn)設(shè)置:Wan-Move基于最先進(jìn)的圖像到視頻生成模型Wan-I2V-14B實(shí)現(xiàn),并在一個(gè)包含200萬(wàn)個(gè)高質(zhì)量視頻的數(shù)據(jù)集上進(jìn)行微調(diào)。評(píng)估指標(biāo)包括FID、FVD、PSNR、SSIM用于衡量視頻質(zhì)量,以及EPE用于評(píng)估運(yùn)動(dòng)精度。所有評(píng)估均在480p分辨率下進(jìn)行。

主要結(jié)果單物體運(yùn)動(dòng)控制:如下表1所示,Wan-Move在MoveBench和DAVIS數(shù)據(jù)集上均顯著優(yōu)于ImageConductor、LeviTor、Tora和MagicMotion等方法,在視頻質(zhì)量(最高PSNR和SSIM)和運(yùn)動(dòng)控制精度(最低EPE)方面表現(xiàn)最佳。

多物體運(yùn)動(dòng)控制:在MoveBench中包含192個(gè)多物體運(yùn)動(dòng)場(chǎng)景的挑戰(zhàn)性設(shè)置下,如下表2所示,Wan-Move相比ImageConductor和Tora實(shí)現(xiàn)了更低的FVD和EPE,表明其在復(fù)雜場(chǎng)景下對(duì)運(yùn)動(dòng)約束的精確遵守能力。

人類(lèi)研究:如下表3所示,在與SOTA方法(Tora、MagicMotion、LeviTor、Kling 1.5 Pro)進(jìn)行的雙向強(qiáng)制選擇(2AFC)人類(lèi)評(píng)估中,Wan-Move在運(yùn)動(dòng)準(zhǔn)確性、運(yùn)動(dòng)質(zhì)量和視覺(jué)質(zhì)量方面均表現(xiàn)出卓越的勝率,尤其是與商業(yè)模型Kling 1.5 Pro相比,Wan-Move在運(yùn)動(dòng)質(zhì)量方面具有競(jìng)爭(zhēng)性?xún)?yōu)勢(shì)。

消融研究

軌跡引導(dǎo)策略:如下表4和下圖8所示,本文比較了像素復(fù)制、隨機(jī)軌跡嵌入和隱空間特征復(fù)制三種策略。結(jié)果表明,本文提出的隱空間特征復(fù)制方法在視頻質(zhì)量和運(yùn)動(dòng)控制精度方面均優(yōu)于其他方法,這歸因于其能夠捕獲豐富的局部上下文信息。

條件融合策略:如下表5所示,本文比較了ControlNet和本文的直接拼接方法。結(jié)果顯示,簡(jiǎn)單的拼接方法在性能上與ControlNet相當(dāng),但顯著降低了推理延遲,僅增加了3秒,而ControlNet增加了225秒,突顯了本文方法的高效性。

訓(xùn)練期間點(diǎn)軌跡數(shù)量:如下表6所示,本文研究了訓(xùn)練期間最大點(diǎn)軌跡數(shù)量對(duì)性能的影響。N=200時(shí)達(dá)到最佳性能,過(guò)多的軌跡反而可能導(dǎo)致EPE上升,這可能是訓(xùn)練和評(píng)估時(shí)軌跡密度不匹配造成的。

推理期間點(diǎn)軌跡數(shù)量:如下表7所示,推理時(shí)增加點(diǎn)軌跡數(shù)量會(huì)顯著降低EPE,提高運(yùn)動(dòng)引導(dǎo)和時(shí)間連貫性。即使模型在最多200個(gè)軌跡下訓(xùn)練,也能在多達(dá)1024個(gè)軌跡下表現(xiàn)出強(qiáng)大的泛化能力。此外,無(wú)點(diǎn)軌跡的I2V推理(如下圖9所示)的PSNR和SSIM與運(yùn)動(dòng)控制生成相當(dāng),表明模型保留了固有的I2V質(zhì)量。

骨干網(wǎng)絡(luò)和數(shù)據(jù)規(guī)模:如下表8所示,在相同骨干網(wǎng)絡(luò)和數(shù)據(jù)規(guī)模下,Wan-Move即使與MagicMotion和Tora等方法相比,仍能取得更好的結(jié)果,這驗(yàn)證了本文方法的優(yōu)越性。

大運(yùn)動(dòng)和分布外運(yùn)動(dòng)場(chǎng)景:如下表9所示,在包含高幅度運(yùn)動(dòng)和不常見(jiàn)運(yùn)動(dòng)的子集上,Wan-Move持續(xù)優(yōu)于基線(xiàn)模型,性能差距進(jìn)一步擴(kuò)大,展示了其強(qiáng)大的泛化能力和魯棒性。

運(yùn)動(dòng)控制應(yīng)用:Wan-Move支持廣泛的運(yùn)動(dòng)控制應(yīng)用,如上圖1所示,包括單/多物體控制、相機(jī)控制、原始級(jí)別控制(例如旋轉(zhuǎn)虛擬球體)、運(yùn)動(dòng)遷移和3D旋轉(zhuǎn)控制。

總結(jié)與討論

Wan-Move,一個(gè)簡(jiǎn)單且可擴(kuò)展的框架,用于視頻生成中精確的運(yùn)動(dòng)控制。它通過(guò)點(diǎn)軌跡表示運(yùn)動(dòng),并通過(guò)空間映射將其傳輸?shù)綕撛谧鴺?biāo),無(wú)需額外的運(yùn)動(dòng)編碼器。隨后,通過(guò)隱空間特征復(fù)制將軌跡引導(dǎo)注入第一幀條件特征,在不改變架構(gòu)的情況下實(shí)現(xiàn)了有效的運(yùn)動(dòng)控制。為了進(jìn)行嚴(yán)格評(píng)估,本文進(jìn)一步提出了MoveBench,一個(gè)全面且精心策劃的基準(zhǔn),其特點(diǎn)是內(nèi)容類(lèi)別多樣且具有混合驗(yàn)證的標(biāo)注。在MoveBench和公共數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,Wan-Move能夠生成高質(zhì)量、長(zhǎng)持續(xù)時(shí)間(5秒,480p)的視頻,其運(yùn)動(dòng)可控性與Kling 1.5 Pro的Motion Brush等商業(yè)工具不相上下。本文相信,這項(xiàng)開(kāi)源解決方案為大規(guī)模運(yùn)動(dòng)可控視頻生成提供了一條高效途徑,并將賦能廣泛的創(chuàng)作者。

局限性和更廣泛的影響Wan-Move使用點(diǎn)軌跡來(lái)引導(dǎo)運(yùn)動(dòng),當(dāng)軌跡因遮擋而缺失時(shí),其可靠性可能會(huì)降低。盡管本文觀(guān)察到短期遮擋一旦點(diǎn)重新出現(xiàn)即可恢復(fù),顯示出一定程度的泛化能力,但長(zhǎng)時(shí)間的缺失可能導(dǎo)致控制的喪失(參見(jiàn)附錄)。與其他生成模型一樣,Wan-Move具有雙重用途潛力。它生成逼真、可控視頻的能力可以造福創(chuàng)意產(chǎn)業(yè)、教育和模擬,但也存在被濫用于生成誤導(dǎo)性或有害內(nèi)容的風(fēng)險(xiǎn)。

參考文獻(xiàn)

[1] Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

       原文標(biāo)題 : NeurIPS 2025 | 硬剛可靈1.5!阿里通義&清華等開(kāi)源Wan-Move:指哪動(dòng)哪的“神筆馬良”

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀(guān)點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)