訂閱
糾錯
加入自媒體

6倍極速生成無限時長人像視頻!復(fù)旦&微軟最新FlashPortrait:讓你成為數(shù)字人面具背后的TA

作者:Shuyuan Tu、Zhen Xing等

解讀:AI生成未來

亮點(diǎn)直擊

提出了一種基于滑動窗口的自適應(yīng)潛變量預(yù)測加速機(jī)制。該方法無需額外訓(xùn)練,僅在推理階段激活,可在保持無限長度人像動畫身份一致性的同時實(shí)現(xiàn)6倍加速。首個探索視頻擴(kuò)散模型以加速身份保持型無限長度人像動畫生成的研究。

設(shè)計了一種新型歸一化面部表情模塊,用于對齊擴(kuò)散潛變量與面部特征的分布中心,從而增強(qiáng)去噪過程中的身份穩(wěn)定性。

在多個基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的模型優(yōu)于當(dāng)前最先進(jìn)方法。

在電影制作、虛擬助手、直播帶貨等領(lǐng)域,人像動畫技術(shù)始終追求著 “無限時長、高保真、身份穩(wěn)定” 的終極目標(biāo)。隨著擴(kuò)散模型的興起,音頻驅(qū)動或視頻驅(qū)動的人像生成技術(shù)取得了顯著進(jìn)展,但現(xiàn)有方案卻面臨著難以調(diào)和的核心矛盾:要么生成時長受限(超過20秒即出現(xiàn)身體扭曲、身份漂移),要么推理速度緩慢(生成20秒視頻需數(shù)分鐘),嚴(yán)重制約了技術(shù)的工業(yè)化落地。當(dāng)前基于擴(kuò)散模型的人像動畫技術(shù),在長時長、高速推理、高一致性的要求下,暴露出三大核心缺陷:

(1)身份一致性缺失:擴(kuò)散潛變量與面部表情特征的分布中心差異過大,導(dǎo)致生成視頻易出現(xiàn)面部扭曲、顏色漂移、身份特征模糊等問題;

(2)推理速度緩慢:傳統(tǒng)擴(kuò)散模型需逐幀完成完整去噪流程,生成 20 秒視頻往往需要數(shù)十分鐘,難以滿足實(shí)時應(yīng)用場景;

(3)長視頻銜接生硬:采用片段切割拼接或簡單滑窗策略時,視頻片段間過渡突兀,缺乏流暢性與連貫性,F(xiàn)有加速方案(如緩存復(fù)用、知識蒸餾)要么僅適用于小幅運(yùn)動場景,要么需付出巨大計算成本,且無法解決長視頻中的身份漂移問題。因此,開發(fā)一款兼顧速度、時長與一致性的人像動畫框架,成為工業(yè)界迫切需求。

為了解決上述問題,來自復(fù)旦、微軟、西交等研究團(tuán)隊提出FlashPortrait框架,以實(shí)現(xiàn)6倍推理加速的無限時長人像視頻生成,目前代碼已開源,包括推理代碼和訓(xùn)練代碼。

方法簡介

如下圖所示,F(xiàn)lashPortrait 基于 Wan2.1-14B 基座模型開發(fā),通過三大核心技術(shù)模塊,構(gòu)建了 “特征對齊-流暢銜接-高速生成” 的完整技術(shù)路線。

1. 歸一化面部表情模塊(Normalized Facial Expression Block)

針對擴(kuò)散潛變量與面部特征分布差異導(dǎo)致的身份漂移問題,F(xiàn)lashPortrait 設(shè)計了歸一化面部表情模塊,通過分布對齊技術(shù),實(shí)現(xiàn)跨幀身份一致性的精準(zhǔn)把控,具體而言,首先利用預(yù)訓(xùn)練面部編碼器(PD-FGC)從驅(qū)動視頻中提取頭部姿態(tài)、眼部動作、情緒狀態(tài)、嘴部運(yùn)動等原生面部表情特征,再通過自注意力機(jī)制與前饋網(wǎng)絡(luò)(FFN)增強(qiáng)面部整體布局感知。然后計算處理后表情特征與擴(kuò)散潛變量的均值和方差,通過歸一化操作將兩者分布中心對齊,消除分布差異帶來的身份不穩(wěn)定問題,將歸一化后的面部特征與參考圖像的 CLIP 編碼特征進(jìn)行交叉注意力融合,通過逐元素相加注入擴(kuò)散模型,確保生成過程中面部細(xì)節(jié)與身份特征的精準(zhǔn)保留。

2. 加權(quán)滑窗策略(Weighted Sliding-Window Strategy)

將長視頻劃分為多個重疊窗口,窗口重疊長度設(shè)為v(v=5),確保相鄰窗口存在部分共享幀,在重疊區(qū)域采用算術(shù)插值權(quán)重,對相鄰窗口的潛變量進(jìn)行加權(quán)融合()。融合后的潛變量回注至相鄰窗口,使窗口邊界由混合特征構(gòu)成,避免片段銜接處的突兀過渡,實(shí)現(xiàn)長視頻的流暢連貫生成。

3. 自適應(yīng)潛變量預(yù)測加速機(jī)制(Adaptive Latent Prediction Acceleration)

為突破傳統(tǒng)擴(kuò)散模型逐幀去噪的速度瓶頸,F(xiàn)lashPortrait 創(chuàng)新提出自適應(yīng)潛變量預(yù)測加速機(jī)制,通過高階導(dǎo)數(shù)預(yù)測跳過冗余去噪步驟,實(shí)現(xiàn)6倍速推理。首先利用泰勒級數(shù)展開,基于歷史潛變量的高階差分近似未來潛變量,即,其中通過有限差分替代復(fù)雜的導(dǎo)數(shù)計算,降低計算成本。針對人像動畫中面部運(yùn)動幅度大、潛變量波動劇烈的問題,設(shè)計兩大動態(tài)調(diào)整函數(shù):(1)潛變量變化率函數(shù)(), 根據(jù)當(dāng)前時步潛變量變化速度與平均變化速度的比值,動態(tài)調(diào)整預(yù)測步長,避免大幅運(yùn)動時預(yù)測失真。(2)跨層導(dǎo)數(shù)權(quán)重函數(shù)(), 根據(jù)不同擴(kuò)散層的導(dǎo)數(shù)幅度差異,動態(tài)調(diào)整權(quán)重,解決低層紋理特征與高層結(jié)構(gòu)特征的預(yù)測誤差問題。通過上述預(yù)測機(jī)制,擴(kuò)散模型僅需對部分關(guān)鍵時步進(jìn)行完整去噪,即可直接預(yù)測未來多個時步的潛變量,最終實(shí)現(xiàn)跳過冗余去噪步驟,達(dá)到6倍速推理加速。

生成結(jié)果示例

實(shí)驗(yàn)對比

結(jié)論

FlashPortrait,該模型配備專門設(shè)計的訓(xùn)練與推理機(jī)制,能夠生成具有身份保持特性的無限長度人像動畫,并在推理速度上實(shí)現(xiàn)了高達(dá)6倍的加速。FlashPortrait首先利用現(xiàn)有成熟模型提取與身份無關(guān)的面部表情特征。為提升身份穩(wěn)定性,模型引入了歸一化面部表情模塊以優(yōu)化表情特征。在推理階段,為確保長視頻的流暢性與身份一致性,F(xiàn)lashPortrait提出了加權(quán)滑動窗口策略。在每個上下文窗口中,進(jìn)一步引入自適應(yīng)潛變量預(yù)測加速機(jī)制,以跳過部分去噪步驟,從而實(shí)現(xiàn)6倍推理加速。多數(shù)據(jù)集實(shí)驗(yàn)結(jié)果表明,本文模型在合成無限長度、身份保持的人像動畫方面具有顯著優(yōu)勢,且推理速度大幅提升。

參考文獻(xiàn)

[1] FlashPortrait: 6 × Faster Infinite Portrait Animationwith Adaptive Latent Prediction

       原文標(biāo)題 : 6倍極速生成無限時長人像視頻!復(fù)旦&微軟最新FlashPortrait:讓你成為數(shù)字人面具背后的TA

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號