訂閱
糾錯(cuò)
加入自媒體

AI自己當(dāng)導(dǎo)演?KlingAvatar 2.0“聯(lián)合推理”黑科技:讓數(shù)字人不僅會(huì)演,更懂劇本!新SOTA!

作者:快手Kling團(tuán)隊(duì)

解讀:AI生成未來(lái)
圖1 KlingAvatar 2.0生成生動(dòng)、保持身份的數(shù)字人類(lèi),具備精準(zhǔn)的攝像頭控制、豐富的情感表達(dá)、高質(zhì)量的動(dòng)作以及精準(zhǔn)的面部-唇部和音頻同步。它實(shí)現(xiàn)了音頻、圖像和文本指令之間的連貫對(duì)齊,推廣到多種開(kāi)放域風(fēng)格,并支持多字符合成和基于身份的音頻控制。這些能力得益于我們多模態(tài)指令跟隨、全向時(shí)空級(jí)聯(lián)框架,實(shí)現(xiàn)高分辨率、長(zhǎng)時(shí)長(zhǎng)視頻生成。

圖1 KlingAvatar 2.0生成生動(dòng)、保持身份的數(shù)字人類(lèi),具備精準(zhǔn)的攝像頭控制、豐富的情感表達(dá)、高質(zhì)量的動(dòng)作以及精準(zhǔn)的面部-唇部和音頻同步。它實(shí)現(xiàn)了音頻、圖像和文本指令之間的連貫對(duì)齊,推廣到多種開(kāi)放域風(fēng)格,并支持多字符合成和基于身份的音頻控制。這些能力得益于我們多模態(tài)指令跟隨、全向時(shí)空級(jí)聯(lián)框架,實(shí)現(xiàn)高分辨率、長(zhǎng)時(shí)長(zhǎng)視頻生成。

亮點(diǎn)直擊

時(shí)空級(jí)聯(lián)框架:提出了一種漸進(jìn)式生成的架構(gòu),支持長(zhǎng)時(shí)長(zhǎng)(長(zhǎng)達(dá)5分鐘)、高分辨率的視頻生成,有效緩解了長(zhǎng)視頻中的時(shí)間漂移問(wèn)題。

協(xié)同推理導(dǎo)演:引入了由三個(gè)特定模態(tài) LLM 專(zhuān)家組成的導(dǎo)演模塊,通過(guò)多輪對(duì)話進(jìn)行推理,解決了多模態(tài)指令沖突問(wèn)題,并引入了“負(fù)面導(dǎo)演”來(lái)優(yōu)化生成質(zhì)量。

多角色多音頻控制:利用深層 DiT 特征進(jìn)行掩碼預(yù)測(cè),實(shí)現(xiàn)了在復(fù)雜對(duì)話場(chǎng)景下對(duì)多個(gè)角色的獨(dú)立音頻驅(qū)動(dòng)控制。

卓越的性能與泛化能力:在視覺(jué)質(zhì)量、口型同步、情感表達(dá)及指令遵循方面達(dá)到了 SOTA(State-of-the-Art)水平。

解決的問(wèn)題

生成效率與質(zhì)量的平衡:之前的虛擬人視頻生成模型在生成長(zhǎng)時(shí)長(zhǎng)、高分辨率視頻時(shí)效率低下。

時(shí)間一致性差:隨著視頻長(zhǎng)度增加,容易出現(xiàn)時(shí)間漂移(Temporal drifting)和視覺(jué)質(zhì)量下降。

多模態(tài)指令遵循弱:在處理復(fù)雜的長(zhǎng)視頻指令時(shí),往往難以保持對(duì)文本、音頻和圖像指令的連貫響應(yīng)。

多角色控制難題:在涉及多個(gè)角色的場(chǎng)景中,難以精確地將特定音頻驅(qū)動(dòng)對(duì)應(yīng)的角色而不產(chǎn)生干擾。

提出的方案

兩階段級(jí)聯(lián)生成:首先生成低分辨率的“藍(lán)圖”關(guān)鍵幀以捕捉全局語(yǔ)義和運(yùn)動(dòng),然后通過(guò)“首尾幀策略”將其細(xì)化并上采樣為高分辨率、時(shí)間連貫的子片段。

多專(zhuān)家協(xié)同規(guī)劃:通過(guò)音頻、視覺(jué)、文本三個(gè)專(zhuān)家模型的協(xié)同推理(Chain-of-thought),將模糊的用戶(hù)輸入轉(zhuǎn)化為詳細(xì)的分鏡頭腳本。

ID 感知掩碼控制:利用 DiT 模塊深層的特征來(lái)預(yù)測(cè)角色掩碼,從而實(shí)現(xiàn)精確的局部音頻注入。

應(yīng)用的技術(shù)

DiT (Diffusion Transformer) :作為基礎(chǔ)視頻生成骨干網(wǎng)絡(luò)。

MLLM (Multimodal Large Language Model) :用于構(gòu)建協(xié)同推理導(dǎo)演模塊,進(jìn)行多輪對(duì)話推理和腳本規(guī)劃。

時(shí)空超分辨率 (Spatio-Temporal Super-Resolution) :在空間和時(shí)間維度上對(duì)視頻進(jìn)行上采樣。

軌跡保留蒸餾 (Trajectory-preserving Distillation) :用于加速視頻生成過(guò)程。

自動(dòng)化數(shù)據(jù)標(biāo)注流水線:結(jié)合 YOLO、DWPose 和 SAM 2 構(gòu)建多角色視頻數(shù)據(jù)集。

達(dá)到的效果

視覺(jué)清晰度增強(qiáng):生成結(jié)果具備電影級(jí)畫(huà)質(zhì)。

逼真的細(xì)節(jié)渲染:實(shí)現(xiàn)了準(zhǔn)確的唇齒同步和逼真的面部表情。

強(qiáng)身份保持能力:在長(zhǎng)視頻生成中能保持角色身份的一致性。

復(fù)雜指令遵循:能夠理解并執(zhí)行復(fù)雜的運(yùn)鏡和動(dòng)作指令(如“雙手在胸前交叉”)。

多角色互動(dòng):成功實(shí)現(xiàn)了多人在同一場(chǎng)景下的獨(dú)立說(shuō)話與互動(dòng)。

方法

KlingAvatar 2.0 擴(kuò)展了 Kling-Avatar的流程。如圖 2 所示,給定參考圖像、輸入音頻和文本指令,該系統(tǒng)能高效生成高保真、長(zhǎng)時(shí)長(zhǎng)的數(shù)字人視頻,并具備精準(zhǔn)的口型同步以及對(duì)多說(shuō)話人和角色的細(xì)粒度控制。下文將詳細(xì)介紹時(shí)空級(jí)聯(lián)擴(kuò)散框架、協(xié)同推理多模態(tài)劇情導(dǎo)演、多角色控制模塊以及加速技術(shù)。

圖2 KlingAvatar 2.0框架概述。在多模態(tài)指令下,共理導(dǎo)演以多回合對(duì)話方式推理并規(guī)劃層級(jí)化、細(xì)致的正負(fù)故事線,時(shí)空級(jí)聯(lián)流程則并行生成連貫的長(zhǎng)篇高分辨率頭像視頻圖2 KlingAvatar 2.0框架概述。在多模態(tài)指令下,共理導(dǎo)演以多回合對(duì)話方式推理并規(guī)劃層級(jí)化、細(xì)致的正負(fù)故事線,時(shí)空級(jí)聯(lián)流程則并行生成連貫的長(zhǎng)篇高分辨率頭像視頻

時(shí)空級(jí)聯(lián)建模

為了在計(jì)算高效的前提下支持長(zhǎng)時(shí)長(zhǎng)、高分辨率的數(shù)字人合成,KlingAvatar 2.0 采用了建立在預(yù)訓(xùn)練視頻擴(kuò)散模型之上的音頻驅(qū)動(dòng) DiT 時(shí)空級(jí)聯(lián)架構(gòu),如圖 2 所示。該流程包含兩個(gè)嵌套的級(jí)聯(lián),共同處理長(zhǎng)跨度的全局劇情規(guī)劃和局部的時(shí)空細(xì)化。

首先,一個(gè)低分辨率擴(kuò)散模型生成捕捉全局動(dòng)態(tài)、內(nèi)容和布局的“藍(lán)圖視頻”;隨后,代表性的低分辨率關(guān)鍵幀由高分辨率 DiT 進(jìn)行上采樣,在相同的協(xié)同推理導(dǎo)演的全局提示詞下,豐富細(xì)節(jié)并保持身份與場(chǎng)景構(gòu)成。接著,低分辨率視頻擴(kuò)散模型通過(guò)“首尾幀條件生成”(first-last-frame conditioned generation)將這些高分辨率錨點(diǎn)關(guān)鍵幀擴(kuò)展為與音頻同步的子片段,其中的提示詞由藍(lán)圖關(guān)鍵幀增強(qiáng),以細(xì)化微小的動(dòng)作和表情。一種音頻感知的插值策略被用于合成過(guò)渡幀,以增強(qiáng)時(shí)間連接性、口型同步和空間一致性。最后,高分辨率視頻擴(kuò)散模型對(duì)低分辨率子片段進(jìn)行超分辨率處理,生成高保真、時(shí)間連貫的視頻片段。

協(xié)同推理導(dǎo)演

KlingAvatar 2.0 采用了一位協(xié)同推理導(dǎo)演,該導(dǎo)演建立在近期基于 MLLM 的虛擬人規(guī)劃器基礎(chǔ)之上,以多輪對(duì)話的方式聯(lián)合推理音頻、圖像和文本。該導(dǎo)演由三位專(zhuān)家實(shí)例化: (i) 音頻中心專(zhuān)家:執(zhí)行轉(zhuǎn)錄和副語(yǔ)言分析(情感、韻律、說(shuō)話意圖); (ii) 視覺(jué)專(zhuān)家:從參考圖像中總結(jié)外觀、布局和場(chǎng)景上下文; (iii) 文本專(zhuān)家:解釋用戶(hù)指令,結(jié)合其他專(zhuān)家的對(duì)話歷史,并合成邏輯連貫的劇情計(jì)劃。

這些專(zhuān)家通過(guò)思維鏈(Chain-of-Thought)進(jìn)行多輪協(xié)同推理,展示中間思維過(guò)程以解決沖突(例如,憤怒的語(yǔ)調(diào)搭配中性的劇本),并補(bǔ)充未明確的細(xì)節(jié),如隱含的動(dòng)作或攝像機(jī)運(yùn)動(dòng)。導(dǎo)演輸出一個(gè)結(jié)構(gòu)化的劇情線,將視頻分解為一系列鏡頭。此外,本工作還引入了一位負(fù)面導(dǎo)演(Negative Director),其中正面提示詞強(qiáng)調(diào)期望的視覺(jué)和行為屬性,而負(fù)面提示詞則明確降低不可信的姿態(tài)、偽影、細(xì)粒度的相反情緒(如悲傷 vs 快樂(lè))或運(yùn)動(dòng)風(fēng)格(如過(guò)快 vs 過(guò)慢)的權(quán)重。

對(duì)于長(zhǎng)視頻,導(dǎo)演進(jìn)一步將全局劇情細(xì)化為與音頻時(shí)間軸對(duì)齊的片段級(jí)計(jì)劃,這直接參數(shù)化了關(guān)鍵幀級(jí)聯(lián)和片段級(jí)細(xì)化模塊。這種高層級(jí)的多模態(tài)規(guī)劃將松散指定的指令轉(zhuǎn)化為擴(kuò)散骨干網(wǎng)絡(luò)可以一致遵循的連貫?zāi)_本,大幅提高了語(yǔ)義對(duì)齊和時(shí)間連貫性。

多角色控制

KlingAvatar 2.0 將單說(shuō)話人虛擬人設(shè)置推廣到了多角色場(chǎng)景和身份特定的音頻控制。本工作的設(shè)計(jì)遵循了近期多人對(duì)話虛擬人,如[33, 62, 63] 中使用的角色感知音頻注入范式。根據(jù)經(jīng)驗(yàn),本工作觀察到一個(gè)重要的架構(gòu)屬性:DiT 塊不同深度的隱藏特征表現(xiàn)出截然不同的特征表示。特別是,深層 DiT 層的潛在表示被組織成語(yǔ)義連貫且噪聲減少的空間區(qū)域,這些區(qū)域與個(gè)體角色和其他顯著物體對(duì)齊良好。

受此觀察啟發(fā),本工作在選定的深層 DiT 塊上附加了一個(gè)掩碼預(yù)測(cè)頭(Mask-prediction head),如圖 3(a) 所示。具體而言,給定第一幀中的指定角色,使用相同的切片化方案對(duì)參考身份裁剪圖像進(jìn)行編碼(不向參考 Token 添加噪聲)。然后計(jì)算視頻潛在 Token 與每個(gè)身份的參考 Token 之間的交叉注意力,并應(yīng)用 MLP 模塊回歸每一幀的角色掩碼。真值(GT)掩碼被下采樣以匹配中間潛在特征的空間和時(shí)間分辨率。在訓(xùn)練期間,DiT 視頻骨干網(wǎng)絡(luò)被凍結(jié),僅優(yōu)化掩碼預(yù)測(cè)模塊。在去噪過(guò)程中,預(yù)測(cè)的掩碼用于將身份特定的音頻流注入門(mén)控到相應(yīng)的區(qū)域。

圖3(a)多字符視頻生成pipeline,帶有身份特定音頻控制。掩模預(yù)測(cè)頭連接到深度DiT特征,預(yù)測(cè)掩碼將特定ID的音頻注入到相應(yīng)區(qū)域。(b)自動(dòng)化多字符視頻注釋pipeline。圖3(a)多字符視頻生成pipeline,帶有身份特定音頻控制。掩模預(yù)測(cè)頭連接到深度DiT特征,預(yù)測(cè)掩碼將特定ID的音頻注入到相應(yīng)區(qū)域。(b)自動(dòng)化多字符視頻注釋pipeline。

為了促進(jìn)大規(guī)模多角色訓(xùn)練數(shù)據(jù)集的構(gòu)建,本工作擴(kuò)展了數(shù)據(jù)源,包括播客、訪談、多角色電視劇等。為了大規(guī)模收集 GT 角色掩碼,本工作開(kāi)發(fā)了一套自動(dòng)化的標(biāo)注流水線來(lái)生成每個(gè)角色的視頻掩碼,如圖 3(b) 所示。該流水線利用了幾個(gè)專(zhuān)家模型:YOLO用于人員檢測(cè),DWPose用于關(guān)鍵點(diǎn)估計(jì),SAM 2用于分割和時(shí)間跟蹤。具體來(lái)說(shuō),首先使用 YOLO 檢測(cè)第一幀中的所有角色,使用 DWPose 估計(jì)每個(gè)檢測(cè)中的關(guān)鍵點(diǎn),并將生成的邊界框和關(guān)鍵點(diǎn)作為 SAM 2 的提示詞,以分割和跟蹤后續(xù)幀中的每個(gè)人物。最后,根據(jù)每幀的 YOLO 和 DWPose 估計(jì)結(jié)果驗(yàn)證生成的視頻掩碼,并過(guò)濾掉未對(duì)齊或重疊度低的片段,以確保訓(xùn)練的高質(zhì)量標(biāo)注。

加速視頻生成

為了實(shí)現(xiàn)加速的推理效率,本工作探索了基于以 PCM和 DCM為代表的軌跡保留蒸餾(trajectory-preserving distillation),以及以 DMD為代表的分布匹配蒸餾(distribution matching distillation)方案;趯(duì)實(shí)驗(yàn)成本、訓(xùn)練穩(wěn)定性、推理靈活性和最終生成性能指標(biāo)的綜合評(píng)估,最終選擇了軌跡保留蒸餾方法。為了進(jìn)一步提高蒸餾效率,本工作通過(guò)分析基礎(chǔ)模型在不同時(shí)間步的表現(xiàn)開(kāi)發(fā)了定制的時(shí)間調(diào)度器,從而平衡推理加速比與模型性能。在蒸餾算法中,本工作通過(guò)一系列精心設(shè)計(jì)的配置引入了多任務(wù)蒸餾范式。該范式產(chǎn)生了協(xié)同效應(yīng)(1+1>2),改善了每個(gè)單獨(dú)任務(wù)的蒸餾結(jié)果。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

為了全面評(píng)估 KlingAvatar 2.0,本工作遵循基于人類(lèi)偏好的主觀評(píng)估協(xié)議。構(gòu)建了包含 300 個(gè)高質(zhì)量測(cè)試用例的測(cè)試集(100 個(gè)中文語(yǔ)音、100 個(gè)英文語(yǔ)音、100 個(gè)歌唱樣本)。評(píng)估者在 GSB(Good/Same/Bad)標(biāo)準(zhǔn)下將本模型與基線方法進(jìn)行兩兩比較。評(píng)估維度包括:面部-口型同步 (Face-Lip Sync)、視覺(jué)質(zhì)量 (Visual Qual.)運(yùn)動(dòng)質(zhì)量 (Motion Qual.)、運(yùn)動(dòng)表現(xiàn)力 (Motion Expr.) 以及 **文本相關(guān)性 (Text Rel.)**。

實(shí)驗(yàn)結(jié)果

本工作將 KlingAvatar 2.0 與三個(gè)強(qiáng)基線進(jìn)行了比較:HeyGenKling-Avatar和 OmniHuman-1.5。

定量結(jié)果:如表 1 和圖 4 所示,本方法在所有維度上均取得了領(lǐng)先,特別是在運(yùn)動(dòng)表現(xiàn)力文本相關(guān)性方面提升顯著。

圖4 GSB基準(zhǔn)測(cè)試結(jié)果可視化,比較KlingAvatar 2.0與HeyGen、Kling-Avatar和OmniHuman-1.5,涵蓋多種評(píng)估標(biāo)準(zhǔn)。圖4 GSB基準(zhǔn)測(cè)試結(jié)果可視化,比較KlingAvatar 2.0與HeyGen、Kling-Avatar和OmniHuman-1.5,涵蓋多種評(píng)估標(biāo)準(zhǔn)。

定性比較:如圖 5 所示,本模型生成的頭發(fā)動(dòng)態(tài)更符合物理規(guī)律且自然,相比之下基線方法(如 Kling-Avatar, OmniHuman-1.5)略顯僵硬或物理感不足。在多模態(tài)指令遵循方面,本方法能更準(zhǔn)確地執(zhí)行如“從下到上的運(yùn)鏡”或“雙手在胸前交叉”等復(fù)雜指令,而基線方法有時(shí)會(huì)忽略動(dòng)作強(qiáng)度或產(chǎn)生錯(cuò)誤的動(dòng)作(如將手放在腰部而非胸前)。

圖5 KlingAvatar 2.0與基線方法的定性比較。左圖:我們的方法能產(chǎn)生更自然的發(fā)絲動(dòng)態(tài)和生動(dòng)的面部表情。中間:我們的結(jié)果更貼近指定的自下到頂相機(jī)運(yùn)動(dòng)。右:我們生成的視頻更符合提示“...她轉(zhuǎn)向前方,雙手交叉放在胸前。”圖5 KlingAvatar 2.0與基線方法的定性比較。左圖:我們的方法能產(chǎn)生更自然的發(fā)絲動(dòng)態(tài)和生動(dòng)的面部表情。中間:我們的結(jié)果更貼近指定的自下到頂相機(jī)運(yùn)動(dòng)。右:我們生成的視頻更符合提示“...她轉(zhuǎn)向前方,雙手交叉放在胸前。”

多場(chǎng)景與消融研究:圖 6 展示了模型在多說(shuō)話人交互場(chǎng)景下的泛化能力。圖 7 的消融研究表明,相比于使用通用的負(fù)面提示詞,引入負(fù)面導(dǎo)演 (Negative Director) 進(jìn)行鏡頭級(jí)的細(xì)粒度負(fù)面提示控制,能有效抑制不合理的表情和偽影,提升情感表達(dá)的準(zhǔn)確性和時(shí)間穩(wěn)定性。

圖6 由我們與多模態(tài)共推導(dǎo)演的時(shí)空級(jí)聯(lián)框架生成的代表性定性結(jié)果。圖6 由我們與多模態(tài)共推導(dǎo)演的時(shí)空級(jí)聯(lián)框架生成的代表性定性結(jié)果。圖7 負(fù)導(dǎo)向在藍(lán)圖關(guān)鍵幀上的消融研究。負(fù)片導(dǎo)演增強(qiáng)面部表情,增強(qiáng)時(shí)間穩(wěn)定性和情緒控制,減少光線和曝光偽影。圖7 負(fù)導(dǎo)向在藍(lán)圖關(guān)鍵幀上的消融研究。負(fù)片導(dǎo)演增強(qiáng)面部表情,增強(qiáng)時(shí)間穩(wěn)定性和情緒控制,減少光線和曝光偽影。

結(jié)論

KlingAvatar 2.0,這是一個(gè)統(tǒng)一的框架,通過(guò)全向協(xié)同推理導(dǎo)演實(shí)現(xiàn)時(shí)空級(jí)聯(lián)生成,用于合成高分辨率、長(zhǎng)時(shí)長(zhǎng)、栩栩如生的多人虛擬人視頻。本工作的多模態(tài)、多專(zhuān)家協(xié)同推理導(dǎo)演通過(guò)多輪對(duì)話對(duì)音頻線索、視覺(jué)上下文和復(fù)雜指令進(jìn)行思考和規(guī)劃,以解決歧義和信號(hào)沖突,生成連貫的全局劇情以指導(dǎo)長(zhǎng)視頻合成軌跡,并生成詳細(xì)的局部提示詞以細(xì)化子片段的動(dòng)態(tài)。

這種層級(jí)化的劇情驅(qū)動(dòng)了低分辨率藍(lán)圖關(guān)鍵幀的生成,以及時(shí)空上采樣的高分辨率、音頻同步子片段的生成,這些子片段通過(guò)首尾幀條件并行且高效地組合成長(zhǎng)視頻。本工作進(jìn)一步將應(yīng)用場(chǎng)景擴(kuò)展到具有身份特定音頻控制的多角色設(shè)置,并開(kāi)發(fā)了自動(dòng)化標(biāo)注流水線以整理大規(guī)模多人視頻數(shù)據(jù)集。實(shí)驗(yàn)表明,KlingAvatar 2.0 在視覺(jué)保真度、身份保持、口型-音頻同步、指令遵循、長(zhǎng)時(shí)長(zhǎng)連貫性以及多角色、多音頻可控性方面均表現(xiàn)出領(lǐng)先的性能。我們相信,本工作對(duì)全向?qū)、多角色、多音頻、長(zhǎng)形式、高分辨率虛擬人合成框架的探索,為數(shù)字人生成的未來(lái)研究和應(yīng)用鋪平了道路。

參考文獻(xiàn)

[1] KlingAvatar 2.0 Technical Report

       原文標(biāo)題 : AI自己當(dāng)導(dǎo)演?KlingAvatar 2.0“聯(lián)合推理”黑科技:讓數(shù)字人不僅會(huì)演,更懂劇本!新SOTA!

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)