訂閱
糾錯(cuò)
加入自媒體

1步頂100步!TwinFlow:無(wú)需教師模型,僅單步推理,Qwen-Image-20B生成速度漲100倍!

作者:Zhenglin Cheng等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

簡(jiǎn)單而有效的一步生成框架。提出了一種一步生成框架,該框架不需要輔助訓(xùn)練模型(GAN 判別器)或凍結(jié)的教師模型(不同的/一致性蒸餾),從而消除了 GPU 內(nèi)存成本,允許在大模型上進(jìn)行更靈活和可擴(kuò)展的訓(xùn)練。

基于任意步框架,TWINFLOW 僅使用 1-NFE 就實(shí)現(xiàn)了強(qiáng)大的文本到圖像性能,GenEval 分?jǐn)?shù)達(dá)到 0.83。

將 1/2-NFE 生成能力引入到 Qwen-Image-20B。在 1-NFE 時(shí)實(shí)現(xiàn)了 0.86 的 GenEval 分?jǐn)?shù)和 86.52 的 DPG 分?jǐn)?shù);在 2-NFE 時(shí)實(shí)現(xiàn)了 0.87 的 GenEval 和 87.64 的 DPG 分?jǐn)?shù),具有高度競(jìng)爭(zhēng)力。

總結(jié)速覽

解決的問(wèn)題

推理效率低下:主流多模態(tài)生成模型(擴(kuò)散、流匹配、一致性模型)依賴多步采樣(40–100 NFE),導(dǎo)致高延遲與高計(jì)算成本,難以滿足實(shí)際部署需求;

現(xiàn)有少步方法存在顯著缺陷

蒸餾類方法(如漸進(jìn)式/一致性蒸餾)在極低步數(shù)(<4 NFE)時(shí)生成質(zhì)量嚴(yán)重下降;

對(duì)抗訓(xùn)練類方法(如DMD、SANA-Sprint)引入判別器或凍結(jié)教師模型,導(dǎo)致訓(xùn)練不穩(wěn)定、架構(gòu)復(fù)雜、GPU內(nèi)存開(kāi)銷大,難以擴(kuò)展至大模型;

缺乏簡(jiǎn)潔、穩(wěn)定、可擴(kuò)展的一步生成框架,尤其在20B級(jí)大模型上尚未實(shí)現(xiàn)1-NFE下的高質(zhì)量生成。

提出的方案

提出 TWINFLOW——一種無(wú)需教師模型、無(wú)需對(duì)抗網(wǎng)絡(luò)的一步生成訓(xùn)練框架,核心創(chuàng)新為:

雙軌跡(Twin Trajectory)設(shè)計(jì):將時(shí)間維度擴(kuò)展至 ,構(gòu)建兩條對(duì)稱路徑:

正分支():噪聲 → 真實(shí)數(shù)據(jù);

負(fù)分支():相同噪聲 → “偽”數(shù)據(jù);

自監(jiān)督速度場(chǎng)對(duì)齊目標(biāo):直接最小化兩條軌跡的速度場(chǎng)差異,迫使模型學(xué)習(xí)更魯棒、直接的噪聲→數(shù)據(jù)映射;

端到端訓(xùn)練范式:全程無(wú)需凍結(jié)教師模型、無(wú)需判別器等輔助模塊,支持全參數(shù)訓(xùn)練。

應(yīng)用的技術(shù)

流匹配(Flow Matching)理論擴(kuò)展:將標(biāo)準(zhǔn)  時(shí)間流拓展為對(duì)稱  雙流空間;

速度場(chǎng)一致性約束:通過(guò)最小化正負(fù)軌跡間速度場(chǎng)的  距離實(shí)現(xiàn)自監(jiān)督優(yōu)化;

大模型高效適配:應(yīng)用于 Qwen-Image-20B(200億參數(shù)多模態(tài)生成模型),實(shí)現(xiàn)全參數(shù)微調(diào)與一步生成轉(zhuǎn)換;

評(píng)估體系:采用 GenEval(綜合生成質(zhì)量)、DPG-Bench(圖像保真度與多樣性)等權(quán)威基準(zhǔn)驗(yàn)證效果。

達(dá)到的效果

推理效率飛躍:僅需 1-NFE 即可生成高質(zhì)量圖像,計(jì)算成本降低100倍(相比原100-NFE模型);

生成質(zhì)量領(lǐng)先:1-NFE:GenEval 0.86,DPG 86.52;2-NFE:GenEval 0.87,DPG 87.64;

→ 逼近原100-NFE模型性能(GenEval 0.87,DPG 88.32),質(zhì)量損失極小;

在文本到圖像任務(wù)中,1-NFE下 GenEval = 0.83,顯著優(yōu)于 SANA-Sprint(0.72)與 RCGM(0.80);

工程優(yōu)勢(shì)顯著:訓(xùn)練穩(wěn)定、架構(gòu)簡(jiǎn)潔、內(nèi)存開(kāi)銷低;首次驗(yàn)證了20B級(jí)多模態(tài)大模型可高效實(shí)現(xiàn)一步生成,具備強(qiáng)可擴(kuò)展性與工業(yè)落地潛力。

方法

當(dāng)前任意步框架中的少數(shù)步驟方法在不依賴 GAN 損失的情況下難以實(shí)現(xiàn)高質(zhì)量的一步生成,而 GAN 損失會(huì)顯著增加復(fù)雜性。為了解決這個(gè)問(wèn)題,本文提出了 TWINFLOW,一種簡(jiǎn)單且自包含的方法,可以在任意步流匹配框架內(nèi)直接增強(qiáng)一步性能。本文的核心思想是引入雙軌跡,它創(chuàng)建了一個(gè)內(nèi)部自對(duì)抗信號(hào),從而消除了訓(xùn)練過(guò)程中對(duì)外部 GAN 損失的需求。該方法通過(guò)最小化“假”和“真實(shí)”速度場(chǎng)之間的差異來(lái)實(shí)現(xiàn),理想情況下該差異應(yīng)為零。本文最后演示了如何將 TWINFLOW 集成到更廣泛的任意步框架中,并提供了實(shí)際設(shè)計(jì)。

用于自對(duì)抗訓(xùn)練的雙軌跡

本文方法的一個(gè)關(guān)鍵創(chuàng)新是引入了雙軌跡,其時(shí)間步長(zhǎng)以  對(duì)稱(參見(jiàn)下圖 2a)。這種結(jié)構(gòu)創(chuàng)建了一個(gè)自包含、無(wú)判別器的對(duì)抗目標(biāo),旨在直接增強(qiáng)一步生成性能。

創(chuàng)建自對(duì)抗目標(biāo)。 標(biāo)準(zhǔn)學(xué)習(xí)過(guò)程在時(shí)間間隔  上操作:真實(shí)數(shù)據(jù)  被  擾動(dòng),其中 , 。為了創(chuàng)建本文的自對(duì)抗目標(biāo)(以及雙軌跡),本文將此時(shí)間間隔從  擴(kuò)展到 。此間隔的負(fù)半部分,,指定用于學(xué)習(xí)從噪聲到模型自身生成的“假”數(shù)據(jù)的生成路徑。

具體來(lái)說(shuō),本文任務(wù)網(wǎng)絡(luò)學(xué)習(xí)到其自身輸出的生成路徑。本文采用模型生成的假樣本 ,即 ,并構(gòu)建相應(yīng)的“假軌跡”,其中其擾動(dòng)版本定義為 ,,。這里  是不同的噪聲,不需要與  相同。然后,網(wǎng)絡(luò)在此軌跡上使用負(fù)時(shí)間輸入  進(jìn)行以下流匹配目標(biāo)訓(xùn)練:

其中  是一個(gè)度量函數(shù)。最小化此損失教會(huì)網(wǎng)絡(luò)學(xué)習(xí)負(fù)時(shí)間條件和從噪聲到假數(shù)據(jù)分布的變換,為下一節(jié)中描述的校正損失奠定了基礎(chǔ)。

通過(guò)速度匹配校正真實(shí)軌跡

理想情況下,本文希望雙軌跡相互匹配。如前文所述,分布  和  分別對(duì)應(yīng)由負(fù)時(shí)間和正時(shí)間間隔參數(shù)化的軌跡。受 DMD的啟發(fā),本文可以將其視為一個(gè)分布匹配問(wèn)題。對(duì)于任何擾動(dòng)樣本 ,本文旨在最小化這兩個(gè)分布之間的 KL 散度:

速度匹配作為分布匹配。 對(duì)公式 (3) 求梯度,本文得到:

其中  是各自分布的分?jǐn)?shù)。在線性傳輸下(),分?jǐn)?shù)與速度場(chǎng)  的關(guān)系由下式給出:

將公式 (5) 中的此關(guān)系代入 KL 梯度 (4) 得到:

其中模型對(duì)于假軌跡以  為條件,對(duì)于真實(shí)軌跡以  為條件。為簡(jiǎn)化起見(jiàn),本文將此速度差(參見(jiàn)上圖 2a)表示為:

此推導(dǎo)將原始的分布匹配問(wèn)題重鑄為一個(gè)更實(shí)用的速度匹配問(wèn)題。本文現(xiàn)在展示如何將其表述為下面可處理的校正損失。

校正損失推導(dǎo)。 為了推導(dǎo)校正損失,本文首先使用第 3.1 節(jié)中的設(shè)置實(shí)例化梯度 (6)。在此設(shè)置中,網(wǎng)絡(luò)的預(yù)測(cè)  作為干凈的示例,因此,(6) 中的擾動(dòng)變量  對(duì)應(yīng)于假樣本 。因此,(7) 中定義的速度差  被實(shí)例化為 。

在此設(shè)置下,(6) 中的雅可比項(xiàng)實(shí)例化為  并簡(jiǎn)化為:

因此,(6) 中的 KL 梯度采用內(nèi)積  的形式。為了構(gòu)建產(chǎn)生這種梯度結(jié)構(gòu)的可處理?yè)p失,本文采用停止梯度算子 sg()。這激發(fā)了以下校正損失:

其中  是一個(gè)度量函數(shù)。最小化  鼓勵(lì)模型校直從噪聲到數(shù)據(jù)分布的生成軌跡。這種校正允許通過(guò)大步長(zhǎng)精確近似整個(gè)積分過(guò)程,從而實(shí)現(xiàn)少步或 1 步生成。

TWINFLOW 目標(biāo)與實(shí)際設(shè)計(jì)

與任意步框架的整合。 本文方法 TWINFLOW 訓(xùn)練一個(gè)單一模型,使其在多步和少步生成方面都表現(xiàn)出色。這是通過(guò)結(jié)合兩個(gè)具有沖突需求的互補(bǔ)目標(biāo)實(shí)現(xiàn)的:

自對(duì)抗損失 ( 在公式 (2) 中) 通過(guò)將訓(xùn)練動(dòng)態(tài)擴(kuò)展到區(qū)間  來(lái)促進(jìn)高保真度、多步生成。校正損失 ( 在公式 (9) 中) 通過(guò)直接校直從噪聲到數(shù)據(jù)的軌跡來(lái)優(yōu)化少步效率,從而實(shí)現(xiàn)快速、高質(zhì)量的合成。 這創(chuàng)建了一個(gè)雙重目標(biāo):模型必須既是一個(gè)精確的多步采樣器,又是一個(gè)高效的少步生成器。這導(dǎo)致了第 2 節(jié)中介紹的任意步框架的應(yīng)用,該框架統(tǒng)一了 (2) 和 (9) 的要求。本文采用 (1) 的  公式來(lái)增強(qiáng)訓(xùn)練穩(wěn)定性。本文的最終損失結(jié)合了基本目標(biāo)和本文提出的項(xiàng),本文將其統(tǒng)稱為 。本文方法中的整體損失函數(shù)可以表示為:

混合損失的實(shí)際實(shí)現(xiàn)。 中的  和  目標(biāo)在任意步公式下對(duì)目標(biāo)時(shí)間  提出了不同的要求。具體來(lái)說(shuō), 要求  從  采樣,而  需要固定的目標(biāo)時(shí)間 。為了在單個(gè)訓(xùn)練步驟中同時(shí)滿足這兩個(gè)要求,本文將每個(gè) mini-batch 分成兩個(gè)子集。平衡超參數(shù)  控制這些子集的相對(duì)大小。一部分批次用于計(jì)算  時(shí)的 ,而其余部分用于計(jì)算隨機(jī)采樣  時(shí)的 。因此, 的值平衡了兩個(gè)損失對(duì)梯度更新的影響。設(shè)置  禁用  項(xiàng),而較大的值會(huì)增加其貢獻(xiàn)。關(guān)于  影響的消融研究可在下圖 4a 中找到。

實(shí)驗(yàn)

本文通過(guò)兩個(gè)方面證明了本文方法 TWINFLOW 的有效性。首先,本文強(qiáng)調(diào)其多功能性和可擴(kuò)展性,將 TWINFLOW 應(yīng)用于統(tǒng)一的多模態(tài)模型,例如 Qwen-Image-20B,如下表 2 所示。其次,本文將其與最先進(jìn) (SOTA) 的專用文本到圖像模型進(jìn)行基準(zhǔn)測(cè)試,結(jié)果如下表 4 所示。

實(shí)驗(yàn)設(shè)置

本節(jié)詳細(xì)介紹了本文提出的方法的實(shí)驗(yàn)設(shè)置和評(píng)估協(xié)議。

多模態(tài)生成模型上的圖像生成。 本文對(duì)統(tǒng)一的多模態(tài)模型(即同時(shí)將文本和圖像作為條件并能夠生成文本和圖像)進(jìn)行評(píng)估。(1) 網(wǎng)絡(luò)架構(gòu):本文在 Qwen-Image 上進(jìn)行了 LoRA(上表 2)和全參數(shù)訓(xùn)練(下表 3)的 TWINFLOW。本文還在 OpenUni-512上進(jìn)行了全參數(shù)訓(xùn)練實(shí)驗(yàn)。(2) 基準(zhǔn):遵循近期工作,本文在文本到圖像生成任務(wù)中使用了基準(zhǔn)。對(duì)于文本到圖像生成,本文使用了 GenEval、DPG-Bench和 WISE。

文本到圖像生成。 對(duì)于文本到圖像生成,本文在專用文本到圖像模型(即主要以文本作為條件并僅生成圖像)上進(jìn)行評(píng)估。(1) 網(wǎng)絡(luò)架構(gòu):本文在實(shí)驗(yàn)中使用了 SANA-0.6B/1.6B。(2) 基準(zhǔn):遵循 SANA 系列,本文使用了GenEval和 DPG-Bench作為評(píng)估指標(biāo)。

多模態(tài)生成模型上的圖像生成

本文通過(guò)在 20B 參數(shù)的 Qwen-Image 系列上實(shí)現(xiàn)具有競(jìng)爭(zhēng)力的 1-NFE 文本到圖像生成,展示了 TWINFLOW 的可擴(kuò)展性。這一突破解決了該領(lǐng)域的一個(gè)關(guān)鍵空白,因?yàn)橐郧暗纳俨椒椒ㄓ捎?GAN 損失在規(guī)模上的不穩(wěn)定性,很少應(yīng)用于超過(guò) 3B 參數(shù)的模型。

本文方法比最先進(jìn)的統(tǒng)一多模態(tài)生成模型具有兩個(gè)關(guān)鍵優(yōu)勢(shì): (a) TWINFLOW 在 Qwen-Image-20B 上以 1-NFE 保持 >0.86 的 GenEval 分?jǐn)?shù):超越了大多數(shù)多步模型(40-100 NFEs),例如 Bagel、MetaQuery。 (b) TWINFLOW 在沒(méi)有任何輔助組件或架構(gòu)修改的情況下實(shí)現(xiàn)了這一點(diǎn),這與需要蒸餾或?qū)iT訓(xùn)練管道的競(jìng)爭(zhēng)性少步方法不同。

本文評(píng)估了 Qwen-Image-TWINFLOW 在幾個(gè)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試上的文本到圖像生成能力:GenEval、DPG-Bench和 WISE。本文模型在所有基準(zhǔn)測(cè)試中僅用 1-NFE 就表現(xiàn)出強(qiáng)大的性能,取得了既有競(jìng)爭(zhēng)力又高效的結(jié)果。

在文本到圖像基準(zhǔn)上進(jìn)行評(píng)估。 如上表 2 所示,Qwen-Image-TWINFLOW 在 GenEval 上取得了 0.86 分,在 DPG-Bench 上取得了 86.52% 的分?jǐn)?shù),僅用 1-NFE 就與原始模型在 100-NFE 下的性能非常接近。與 Qwen-Image-Lightning (一個(gè) 4 步蒸餾模型)相比,本文模型在 GenEval 和 WISE 上僅用 1-NFE 就超越了它。此外,本文模型在 1-NFE 和 2-NFE 設(shè)置下,在 GenEval 和 DPG-Bench 上都優(yōu)于 Qwen-Image-RCGM ,在 1-NFE 設(shè)置下,GenEval 顯著提高了 0.34,DPG-Bench 提高了 27.0%,WISE 提高了 0.25。

本文還將 Qwen-Image-TWINFLOW 與其他著名的多步統(tǒng)一多模態(tài)生成模型進(jìn)行了基準(zhǔn)測(cè)試,例如 MetaQuery-XL、BLIP3-o-8B和 Bagel。本文模型在所有評(píng)估指標(biāo)上,以 1 或 2-NFE 始終超越這些基線。除了 Qwen-Image,本文還將 TWINFLOW 應(yīng)用于 OpenUni,在 1-NFE 設(shè)置下取得了 0.80 的 GenEval 分?jǐn)?shù)和 76.40 的 DPG-Bench 分?jǐn)?shù),這也接近其原始性能。這些發(fā)現(xiàn)強(qiáng)調(diào)了 TWINFLOW 在不同架構(gòu)和規(guī)模上的多功能性和有效性。

對(duì) Qwen-Image 進(jìn)行 20B 全參數(shù)訓(xùn)練的進(jìn)一步探索。 上表 3 展示了 TWINFLOW 在大規(guī)模 Qwen-Image-20B 上進(jìn)行全參數(shù)訓(xùn)練的擴(kuò)展性和性能優(yōu)勢(shì),F(xiàn)有的分布匹配方法,如 VSD、DMD  和 SiD,通常需要維護(hù)三個(gè)獨(dú)立的模型副本(生成器、真實(shí)分?jǐn)?shù)和假分?jǐn)?shù)),導(dǎo)致顯著的內(nèi)存開(kāi)銷。相比之下,TWINFLOW 通過(guò)統(tǒng)一設(shè)計(jì)脫穎而出: (a) 簡(jiǎn)單性和效率: 通過(guò)將生成器、真實(shí)/假分?jǐn)?shù)估計(jì)集成到一個(gè)模型中,TWINFLOW 消除了對(duì)冗余參數(shù)的需求。這允許在 20B 規(guī)模下進(jìn)行全參數(shù)訓(xùn)練。 (b) 性能優(yōu)越性: 憑借這種統(tǒng)一設(shè)計(jì),TWINFLOW 在 Qwen-Image-20B 上超越了所有基線。值得注意的是,與 8 NFE 下運(yùn)行的 sCM和 MeanFlow相比,它僅用 1-2 NFE 就實(shí)現(xiàn)了卓越的生成質(zhì)量。

如下圖 3 所示,是 Qwen-Image 和 Qwem-Image-TWINFLOW 在不同 NFE 下生成的圖像的可視化結(jié)果。Qwen-Image-TWINFLOW 能夠以 1 NFE 生成高質(zhì)量圖像,其性能優(yōu)于原始 Qwen-Image 在 16 NFE 下的表現(xiàn)。此外,將 2 NFE 的結(jié)果與 Qwen-Image 的 32 NFE 輸出進(jìn)行比較時(shí),本文方法在視覺(jué)細(xì)節(jié)方面表現(xiàn)出更好的效果。

關(guān)于開(kāi)源社區(qū)工作的討論。 據(jù)本文所知,Qwen-Image-Lightning是唯一一款在大模型上的開(kāi)源少步模型。它是使用 DMD2開(kāi)發(fā)的,但去除了 GAN 損失。這也間接反映了使用 GAN 損失的高成本。然而,本文觀察到 Qwen-Image-Lightning 存在嚴(yán)重的模式崩潰:當(dāng)給定相同的提示但不同的噪聲輸入時(shí),生成的圖像在多次運(yùn)行中幾乎保持一致。

圖像編輯的探索。 由于資源限制,本文對(duì) TWINFLOW 在圖像編輯方面的能力進(jìn)行了初步探索,使用了大約 15K 編輯對(duì)的小型微調(diào)數(shù)據(jù)集。盡管規(guī)模有限,本文的結(jié)果(參見(jiàn)下表 8)表明 TWINFLOW 可以將 Qwen-Image-Edit轉(zhuǎn)換為一個(gè) 4-NFE 編輯模型。這表明,如果能夠訪問(wèn)更多樣化的編輯數(shù)據(jù)集,本文預(yù)計(jì)在編輯輸出的保真度和多功能性方面都會(huì)有實(shí)質(zhì)性的進(jìn)一步改進(jìn)。

專用文本到圖像模型上的圖像生成

為了驗(yàn)證本文方法的多功能性,本文還在傳統(tǒng)的文本到圖像生成任務(wù)上進(jìn)行了基準(zhǔn)測(cè)試。如上表 4 所示,本文首先與預(yù)訓(xùn)練的多步模型(通常需要 >40-NFE)進(jìn)行了基準(zhǔn)測(cè)試。根據(jù)下表 1 中的分類,本文將與最先進(jìn)的少步模型進(jìn)行比較,根據(jù)它們對(duì)輔助組件的依賴性進(jìn)行分組:使用輔助模型訓(xùn)練的和不使用輔助模型訓(xùn)練的。重要的是,SANA-0.6B/1.6B 骨干網(wǎng)上的全參數(shù)微調(diào)能夠在僅 1-2 NFE 內(nèi)實(shí)現(xiàn)高保真圖像生成。

(a) 1-NFE 設(shè)置: 本文方法的效力在要求更高的 1-NFE 推理設(shè)置中尤為突出。在這里,本文的模型(0.6B:0.83,1.6B:0.81 在 GenEval 上)顯著優(yōu)于其他領(lǐng)先的 1-NFE 方法,例如 SANA-RCGM (0.78)、SANA-Sprint (0.76) 、FLUX-Schnell (0.69) 和 SDXL-DMD2 (0.59)。值得注意的是,本文的 1-NFE TWINFLOW-0.6B (GenEval:0.83) 超過(guò)了 40-NFE SANA-1.5-4.8B模型的生成質(zhì)量,同時(shí)提供了顯著更高的計(jì)算效率。 (b) 2-NFE 設(shè)置: 在 2-NFE 配置中,TWINFLOW-0.6B 實(shí)現(xiàn)了 6.50 樣本/秒的吞吐量和 0.26 秒的延遲,性能指標(biāo)與最初報(bào)告的 SANA 值相當(dāng)。在 GenEval 基準(zhǔn)測(cè)試中,本文模型獲得了 0.84 分,不僅超越了 SANA-Sprint 系列(0.76 和 0.77),而且還超越了強(qiáng)大的多步模型,如 SANA-1.5 (0.81) 和 Playground v3 (0.76)。本文模型在 DPG-Bench 上也表現(xiàn)出有競(jìng)爭(zhēng)力的性能,0.6B 變體和 1.6B 變體分別獲得了 79.7 和 79.6 的分?jǐn)?shù)。

本文的 TWINFLOW-0.6B/1.6B 在 GenEval 基準(zhǔn)測(cè)試上僅使用 1-NFE 就實(shí)現(xiàn)了最先進(jìn)的文本到圖像生成性能,超越了 SANA-Sprint 和 RCGM。雖然本文在 DPG-Bench 上的性能略低于 SANA-Sprint,但這是因?yàn)?SANA-Sprint 依賴于廣泛的專有訓(xùn)練數(shù)據(jù)。本文認(rèn)為這一差距主要是數(shù)據(jù)驅(qū)動(dòng)的,可以通過(guò)在更大、更高質(zhì)量的數(shù)據(jù)集上進(jìn)行訓(xùn)練來(lái)有效彌補(bǔ)。

消融研究與分析

 的影響。 如前文所述, 旨在控制  和  的樣本分布。如上圖 4a 所示,本文可視化了 1-NFE 和 2-NFE 下 DPG-Bench 性能隨  的變化。本文觀察到,隨著  從 0 增加,DPG-Bench 的性能最初增加,然后下降,在大約  時(shí)達(dá)到峰值。這些結(jié)果表明,在局部批次中適當(dāng)平衡樣本有助于提高模型性能。

 對(duì)不同模型的影響。 本文進(jìn)行了一項(xiàng)消融研究,以分析在不同模型上使用  對(duì)文本到圖像性能的影響。如上圖 4b 所示,引入  顯著提高了性能:它改善了 OpenUni、SANA,尤其是 Qwen-Image(從 59.50 到 86.52)在文本到圖像任務(wù)上的 1-NFE 性能。

訓(xùn)練步數(shù)與 NFE 的關(guān)系。 如上圖 4c 所示,實(shí)驗(yàn)結(jié)果表明,隨著訓(xùn)練步數(shù)的增加,最佳采樣步數(shù)的“舒適區(qū)”也相應(yīng)地發(fā)生變化。值得注意的是,在 1 步和少步采樣場(chǎng)景中都觀察到了 GenEval 性能的改進(jìn),并且隨著訓(xùn)練的進(jìn)行,取得了顯著的收益,這表明了  的有效性。

結(jié)論與局限性

TWINFLOW,一個(gè)用于訓(xùn)練大型少步連續(xù)生成模型的簡(jiǎn)單而有效的框架。與 DMD 系列等其他少步方法相比,本文方法因其高度的簡(jiǎn)單性而脫穎而出,因?yàn)樗藢?duì) GAN 判別器或凍結(jié)教師模型等輔助訓(xùn)練組件的需求。這種設(shè)計(jì)允許對(duì)大模型進(jìn)行直接的 1 步或少步訓(xùn)練,使其特別易于訪問(wèn)和高效。通過(guò)在不同規(guī)模和任務(wù)上進(jìn)行的大量實(shí)驗(yàn),本文證明了 TWINFLOW 在大模型上的文本到圖像合成中提供了高質(zhì)量的生成能力。盡管取得了這些有希望的結(jié)果,但仍有幾個(gè)局限性需要解決。首先,TWINFLOW 對(duì)圖像編輯等更多樣化任務(wù)的可擴(kuò)展性尚未得到有效探索。其次,其對(duì)視頻和音頻生成等更多樣化模態(tài)的適應(yīng)性需要進(jìn)一步驗(yàn)證。解決這些挑戰(zhàn)可以顯著提高 TWINFLOW 在更廣泛上下文中的適用性和性能,為更健壯和多功能的生成模型鋪平道路。

參考文獻(xiàn)

[1] TWINFLOW: REALIZING ONE-STEP GENERATION ON LARGE MODELS WITH SELF-ADVERSARIAL FLOWS

       原文標(biāo)題 : 1步頂100步!TwinFlow:無(wú)需教師模型,僅單步推理,Qwen-Image-20B生成速度漲100倍!

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)