訂閱
糾錯(cuò)
加入自媒體

僅用1張圖1小時(shí),比肩FLUX.1和Qwen,推理狂飆5倍!Glance用“快慢哲學(xué)”顛覆擴(kuò)散模型!

作者:Zhuobai Dong等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

極致高效的訓(xùn)練:僅需 1 個(gè)樣本,在 單張 V100 GPU 上不到 1 小時(shí) 即可完成訓(xùn)練。這與需要數(shù)千GPU小時(shí)(如 DMD2 需要 3840 小時(shí))的傳統(tǒng)方法形成鮮明對(duì)比。

非均勻加速策略:提出了“慢-快”(Slow-Fast)的分階段加速策略,針對(duì)擴(kuò)散模型的語(yǔ)義生成階段和細(xì)節(jié)優(yōu)化階段采用不同的加速比,比均勻加速更符合模型特性。

即插即用:無(wú)需重新訓(xùn)練龐大的學(xué)生網(wǎng)絡(luò),而是通過(guò)兩個(gè)輕量級(jí)的 LoRA適配器掛載在凍結(jié)的基礎(chǔ)模型上實(shí)現(xiàn)加速,且具有極強(qiáng)的泛化能力。圖1. 數(shù)據(jù)使用量與訓(xùn)練時(shí)長(zhǎng)對(duì)比。Glance僅需1個(gè)訓(xùn)練樣本并在1個(gè)GPU小時(shí)內(nèi)即可實(shí)現(xiàn)相當(dāng)?shù)纳少|(zhì)量,展現(xiàn)出極致的數(shù)據(jù)與計(jì)算效率。請(qǐng)注意橫軸采用對(duì)數(shù)刻度,因此零值無(wú)法在圖中直接表示。圖1. 數(shù)據(jù)使用量與訓(xùn)練時(shí)長(zhǎng)對(duì)比。Glance僅需1個(gè)訓(xùn)練樣本并在1個(gè)GPU小時(shí)內(nèi)即可實(shí)現(xiàn)相當(dāng)?shù)纳少|(zhì)量,展現(xiàn)出極致的數(shù)據(jù)與計(jì)算效率。請(qǐng)注意橫軸采用對(duì)數(shù)刻度,因此零值無(wú)法在圖中直接表示。

解決的問(wèn)題

推理成本高:擴(kuò)散模型生成高質(zhì)量圖像通常需要大量的推理步驟(如 50 步),導(dǎo)致計(jì)算成本高昂,限制了應(yīng)用。

蒸餾成本高昂且難微調(diào):現(xiàn)有的少步數(shù)蒸餾方法(如 LCM, DMD2 等)需要昂貴的重新訓(xùn)練成本和大規(guī)模數(shù)據(jù)集。此外,直接微調(diào)蒸餾后的模型往往會(huì)導(dǎo)致生成結(jié)果模糊。

泛化性與效率的平衡:如何在極少數(shù)據(jù)(甚至單樣本)和極低算力下,實(shí)現(xiàn)不損失質(zhì)量的推理加速。圖2:蒸餾與加速策略對(duì)比,F(xiàn)有蒸餾流程依賴(lài)大規(guī)模訓(xùn)練集和高成本重復(fù)訓(xùn)練,而Glance僅需單一樣本即可獲得慢速與快速雙適配器,為基礎(chǔ)生成模型提供即插即用的加速方案。圖2:蒸餾與加速策略對(duì)比,F(xiàn)有蒸餾流程依賴(lài)大規(guī)模訓(xùn)練集和高成本重復(fù)訓(xùn)練,而Glance僅需單一樣本即可獲得慢速與快速雙適配器,為基礎(chǔ)生成模型提供即插即用的加速方案。

提出的方案

Glance 框架:基于擴(kuò)散過(guò)程包含“早期語(yǔ)義階段”和“晚期冗余階段”的觀察,設(shè)計(jì)了分階段的加速方案。

Slow-Fast LoRA 專(zhuān)家

Slow-LoRA:在早期階段以較低的倍率加速(保留更多步驟),確保全局結(jié)構(gòu)的準(zhǔn)確構(gòu)建。

Fast-LoRA:在晚期階段以較高的倍率加速(大幅跳步),快速完成紋理細(xì)化。

流匹配監(jiān)督:利用流匹配(Flow Matching)目標(biāo)函數(shù),使 LoRA 適配器直接學(xué)習(xí)加速后的去噪軌跡速度場(chǎng)。圖3:慢-快范式可視化示意圖。在慢速階段,我們從前20個(gè)時(shí)間步中每?jī)刹讲蓸右淮危ü搏@得5個(gè)樣本);在快速階段,則從剩余40個(gè)步中均勻采樣額外5個(gè)時(shí)間步。推理過(guò)程中,慢速階段的時(shí)間步將優(yōu)先于快速階段執(zhí)行。圖3:慢-快范式可視化示意圖。在慢速階段,我們從前20個(gè)時(shí)間步中每?jī)刹讲蓸右淮危ü搏@得5個(gè)樣本);在快速階段,則從剩余40個(gè)步中均勻采樣額外5個(gè)時(shí)間步。推理過(guò)程中,慢速階段的時(shí)間步將優(yōu)先于快速階段執(zhí)行。

應(yīng)用的技術(shù)

LoRA (Low-Rank Adaptation) :利用低秩矩陣微調(diào)技術(shù),避免全參數(shù)訓(xùn)練,極大降低顯存和計(jì)算需求。

Flow Matching (流匹配) :直接回歸目標(biāo)速度場(chǎng),相比于分?jǐn)?shù)匹配(Score Matching),在少樣本下能更高效地提取結(jié)構(gòu)知識(shí)。

Phase-Aware Strategy (階段感知策略) :基于信噪比或時(shí)間步將去噪過(guò)程劃分為不同區(qū)域,分別訓(xùn)練專(zhuān)門(mén)的專(zhuān)家模型。

達(dá)到的效果

加速比:在 FLUX.1-12B 和 Qwen-Image-20B 模型上實(shí)現(xiàn)了 5 倍加速(8-10 步推理)。

質(zhì)量保持:在 OneIG-Bench、HPSv2 和 GenEval 等基準(zhǔn)測(cè)試中,性能分別達(dá)到教師模型的 92.60%、99.67% 和 96.71%,在視覺(jué)質(zhì)量上幾乎無(wú)損。

泛化能力:盡管僅用 1 張圖片訓(xùn)練,模型在未見(jiàn)過(guò)的提示詞和復(fù)雜場(chǎng)景(如文字渲染、不同風(fēng)格)上仍表現(xiàn)出驚人的泛化能力。

方法

Glance,這是一個(gè)階段感知(phase-aware)的加速框架,旨在通過(guò)“慢-快”(slow-fast)范式同時(shí)提高擴(kuò)散模型的效率和適應(yīng)性。首先一起回顧下擴(kuò)散模型和流匹配(flow-matching)的公式作為預(yù)備知識(shí),然后描述本文提出的階段感知 LoRA 專(zhuān)家及其學(xué)習(xí)目標(biāo)。

預(yù)備知識(shí)

擴(kuò)散與流匹配 (Diffusion and Flow Matching)擴(kuò)散模型通過(guò)逐步將噪聲轉(zhuǎn)化為數(shù)據(jù),學(xué)習(xí)通過(guò)參數(shù)化的去噪過(guò)程來(lái)擬合數(shù)據(jù)分布。流匹配公式將擴(kuò)散解釋為學(xué)習(xí)一個(gè)連續(xù)的速度場(chǎng),該場(chǎng)將樣本從高斯噪聲  傳輸?shù)角鍧崝?shù)據(jù) 。在時(shí)間步  時(shí),中間狀態(tài)定義為 ,模型在給定條件 (例如文本嵌入)的情況下預(yù)測(cè)傳輸速度 。目標(biāo)是預(yù)測(cè)速度與目標(biāo)速度之間的均方誤差:

其中  是真實(shí)速度(groundtruth velocity)。為了獲得卓越的性能,擴(kuò)散模型通常設(shè)計(jì)有大量的網(wǎng)絡(luò)參數(shù),并在大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。顯而易見(jiàn),為了減少步數(shù)而蒸餾如此巨大的模型在計(jì)算上是非常昂貴的。

低秩適應(yīng) (Low-Rank Adaptation)為了緩解上述困難,LoRA最近被應(yīng)用于目標(biāo)數(shù)據(jù)上的擴(kuò)散模型快速蒸餾。具體而言,LoRA 引入了一個(gè)額外矩陣的低秩分解,,其中  表示凍結(jié)的預(yù)訓(xùn)練參數(shù),而低秩矩陣  和 (其中 )構(gòu)成了可學(xué)習(xí)的 LoRA 參數(shù)。

用于分階段去噪的階段感知 LoRA 專(zhuān)家

為了加速預(yù)訓(xùn)練擴(kuò)散模型的去噪過(guò)程,同時(shí)保持生成質(zhì)量,本文保留了預(yù)訓(xùn)練參數(shù) ,并引入了一種緊湊但有效的增強(qiáng)方案:一組階段特定的 LoRA 適配器(phase-specific LoRA adapters)。每個(gè)適配器專(zhuān)門(mén)負(fù)責(zé)去噪軌跡中的特定階段,使模型能夠在推理過(guò)程中根據(jù)不同的噪聲水平和語(yǔ)義復(fù)雜性進(jìn)行動(dòng)態(tài)調(diào)整。

超越均勻時(shí)間步劃分 (Beyond uniform timestep partitioning)先前的工作,如 Timestep Master,已經(jīng)展示了使用在不同時(shí)間步間隔上訓(xùn)練的多個(gè) LoRA 適配器的潛力。然而,均勻劃分假設(shè)所有時(shí)間步的貢獻(xiàn)是相等的,這與擴(kuò)散動(dòng)力學(xué)內(nèi)在的非均勻性相矛盾。實(shí)證分析以及先前的研究揭示了不同的時(shí)間步表現(xiàn)出明顯不同的語(yǔ)義重要性水平:在早期的、高噪聲機(jī)制中,模型主要重建粗糙的全局結(jié)構(gòu)和高級(jí)語(yǔ)義(低頻信息);相比之下,后期的、低噪聲機(jī)制則專(zhuān)注于細(xì)化紋理和細(xì)節(jié)(高頻信息)。

基于 SNR 的階段感知?jiǎng)澐?(Phase-aware partitioning via SNR)為了更好地將專(zhuān)家專(zhuān)業(yè)化與擴(kuò)散過(guò)程的內(nèi)在動(dòng)力學(xué)對(duì)齊,我們引入了一種由信噪比(SNR)指導(dǎo)的階段感知?jiǎng)澐植呗。與時(shí)間步索引不同,SNR 提供了一個(gè)物理上更有意義的信號(hào)與噪聲相對(duì)主導(dǎo)地位的度量,并且隨著去噪的進(jìn)行單調(diào)遞減。在過(guò)程開(kāi)始時(shí)( 較大,高噪聲階段),潛在表示由低 SNR 的噪聲主導(dǎo),使得粗糙結(jié)構(gòu)恢復(fù)成為主要目標(biāo)。相反,隨著  減小且 SNR 上升,模型過(guò)渡到一個(gè)專(zhuān)注于紋理細(xì)化的低噪聲機(jī)制。

基于這一觀察,我們定義了一個(gè)對(duì)應(yīng)于 SNR 閾值(例如,初始 SNR 值的一半)的過(guò)渡邊界 。然后采用兩個(gè)特定階段的專(zhuān)家:一個(gè)專(zhuān)門(mén)用于高噪聲階段()的慢速專(zhuān)家,專(zhuān)注于粗糙語(yǔ)義重建;以及一個(gè)用于低噪聲階段()的快速專(zhuān)家,用于增強(qiáng)細(xì)粒度細(xì)節(jié)。這種 SNR 引導(dǎo)的劃分允許每個(gè)專(zhuān)家在其最有效的機(jī)制中運(yùn)行,形成了去噪過(guò)程的語(yǔ)義上有意義的分解。

極小訓(xùn)練集的驚人有效性 (Surprising effectiveness of extremely small training sets)為了評(píng)估分階段 LoRA 是否可以恢復(fù)加速推理,我們最初使用僅 10 個(gè)訓(xùn)練樣本進(jìn)行了一個(gè)過(guò)擬合風(fēng)格的實(shí)驗(yàn)。出乎意料的是,模型迅速學(xué)習(xí)到了加速采樣軌跡的忠實(shí)近似。更為顯著的是,將數(shù)據(jù)集減少到僅單個(gè)訓(xùn)練樣本仍然產(chǎn)生了一種穩(wěn)定的加速行為。

我們將這種數(shù)據(jù)效率歸因于流匹配(flow matching)的本質(zhì)。通過(guò)直接預(yù)測(cè)沿?cái)U(kuò)散軌跡的目標(biāo)速度場(chǎng),訓(xùn)練目標(biāo)繞過(guò)了冗余的分?jǐn)?shù)匹配(score-matching)步驟。因此,即使只有幾個(gè)示例,也能從中提取出用于快速推理的基本結(jié)構(gòu)知識(shí)。

精心設(shè)計(jì)的時(shí)間步跳過(guò)的必要性 (Necessity of carefully designed timestep skipping)盡管這種數(shù)據(jù)效率前景廣闊,但隨后的消融研究表明,時(shí)間步的跳過(guò)絕非任意的。雖然少步數(shù)的學(xué)生模型可以在總體上模仿教師模型的行為,但并非所有時(shí)間步對(duì)重建動(dòng)力學(xué)的貢獻(xiàn)都是相等的;天真的跳過(guò)策略可能會(huì)嚴(yán)重降低性能。為此,我們對(duì)不同的專(zhuān)門(mén)化方案進(jìn)行了全面調(diào)查。我們首先探索了為慢速階段 LoRA 適配器分配多個(gè)時(shí)間步,同時(shí)為快速階段保留單個(gè)適配器,反之亦然。我們還測(cè)試了一種退化配置,即在整個(gè)軌跡上訓(xùn)練單個(gè) LoRA。然而,這些變體要么缺乏表達(dá)能力來(lái)捕捉高噪聲的復(fù)雜性,要么未能利用低噪聲細(xì)化階段的時(shí)間局部性。

實(shí)驗(yàn)最終表明,將軌跡分離為專(zhuān)用的慢速區(qū)域和專(zhuān)用的快速區(qū)域會(huì)產(chǎn)生最穩(wěn)健的專(zhuān)門(mén)化效果。這種設(shè)計(jì)保留了足夠的容量來(lái)建模具有挑戰(zhàn)性的高噪聲動(dòng)力學(xué),同時(shí)在后續(xù)步驟中實(shí)現(xiàn)輕量級(jí)細(xì)化,從而實(shí)現(xiàn)了一種緊湊而有效的加速機(jī)制。

流匹配監(jiān)督 (Flow-matching supervision)每個(gè)特定階段的 LoRA 專(zhuān)家都在流匹配監(jiān)督方案下進(jìn)行訓(xùn)練,該方案將其預(yù)測(cè)的去噪方向與底層數(shù)據(jù)流對(duì)齊。給定擴(kuò)散過(guò)程中獲得的噪聲潛在變量 ,模型預(yù)測(cè)一個(gè)速度場(chǎng) ,該速度場(chǎng)受到真實(shí)流向量  的監(jiān)督。訓(xùn)練目標(biāo)定義為加權(quán)均方誤差:

其中  表示可選的時(shí)間步相關(guān)加權(quán)函數(shù)。通過(guò)將每個(gè)專(zhuān)家的訓(xùn)練樣本限制在其分配的去噪階段,模型有效地學(xué)會(huì)了專(zhuān)注于不同的噪聲水平。由此產(chǎn)生的階段感知 LoRA 專(zhuān)家混合體共同提高了去噪速度和生成質(zhì)量,構(gòu)成了我們提出的慢-快(slow-fast)范式的基礎(chǔ)。

實(shí)驗(yàn)

本節(jié)介紹了 Glance 在文本到圖像生成任務(wù)上的綜合評(píng)估。首先報(bào)告與競(jìng)爭(zhēng)基線(xiàn)的定量結(jié)果比較,隨后是詳細(xì)的消融分析。然后討論模型的泛化行為及其對(duì)數(shù)據(jù)規(guī)模的敏感性。

實(shí)驗(yàn)設(shè)置

蒸餾設(shè)置 (Distillation Setup)。 將兩個(gè)大規(guī)模文本到圖像生成器 FLUX.1-12B和 Qwen-Image-20B蒸餾為緊湊的 Slow-Fast 學(xué)生模型。在蒸餾過(guò)程中,從教師繼承的基礎(chǔ)參數(shù)保持凍結(jié),僅優(yōu)化 LoRA 適配器。遵循 Qwen-Image-Distill-LoRA,將適配器的放置擴(kuò)展到標(biāo)準(zhǔn)注意力投影之外。具體而言,LoRA 模塊不僅注入到查詢(xún)(query)、鍵(key)、值(value)和輸出投影中,還注入到視覺(jué)和文本分支的輔助投影層和模態(tài)特定的 MLP 中。這種更廣泛的集成使學(xué)生能夠更有效地捕捉跨模態(tài)依賴(lài)關(guān)系,并在容量緊湊的情況下保持生成保真度。

評(píng)估協(xié)議 (Evaluation protocol)。 對(duì)來(lái)自三個(gè)不同提示集的高分辨率  圖像生成進(jìn)行全面評(píng)估:(a) 來(lái)自 COCO 2014 驗(yàn)證集的 10K 標(biāo)題,(b) 來(lái)自 HPSv2 基準(zhǔn)的 3200 個(gè)提示,(c) 來(lái)自 OneIG-Bench的 1120 個(gè)提示,(d) 來(lái)自 GenEval 基準(zhǔn)的 553 個(gè)提示,(e) 來(lái)自 DPG-Bench的 1065 個(gè)提示,以及 (f) 來(lái)自 LongText-Bench的 160 個(gè)提示。對(duì)于 COCO 和 HPSv2 集,我們報(bào)告常見(jiàn)指標(biāo),包括 FID、補(bǔ)丁 FID (pFID)、CLIP 相似度、VQAScore和 HPSv2.1。在 COCO 提示上,F(xiàn)ID 是針對(duì)真實(shí)圖像計(jì)算的,反映數(shù)據(jù)對(duì)齊。在 HPSv2 上,CLIP 和 VQAScore 衡量提示對(duì)齊,而 HPSv2 捕捉人類(lèi)偏好對(duì)齊。對(duì)于 OneIG-Bench、GenEval、DPG-Bench 和 LongText-Bench,采用其官方評(píng)估協(xié)議并基于其各自的基準(zhǔn)指標(biāo)報(bào)告結(jié)果。

主要結(jié)果

性能曲線(xiàn):Glance 的性能曲線(xiàn)(圖4)緊密貼合基礎(chǔ)模型,表明加速后的行為高度一致。

定量對(duì)比:在 OneIG-Bench、HPSv2 和 GenEval 上,Glance 分別達(dá)到了教師模型 92.60%、99.67% 和 96.71% 的性能。即使與需要數(shù)千 GPU 小時(shí)訓(xùn)練的方法(如 DMD2, Qwen-Image-Lightning)相比,僅訓(xùn)練 1 小時(shí)的 Glance 也展現(xiàn)出可比甚至更優(yōu)的效果。

視覺(jué)質(zhì)量:定性對(duì)比(圖5)顯示,Glance 在 8 步推理下保留了語(yǔ)義完整性,而其他 4 步模型(如 Lightning)可能在細(xì)節(jié)上有所欠缺。

消融研究

Slow-Fast 設(shè)計(jì):對(duì)比了多種時(shí)間步分配策略,結(jié)果顯示“慢速階段3步 + 快速階段5步”的非對(duì)稱(chēng)配置優(yōu)于均勻分布或單模型配置,證明了針對(duì)性加速的必要性。數(shù)據(jù)規(guī)模:將訓(xùn)練樣本從 1 個(gè)增加到 100 個(gè)并未帶來(lái)顯著提升,說(shuō)明數(shù)據(jù)的質(zhì)量和階段對(duì)齊比單純的數(shù)據(jù)量更關(guān)鍵。時(shí)間步覆蓋:更多的 LoRA 適配時(shí)間步能帶來(lái)更好的文本渲染和整體質(zhì)量。

結(jié)論

Glance框架采用輕量級(jí)蒸餾架構(gòu),通過(guò)相位感知的"慢-快"設(shè)計(jì)加速擴(kuò)散模型推理。研究發(fā)現(xiàn),LoRA適配器能夠有效區(qū)分去噪過(guò)程的不同階段,從而高效捕捉全局語(yǔ)義與局部細(xì)節(jié)。該框架僅需八步即可實(shí)現(xiàn)高質(zhì)量圖像生成,相比基礎(chǔ)模型獲得5倍加速。盡管僅使用單張圖像和數(shù)小時(shí)GPU訓(xùn)練,Glance仍能保持相當(dāng)?shù)囊曈X(jué)保真度,并對(duì)未見(jiàn)提示詞展現(xiàn)出強(qiáng)大泛化能力。這些結(jié)果表明,數(shù)據(jù)與算力高效的蒸餾方法能夠保持大型擴(kuò)散模型的表現(xiàn)力而不犧牲質(zhì)量。相信Glance可作為加速大規(guī)模擴(kuò)散模型的優(yōu)選方案,在數(shù)據(jù)稀缺場(chǎng)景中尤具應(yīng)用潛力。

參考文獻(xiàn)

[1] Glance: Accelerating Diffusion Models with 1 Sample

       原文標(biāo)題 : 僅用1張圖1小時(shí),比肩FLUX.1和Qwen,推理狂飆5倍!Glance用“快慢哲學(xué)”顛覆擴(kuò)散模型!

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)