123,123,123

<source id="840wl"></source>

<sub id="840wl"></sub>

<i id="840wl"></i>

當前位置： OFweek 人工智能網(wǎng) > 正文

CVPR 2026｜“全能AI海報設計師”PosterOmni開源: 6大任務笑傲開源社區(qū)，媲美閉源商用

2026-02-26 15:04

作者：Sixiang Chen等

解讀：AI生成未來

很多AI 海報生成默認從一句 prompt 出發(fā)（Text-to-Poster）。但在真實設計流程里，更常見的起點其實是一張參考圖/舊海報/產(chǎn)品主視覺：你希望在保留關鍵主體的前提下，完成擴圖、補全、改比例、換風格、換布局等操作，最終得到一張“更像成品海報”的結果。

PosterOmni 圍繞的核心一句話是：

one model for generalized multi-task image/poster-to-poster generation

用同一個開源模型，統(tǒng)一覆蓋常見設計側需求：既能做精細編輯，也能做高層次的風格與版式再創(chuàng)作。

傳統(tǒng)很多方案更像“一套修圖工具 + 一套生成工具”拼在一起，能做但經(jīng)常割裂；

PosterOmni 更像一個“從參考稿出發(fā)的設計助理”：你給它一張參考圖，它既能細修，又能按風格/布局意圖重構。

亮點直擊

1）統(tǒng)一“圖生海報”范式：一個模型覆蓋六類典型設計任務

PosterOmni 不把海報能力拆成多個模型/插件，而是把 image/poster-to-poster 的典型需求系統(tǒng)化為 6 類任務，并統(tǒng)一在單一模型中：

局部編輯（精修類）：Extend（擴圖）、Fill（補全）、Rescale（改比例）、Identity-driven（ID 保持）

全局創(chuàng)作（再設計類）：Style-driven（風格參考）、Layout-driven（布局參考）

重點不在“任務列表”，而在它們共同對應一個現(xiàn)實工作流：

給定參考圖/舊海報 → 按需求做編輯/重排/換風格/換布局 → 輸出新海報。

2）“數(shù)據(jù)—蒸餾—獎勵”閉環(huán)：讓 one model 同時兼顧精修與創(chuàng)作，減少多任務互相干擾

多任務最難的問題之一是干擾：局部編輯強調像素一致、主體自然保持；全局創(chuàng)作強調整體風格抽象與版式結構的重創(chuàng)作。直接混在一起訓練，常見結果是模型“都會一點，但不夠穩(wěn)定”。

PosterOmni 的訓練路線更克制：

先分別訓練局部編輯專家與全局創(chuàng)作專家

再用任務蒸餾融合能力到一個學生模型（PosterOmni-SFT）

最后引入統(tǒng)一獎勵與強化學習，把“審美偏好”和“編輯精度/指令遵循”一起對齊

3）PosterOmni-Bench：用統(tǒng)一基準把“設計側常見需求”比清楚

我們建立了多任務基準 PosterOmni-Bench（中英文共 1020 條測試提示，覆蓋六任務），并進行系統(tǒng)評測。結果顯示 PosterOmni 在六類任務上整體更均衡，尤其在需要高階理解的布局遷移/風格遷移上提升更明顯；在改比例/ID 保持等局部任務上也更穩(wěn)定。在公平的評測與打分方式下，整體表現(xiàn)也超過了部分先進的商業(yè)系統(tǒng)，與最先進的商業(yè)模型較為接近。

總覽：PosterOmni 能解決哪些“設計側常見需求”？

真實工作流的“雙重挑戰(zhàn)”：比例要改、版式要動；風格要學、內容不能抄；主體要穩(wěn)、細節(jié)要自然

PosterOmni 聚焦的并不是“生成一張好看的圖”，而是更接近設計側的需求組合。

例如:

Rescale（改比例）：不是簡單裁剪/拉伸，而是更接近“比例變了，布局跟著重排”。比如把豎版活動海報改成方圖社媒封面，標題層級、留白、元素間距需要一起調整，同時主體不能漂。

Style-driven（風格參考）：在保留user prompt需求的同時，更希望學到“配色/質感/光影/字體氣質”等抽象風格，而不是把參考圖的具體元素直接 copy 過去（現(xiàn)存的商業(yè)模型在某些場景下也容易出現(xiàn)這種“拼貼式拷貝”的現(xiàn)象）。

Layout-driven（布局參考）：在保留user prompt需求的同時，復用的是結構邏輯（視覺中心、信息分區(qū)、層級關系），而不是硬套模板導致生硬拼裝。

PosterOmni 把“精修”和“再設計”都放進同一個 image/poster-to-poster 引擎里，讓常見設計操作可以在一個模型內完成。

方法論

PosterOmni 的核心目標，是把真實設計里常見的“一張參考圖 + 一句指令”統(tǒng)一成 one model for generalized multi-task image/poster-to-poster generation：既能做局部精修（比如擴圖、補全、縮放、ID保持），也能做全局創(chuàng)作（布局遷移、風格遷移），并且在同一個模型里做到“既改得準、又改得好看”。

為了讓同一個模型同時具備這兩類能力，我們設計了一條完整的數(shù)據(jù)—專家—蒸餾的SFT訓練管線，在最后用 Omni-Edit 強化學習把“審美”和“任務完成度”一起對齊，避免常見的多任務互相干擾。

階段 1：自動化數(shù)據(jù)構建與 PosterOmni-200K

高質量、多任務、可控的配對數(shù)據(jù)，是統(tǒng)一模型的地基。PosterOmni 先用一套全自動合成管線生成 PosterOmni-200K，并同步構建評測集 PosterOmni-Bench。整個數(shù)據(jù)構建流程把“創(chuàng)意提示生成—候選圖生成—多模態(tài)過濾—任務特定配對”串成一個閉環(huán)：先生成具有真實海報語境的 prompts 和 base images，再做嚴格篩選，最后按任務生成輸入輸出對再過濾，組成訓練與評測數(shù)據(jù)套件。

(1) 提示詞與基圖生成（更像“真實設計 brief”）

PosterOmni不是用簡單 caption，而是組合“主體/品類 + 場景 + 風格標簽”，再讓 VLM（如 GPT、Qwen3）寫成帶排版與美學約束的結構化提示（例如標題/副標題/位置、整體風格意圖等），再用強 T2I 生成器（如 Qwen-Image 等）渲染多個候選圖，提前剔除缺主體、文字崩壞、布局塌陷的樣本。

這一步的意義是：讓后續(xù)所有任務都圍繞“設計側真實需求”展開，而不只是通用圖像編輯。

(2) 多模態(tài)過濾（保證“能訓練、也能評測”）

合成數(shù)據(jù)最大的問題不是規(guī)模，而是噪聲。我們做了分層過濾：

訓練集：用 PaddleOCR 做文字可讀性/關鍵詞一致性檢查，再用 Jina-clip-v2 做圖文一致性，去掉錯字、錯語種、錯語義、排版不合理樣本。

評測集：在 OCR 之外再引入 Gemini-2.5-Flash 判斷“任務適配性”（例如布局遷移任務必須有可解析的布局結構），保證 benchmark 的可比性與可靠性。同時用 SAM-2 做分割/區(qū)域生成，為后續(xù)“填充/擴圖”等任務提供 mask 級監(jiān)督信號。

(3) 六類任務的配對構建（把常見設計需求“落到數(shù)據(jù)上”）

在通過過濾的“文本→海報”基語料上，我們按六類任務生成 image/poster-to-poster 的訓練對：Extending / Filling / Rescaling / ID-driven / Layout-driven / Style-driven，分別對應空間補全、比例重排、主體一致性、布局復用與風格遷移等真實需求。并在后續(xù)使用VLM/人工過濾保證每個任務的質量。

實現(xiàn)上，每個任務走一個模塊化的數(shù)據(jù)構建器：

extending/filling 用 SAM2 生成局部區(qū)域或缺失 mask；

rescaling 用 BrushNet 類/閉源方法構造“比例變化→內容重排”的監(jiān)督對；

ID-driven 用 PaddleDet 抽主體并結合強編輯器形成“保 ID 的變化”；

layout/style-driven 則通過 prompt-controlled rerendering 構造“復用布局/風格但不復制內容”的訓練對。

階段 2：任務蒸餾（先分治，再統(tǒng)一：讓“精修”和“創(chuàng)作”在一個模型里共存）

直接把六個任務混在一起訓練，最容易出現(xiàn)的就是任務干擾：局部任務追求像素對齊，全局任務追求構圖與風格抽象，兩者在同一參數(shù)空間里會互相拉扯，導致模型難以優(yōu)化收斂。PosterOmni 的做法是：先訓練專家，再蒸餾到學生模型。

(1) 專家訓練：局部專家 + 全局專家

局部編輯專家：側重 extending / filling / rescaling / ID-driven，強調實體一致性、邊界自然、文字清晰等“可控編輯”。

全局創(chuàng)作專家：側重 layout-driven / style-driven，學習抽象布局邏輯與風格調性，輸出更像“重新設計”的結果。

同時，我們還會引入輔助文本渲染相關的訓練信號，避免模型在專注某些編輯任務時犧牲文字可讀性（因為海報任務里“寫對字”是底線能力）。

(2) 蒸餾到單一學生：PosterOmni-SFT

最終統(tǒng)一模型不是靠“參數(shù)硬融合”，而是訓練一個學生網(wǎng)絡去對齊專家的速度場/預測行為：總損失由兩部分組成——

一部分是輔助文本渲染損失（保證文字穩(wěn)定、清晰）；

另一部分是任務蒸餾損失（讓學生輸出逼近對應任務專家的輸出）。

論文里把它寫成一個總目標（含 Auxiliary Text Rendering Loss + Task Distillation Loss），學生的預測記作，專家輸出記作，從而把“局部精修的確定性”和“全局創(chuàng)作的生成性”一起遷移進同一個 backbone。

這一階段結束后的 PosterOmni-SFT，可以理解成“一個模型同時繼承了兩類老師的長處”：既能做嚴格受控的局部編輯，又能執(zhí)行抽象的布局/風格指令，而不是依賴多個模型串聯(lián)。

階段 3：統(tǒng)一獎勵模型訓練（：把“好看 + 做對任務”變成可優(yōu)化信號）

監(jiān)督微調能讓模型“學會做”，但很難讓模型“學會做得更好看、更像設計師”。不同于 SFT 階段往往存在“審美、保真、任務目標”等目標相互拉扯的情況，最終海報的評價在各個子任務之間其實共享一套通用原則（如構圖平衡、層級清晰、色彩和諧、文本可讀性等）于是我們訓練一個統(tǒng)一獎勵模型，同時輸出通用審美與任務特定完成度的綜合獎勵，用來驅動后面的強化學習。

(1) 偏好數(shù)據(jù)怎么來

我們用 PosterOmni-SFT 對同一條 image-to-poster prompt 生成成對結果，先用 Gemini-2.5-Pro 做篩選，再讓標注者選擇“更美觀且更符合任務”的那張。更關鍵的是，我們加入了一個很實用的 negative-pair 策略：把“輸入?yún)⒖紙D”當作 rejected，把“模型編輯后的輸出”當作 chosen，強迫獎勵模型認識到“有意義的改動”本身也是價值，避免模型在某些任務里學會投機——比如 layout/style 任務里直接把參考圖 copy 過去。

(2) 模型形式與訓練目標

基于 Qwen3-VL 編碼器 + 輕量 MLP head，同時編碼“視覺質量 + 指令 + 任務類型”，用 Bradley–Terry 目標把偏好對轉成可優(yōu)化的排序損失：促使 chosen 的分數(shù)高于 rejected。

結果就是：學到的不只是“好看”，還學到“對這個任務來說什么算做對、什么算偷懶”。

階段 4：Omni-Edit 強化學習

有了獎勵模型之后，關鍵問題是：如何把獎勵真正“寫回”擴散/流匹配模型里，并且訓練穩(wěn)定。PosterOmni 沿用 DiffusionNFT 這類思路：不走傳統(tǒng)逆過程的策略梯度（容易不穩(wěn)定），而是在正向擴散過程上做直接優(yōu)化，用一種對比式 diffusion loss 把速度預測器推向高獎勵行為、遠離低獎勵行為。DiffusionNFT 會從舊策略構造隱式正/負策略、，并用獎勵加權的目標函數(shù)，把更新方向穩(wěn)定地約束在“更高獎勵”的區(qū)域；獎勵還會做歸一化以穩(wěn)定尺度。

DiffusionNFT 本身提供的是“在正向擴散/流匹配過程中做對比式更新”的穩(wěn)定范式；我們的貢獻在于把它適配到 image-to-poster 的條件輸入形式（輸入圖 + 指令 + 任務類型），并形成一套可落地的 Omni-Edit RL 訓練流程：讓速度預測器在同一訓練機制下同時處理“局部編輯 + 全局創(chuàng)作”的兩類任務。

很多工作會直接把強 VLM 的 logits / 打分當作通用編輯獎勵，但這類獎勵往往不理解 poster 任務的“完成標準”，容易出現(xiàn)“看起來像、但沒按任務做”的投機解。PosterOmni 的核心區(qū)別是：我們用給出 task-aware 的分數(shù)，在統(tǒng)一的獎勵尺度下同時編碼審美質量與任務對齊/完成度，從而讓 RL 更新方向不僅“更好看”，也“更像完成這個任務”。

Poster 評價在跨任務上有大量共性（構圖平衡、層級、可讀性、配色等），因此我們用統(tǒng)一獎勵模型去優(yōu)化這些共享質量維度；同時通過 task tags / task descriptions 把不同任務的差異化標準顯式條件化，避免某個任務的偏好干擾另一個任務。

實驗：PosterOmni 到底強在哪里？

我們把評測拆成三塊：統(tǒng)一基準（PosterOmni-Bench）→ 自動評測與對比 → 關鍵模塊消融。

1) PosterOmni-Bench：把“設計側常見需求”系統(tǒng)化成可評測基準

我們首先做了一個專門面向 image/poster-to-poster 的多任務基準 PosterOmni-Bench，覆蓋六類任務：Extend / Fill / Rescale / ID-driven / Layout-driven / Style-driven。

為了更貼近真實使用場景，Bench 同時包含中英文提示：540 條中文 + 480 條英文，共 1020 條，并且在六大主題（產(chǎn)品、美食、活動/旅行、自然、教育、娛樂）上均勻分布，既有單參考圖也有多參考圖的輸入形式。

評測方式上，我們采用強 VLM（Gemini-2.5-Pro）對結果進行打分：

既看審美（整體視覺和諧、構圖平衡、風格一致性等）

也看任務完成度（是否按指令完成編輯/遷移、是否保持需要保持的內容）

并在 1–5 分范圍內給出綜合評分（加權匯總為最終指標）。

直觀理解：這個基準不是在測“會不會畫圖”，而是在測“會不會像設計師一樣做海報改稿/再設計”。

2) 定量對比：六項任務全線領先，開源里斷層，閉源里逼近

在 PosterOmni-Bench 上，我們對比了主流開源系統(tǒng)（如 Qwen-Image-Edit、FLUX.1 Kontext、BAGEL、UniWorld-V2 等）以及強閉源系統(tǒng)（如 Seedream 系列）。結果非常一致：PosterOmni對比所有開源模型在六項任務上全部拿到最高分,在整體評價上也超過現(xiàn)有的部分閉源模型，并且提升不只來自某一個任務，而是“局部精修 + 全局創(chuàng)作”兩條能力線同時變強。

對比 Qwen-Image-Edit：PosterOmni 在 Extend / Fill / Rescale / ID / Layout / Style 六項上均明顯提升，尤其在 Layout-driven / Style-driven 這類需要高階設計理解的任務上提升更大（不是“貼圖式遷移”，而是更像“學到布局/風格的規(guī)則再生成”）。

對比 Seedream-4.0：整體上 PosterOmni 的平均表現(xiàn)已經(jīng)超過，這點證明把開源的單模型直接把復雜需求做到了可用級別。

3) 定性對比：為什么說它“學風格/學布局”不是“直接 copy”？

定性結果里最典型的兩類失敗，我們在很多 baseline（包括部分閉源系統(tǒng)）上都能反復看到：

Style-driven：一些模型會把參考圖里的局部元素直接“貼”過來，導致“看起來像拼貼”，甚至把不該復制的具體物體也搬運過去；PosterOmni 更偏向去學習配色、材質感、筆觸/光影、字體氣質這些“風格本質”，再把它遷移到新主體上。

Rescale / Layout-driven：很多系統(tǒng)只能做到裁剪/拉伸，或簡單把元素擠壓到新畫布；PosterOmni 更像在做“改比例→重排版”：標題層級、留白、元素間距會跟著一起調整，主體也更穩(wěn)定。

4) 消融實驗：每個模塊到底貢獻了什么？

我們做了系統(tǒng)消融，核心想回答：PosterOmni 的提升來自哪里——是“多訓點數(shù)據(jù)”還是“確實解決了多任務互相干擾 + 審美對齊”。

(a) 任務蒸餾 vs 直接混訓：

我們對比了：

基座模型（如 Qwen-Image-Edit）六任務直接混訓（Mixed Training）只訓局部專家 / 只訓全局專家先訓專家再蒸餾到學生（Task Distillation）再加上輔助文本渲染損失（PosterOmni-SFT）

結果顯示：

直接混訓能漲一點，但仍會被“局部精修 vs 全局構圖”拉扯；單獨的局部/全局專家會明顯偏科；蒸餾后的學生模型最穩(wěn)，并且加上輔助文本渲染后，文字清晰度進一步提升（對海報任務很關鍵）。

(b) 專家融合方式：為什么“參數(shù)硬融合”不行？

我們還對比了常見的 LoRA 融合方式（線性插值、ZipLoRA 等）和我們的蒸餾策略:

參數(shù)融合容易出現(xiàn)“塌向某個專家”、或者干脆“直接 copy 參考圖”的失��；蒸餾是讓學生去學行為（輸出分布），而不是在參數(shù)空間硬拼，所以更能保持互補能力。

小結：為什么這套方法能支撐“one model for generalized multi-task image/poster-to-poster generation”

數(shù)據(jù)把六類真實設計需求系統(tǒng)化成訓練對（且有嚴格過濾），保證模型學到的是“可用的設計能力”。

蒸餾把局部專家與全局專家的優(yōu)勢遷移到單一學生，避免多任務硬混導致的能力互相牽制。

獎勵 + RL用統(tǒng)一的把“好看 + 做對”變成可優(yōu)化信號，再用 DiffusionNFT 的穩(wěn)定正向優(yōu)化注入模型，讓最終模型既不投機 copy。

參考文獻

[1] PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward Feedback

原文標題 : CVPR 2026｜“全能AI海報設計師”PosterOmni開源: 6大任務笑傲開源社區(qū)，媲美閉源商用

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

4日10日
立即報名>> 維科杯· OFweek 2025中國機器人行業(yè)年度評選
4日10日
立即報名>> OFweek 2026（第十五屆）中國機器人產(chǎn)業(yè)大會
精彩回顧
立即查看>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 12月16-17日 AMD 嵌入式峰會
精彩回顧
立即查看>> 恩智浦創(chuàng)新技術峰會
精彩回顧
立即查看>> 【評選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評選

一周熱點月點擊榜

企業(yè)服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网