南大聯(lián)合LibLib.ai、中科院自動化所，共同提出PosterCopilot

2025-12-10 16:58:19　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

來自南京大學(xué) PRLab 的魏佳哲、李墾，在準(zhǔn)聘助理教授司晨陽的指導(dǎo)下，提出專業(yè)級海報(bào)設(shè)計(jì)與編輯大模型PosterCopilot。本研究聯(lián)合了LibLib.ai、中國科學(xué)院自動化研究所等多家頂尖機(jī)構(gòu)，共同完成了首個解耦布局推理與多輪可控編輯的圖形設(shè)計(jì)框架研發(fā)。PosterCopilot 能夠?qū)崿F(xiàn)專業(yè)設(shè)計(jì)級的版式生成、語義一致的多輪編輯，并具備高度可控的創(chuàng)作能力。

此外，受華為-南京大學(xué)鯤鵬昇騰科教創(chuàng)新孵化中心支持，該模型已完成對國產(chǎn)昇騰算力平臺的適配與部署，進(jìn)一步推動了國產(chǎn) AI 設(shè)計(jì)技術(shù)的發(fā)展與落地。

論文標(biāo)題：Poster Copilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design
論文地址：https://arxiv.org/abs/2512.04082
項(xiàng)目主頁：https://postercopilot.github.io/

行業(yè)痛點(diǎn)：

從生成式失控到多模態(tài)「盲推」

平面設(shè)計(jì)是視覺傳達(dá)的基石，但要實(shí)現(xiàn)真正的自動化專業(yè)設(shè)計(jì)，目前仍面臨巨大挑戰(zhàn)。盡管以Stable Diffusion為代表的文生圖（T2I）模型在圖像合成上表現(xiàn)強(qiáng)勁，但在實(shí)際的工業(yè)設(shè)計(jì)流中，它們因無法處理分層結(jié)構(gòu)，往往導(dǎo)致用戶素材失真且無法進(jìn)行精細(xì)化控制。

為了解決這一問題，業(yè)界開始嘗試?yán)枚嗄B(tài)大模型（LMMs）進(jìn)行布局規(guī)劃，然而研究團(tuán)隊(duì)發(fā)現(xiàn)，現(xiàn)有的 LMMs 方案反而暴露出了四大致命短板：

幾何布局的「先天缺陷」：現(xiàn)有的多模態(tài)布局模型通常將連續(xù)的空間坐標(biāo)量化為離散的文本 Token。這種將數(shù)值視為文本的處理方式，從根本上破壞了歐幾里得空間的幾何連續(xù)性，導(dǎo)致模型難以理解真實(shí)的物理距離與空間關(guān)系，生成的布局頻頻出現(xiàn)對齊錯誤與比例失調(diào)。
視覺反饋的「盲區(qū)」：這是現(xiàn)有模型最嚴(yán)重的缺失之一。目前的布局模型在訓(xùn)練過程中僅進(jìn)行純粹的坐標(biāo)回歸，卻從未「看」到過布局渲染后的實(shí)際圖像。由于缺乏對渲染結(jié)果的視覺反饋（Visual Feedback），模型無法像人類設(shè)計(jì)師一樣基于審美直覺和視覺規(guī)律來審視并優(yōu)化構(gòu)圖，只能處于「盲人摸象」的狀態(tài)。
單一真值的「回歸陷阱」：海報(bào)設(shè)計(jì)屬于高度主觀的創(chuàng)意領(lǐng)域，符合人類審美的布局方案往往是多樣的、非唯一的。然而，傳統(tǒng)的監(jiān)督訓(xùn)練強(qiáng)迫模型死板地向單一的Ground Truth回歸。這種刻板的訓(xùn)練方式不僅導(dǎo)致生成的布局喪失多樣性，更扼殺了模型的探索潛力，使其錯失了涌現(xiàn)超越訓(xùn)練數(shù)據(jù)、比原始真值更具美學(xué)表現(xiàn)力的創(chuàng)新設(shè)計(jì)的機(jī)會。
圖層級編輯的「斷層」：專業(yè)設(shè)計(jì)師的工作流本質(zhì)上是迭代的（Iterative），需要對特定圖層進(jìn)行反復(fù)微調(diào)。而目前的端到端模型往往是「一錘子買賣」，面對「只改一個圖層」的需求時(shí)往往束手無策——要么無法支持，要么「牽一發(fā)而動全身」，在修改時(shí)破壞了用戶原有的素材或非編輯區(qū)域。

在 PosterCopilot 的對比測試中，這些弱點(diǎn)暴露無遺：

現(xiàn)有模型在處理復(fù)雜多素材場景時(shí)，常出現(xiàn)嚴(yán)重的元素重疊、文字遮擋以及美學(xué)災(zāi)難。這反映了現(xiàn)有模型在細(xì)粒度布局推理和美學(xué)對齊上的根本不足。

同時(shí)，如圖所示：

基于完全相同的元素可以有眾多符合人類審美的布局方案，按照單一真值進(jìn)行回歸的訓(xùn)練方式容易扼殺模型的創(chuàng)造力。

核心成果：

構(gòu)建專業(yè)級設(shè)計(jì)的「智能工作流」

為填補(bǔ)現(xiàn)有單步生成與專業(yè)工作流之間的鴻溝，研究團(tuán)隊(duì)提出了一套系統(tǒng)性的解決方案 PosterCopilot，并通過漸進(jìn)式三階段訓(xùn)練策略賦予模型設(shè)計(jì)推理能力。

獨(dú)創(chuàng)三階段訓(xùn)練：從幾何糾偏到美學(xué)對齊

這是首個將布局生成任務(wù)從簡單的回歸問題轉(zhuǎn)化為分布學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合的范式。

階段一：擾動監(jiān)督微調(diào)（PSFT）：針對 Token 坐標(biāo)導(dǎo)致的幾何空間扭曲問題，團(tuán)隊(duì)提出引入高斯噪聲擾動，迫使模型學(xué)習(xí)坐標(biāo)的分布而非死記硬背離散點(diǎn)，修復(fù)了優(yōu)化空間的幾何結(jié)構(gòu)。
階段二：視覺-現(xiàn)實(shí)對齊強(qiáng)化學(xué)習(xí)（RL-VRA）：引入基于 DIoU 和元素保真的驗(yàn)證性獎勵信號，專門修正「幻覺」導(dǎo)致的重疊和比例失調(diào)。
階段三：美學(xué)反饋強(qiáng)化學(xué)習(xí)（RLAF）：利用美學(xué)獎勵模型進(jìn)行偏好對齊，鼓勵模型探索超出 Ground Truth 但更具視覺沖擊力的布局方案。

生成式智能體（Generative Agent）：打通迭代編輯閉環(huán)

PosterCopilot 不僅僅是一個布局生成器，更是一個全能設(shè)計(jì)助手。團(tuán)隊(duì)設(shè)計(jì)了一個包含「接待模型」和「T2I 模型」的智能體，支持從靈感到素材的無縫轉(zhuǎn)化：用戶僅需輸入抽象的設(shè)計(jì)構(gòu)思，內(nèi)置的接待模型（Reception Model）即可充當(dāng)「創(chuàng)意策劃」，自動將用戶意圖拆解為前景主體與背景氛圍的詳細(xì)規(guī)劃。

隨后，模型會生成精準(zhǔn)的工程級提示詞（Prompts），驅(qū)動 T2I 模型即時(shí)生成風(fēng)格契合的高質(zhì)量素材，實(shí)現(xiàn)從「抽象靈感」到「具體物料」的自動化落地。

通過將具備精密布局推理能力的設(shè)計(jì)模型與支持多輪交互的生成式智能體（Generative Agent）深度耦合，團(tuán)隊(duì)構(gòu)建了 PosterCopilot 的完整框架，其從素材規(guī)劃到最終成稿的推理流水線如下所示：

全能設(shè)計(jì)助手 PosterCopilot：覆蓋專業(yè)設(shè)計(jì)的全鏈路需求

基于 Generative Agent 的強(qiáng)大賦能，PosterCopilot 能夠完美勝任從「從零構(gòu)建」到「后期精修」的多種專業(yè)場景：

全素材海報(bào)生成（Generation from Fully-provided Assets）：當(dāng)用戶提供完整素材時(shí)，模型專注于「布局推理」，能夠?qū)⒍嗄B(tài)元素在畫布上進(jìn)行符合美學(xué)規(guī)律的精準(zhǔn)排列，同時(shí)嚴(yán)格保障用戶原有素材零失真、無篡改。

缺素材智能補(bǔ)全（Generation from Insufficient Assets）：針對素材缺失的冷啟動場景，智能體能夠理解設(shè)計(jì)意圖，自動生成風(fēng)格統(tǒng)一的背景或前景裝飾層，實(shí)現(xiàn)從「抽象想法」到「完整海報(bào)」的無縫落地。

多輪精細(xì)化編輯（Multi-round Fine-grained Edit）：打破了傳統(tǒng)模型「無法精準(zhǔn)局部修改」的魔咒，支持多種專業(yè)級操作：
精準(zhǔn)單層編輯：支持僅修改特定圖層（如更換模特發(fā)色、改變物體材質(zhì)），同時(shí)完美「凍結(jié)」其他非編輯區(qū)域。在「相機(jī)廣告」案例中，模型能夠僅修改相機(jī)鏡頭的特效（如巖漿、大理石、水晶），而背景文字和排版紋絲不動。

全局主題遷移：能夠?qū)⒑?bào)從「棒棒糖促銷」無縫切換為「冰淇淋推廣」，自動替換主體并調(diào)整相關(guān)元素，且保留原有排版骨架。

智能尺寸重構(gòu)（Poster Reframe）：只需更改畫布尺寸參數(shù)，模型即可根據(jù)新的長寬比，智能重新推理布局，實(shí)現(xiàn)一鍵適配不同媒體版面。

PosterCopilot 數(shù)據(jù)集：高質(zhì)量分層海報(bào)庫

為解決數(shù)據(jù)匱乏問題，團(tuán)隊(duì)構(gòu)建了包含 16 萬張專業(yè)海報(bào)、總計(jì) 260 萬個圖層的高質(zhì)量數(shù)據(jù)集。通過 OCR 輔助的細(xì)粒度圖層融合技術(shù)，解決了傳統(tǒng)數(shù)據(jù)集中圖層過度碎片化（Over-segmentation）的難題，為社區(qū)提供了寶貴的數(shù)據(jù)資源。

實(shí)驗(yàn)結(jié)果：

全面超越商業(yè)競品與 SOTA 模型

PosterCopilot 以Qwen-2.5-VL-7B-Instruct為 backbone，在多項(xiàng)指標(biāo)上實(shí)現(xiàn)了對現(xiàn)有頂尖模型的超越。

在涵蓋布局合理性、文本可讀性、素材保真度等六大維度的評測中，PosterCopilot 展現(xiàn)了統(tǒng)治級表現(xiàn)。

綜合勝率：在人工評測中，PosterCopilot 對比微軟Microsoft DesignerNano-Banana以及學(xué)術(shù)界 SOTA（如CreatiPosterLaDeCo），平均勝率超過 74%。

GPT-5 評測：在 GPT-5 的打分中，PosterCopilot 在布局合理性（Layout Rationality）和風(fēng)格一致性（Style Consistency）上均大幅領(lǐng)先Qwen-VL-2.5-72BGemini 2.5 Pro

結(jié)論與展望

對于平面設(shè)計(jì)這樣兼具嚴(yán)謹(jǐn)幾何約束感性美學(xué)追求的領(lǐng)域，簡單的端到端生成并非最優(yōu)解。

PosterCopilot 通過解耦「布局推理」與「生成式編輯」，并引入強(qiáng)化學(xué)習(xí)對齊人類美學(xué)，成功讓大模型掌握了專業(yè)設(shè)計(jì)師的「圖層思維」。這不僅為智能設(shè)計(jì)工具樹立了新的基準(zhǔn)，也為未來 AI 輔助創(chuàng)意工作流提供了新的范式。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.