![]()
來自南京大學(xué) PRLab 的魏佳哲、李墾,在準(zhǔn)聘助理教授司晨陽的指導(dǎo)下,提出專業(yè)級海報(bào)設(shè)計(jì)與編輯大模型PosterCopilot。本研究聯(lián)合了LibLib.ai、中國科學(xué)院自動化研究所等多家頂尖機(jī)構(gòu),共同完成了首個解耦布局推理與多輪可控編輯的圖形設(shè)計(jì)框架研發(fā)。PosterCopilot 能夠?qū)崿F(xiàn)專業(yè)設(shè)計(jì)級的版式生成、語義一致的多輪編輯,并具備高度可控的創(chuàng)作能力。
![]()
此外,受華為-南京大學(xué)鯤鵬昇騰科教創(chuàng)新孵化中心支持,該模型已完成對國產(chǎn)昇騰算力平臺的適配與部署,進(jìn)一步推動了國產(chǎn) AI 設(shè)計(jì)技術(shù)的發(fā)展與落地。
![]()
- 論文標(biāo)題:Poster Copilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design
- 論文地址:https://arxiv.org/abs/2512.04082
- 項(xiàng)目主頁:https://postercopilot.github.io/
行業(yè)痛點(diǎn):
從生成式失控到多模態(tài)「盲推」
平面設(shè)計(jì)是視覺傳達(dá)的基石,但要實(shí)現(xiàn)真正的自動化專業(yè)設(shè)計(jì),目前仍面臨巨大挑戰(zhàn)。盡管以Stable Diffusion為代表的文生圖(T2I)模型在圖像合成上表現(xiàn)強(qiáng)勁,但在實(shí)際的工業(yè)設(shè)計(jì)流中,它們因無法處理分層結(jié)構(gòu),往往導(dǎo)致用戶素材失真且無法進(jìn)行精細(xì)化控制。
為了解決這一問題,業(yè)界開始嘗試?yán)枚嗄B(tài)大模型(LMMs)進(jìn)行布局規(guī)劃,然而研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的 LMMs 方案反而暴露出了四大致命短板:
- 幾何布局的「先天缺陷」:現(xiàn)有的多模態(tài)布局模型通常將連續(xù)的空間坐標(biāo)量化為離散的文本 Token。這種將數(shù)值視為文本的處理方式,從根本上破壞了歐幾里得空間的幾何連續(xù)性,導(dǎo)致模型難以理解真實(shí)的物理距離與空間關(guān)系,生成的布局頻頻出現(xiàn)對齊錯誤與比例失調(diào)。
- 視覺反饋的「盲區(qū)」:這是現(xiàn)有模型最嚴(yán)重的缺失之一。目前的布局模型在訓(xùn)練過程中僅進(jìn)行純粹的坐標(biāo)回歸,卻從未「看」到過布局渲染后的實(shí)際圖像。由于缺乏對渲染結(jié)果的視覺反饋(Visual Feedback),模型無法像人類設(shè)計(jì)師一樣基于審美直覺和視覺規(guī)律來審視并優(yōu)化構(gòu)圖,只能處于「盲人摸象」的狀態(tài)。
- 單一真值的「回歸陷阱」:海報(bào)設(shè)計(jì)屬于高度主觀的創(chuàng)意領(lǐng)域,符合人類審美的布局方案往往是多樣的、非唯一的。然而,傳統(tǒng)的監(jiān)督訓(xùn)練強(qiáng)迫模型死板地向單一的Ground Truth回歸。這種刻板的訓(xùn)練方式不僅導(dǎo)致生成的布局喪失多樣性,更扼殺了模型的探索潛力,使其錯失了涌現(xiàn)超越訓(xùn)練數(shù)據(jù)、比原始真值更具美學(xué)表現(xiàn)力的創(chuàng)新設(shè)計(jì)的機(jī)會。
- 圖層級編輯的「斷層」:專業(yè)設(shè)計(jì)師的工作流本質(zhì)上是迭代的(Iterative),需要對特定圖層進(jìn)行反復(fù)微調(diào)。而目前的端到端模型往往是「一錘子買賣」,面對「只改一個圖層」的需求時(shí)往往束手無策——要么無法支持,要么「牽一發(fā)而動全身」,在修改時(shí)破壞了用戶原有的素材或非編輯區(qū)域。
在 PosterCopilot 的對比測試中,這些弱點(diǎn)暴露無遺:
![]()
現(xiàn)有模型在處理復(fù)雜多素材場景時(shí),常出現(xiàn)嚴(yán)重的元素重疊、文字遮擋以及美學(xué)災(zāi)難。這反映了現(xiàn)有模型在細(xì)粒度布局推理和美學(xué)對齊上的根本不足。
同時(shí),如圖所示:
![]()
基于完全相同的元素可以有眾多符合人類審美的布局方案,按照單一真值進(jìn)行回歸的訓(xùn)練方式容易扼殺模型的創(chuàng)造力。
核心成果:
構(gòu)建專業(yè)級設(shè)計(jì)的「智能工作流」
為填補(bǔ)現(xiàn)有單步生成與專業(yè)工作流之間的鴻溝,研究團(tuán)隊(duì)提出了一套系統(tǒng)性的解決方案 PosterCopilot,并通過漸進(jìn)式三階段訓(xùn)練策略賦予模型設(shè)計(jì)推理能力。
獨(dú)創(chuàng)三階段訓(xùn)練:從幾何糾偏到美學(xué)對齊
這是首個將布局生成任務(wù)從簡單的回歸問題轉(zhuǎn)化為分布學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合的范式。
- 階段一:擾動監(jiān)督微調(diào)(PSFT):針對 Token 坐標(biāo)導(dǎo)致的幾何空間扭曲問題,團(tuán)隊(duì)提出引入高斯噪聲擾動,迫使模型學(xué)習(xí)坐標(biāo)的分布而非死記硬背離散點(diǎn),修復(fù)了優(yōu)化空間的幾何結(jié)構(gòu)。
- 階段二:視覺-現(xiàn)實(shí)對齊強(qiáng)化學(xué)習(xí)(RL-VRA):引入基于 DIoU 和元素保真的驗(yàn)證性獎勵信號,專門修正「幻覺」導(dǎo)致的重疊和比例失調(diào)。
- 階段三:美學(xué)反饋強(qiáng)化學(xué)習(xí)(RLAF):利用美學(xué)獎勵模型進(jìn)行偏好對齊,鼓勵模型探索超出 Ground Truth 但更具視覺沖擊力的布局方案。
![]()
生成式智能體(Generative Agent):打通迭代編輯閉環(huán)
PosterCopilot 不僅僅是一個布局生成器,更是一個全能設(shè)計(jì)助手。團(tuán)隊(duì)設(shè)計(jì)了一個包含「接待模型」和「T2I 模型」的智能體,支持從靈感到素材的無縫轉(zhuǎn)化:用戶僅需輸入抽象的設(shè)計(jì)構(gòu)思,內(nèi)置的接待模型(Reception Model)即可充當(dāng)「創(chuàng)意策劃」,自動將用戶意圖拆解為前景主體與背景氛圍的詳細(xì)規(guī)劃。
隨后,模型會生成精準(zhǔn)的工程級提示詞(Prompts),驅(qū)動 T2I 模型即時(shí)生成風(fēng)格契合的高質(zhì)量素材,實(shí)現(xiàn)從「抽象靈感」到「具體物料」的自動化落地。
通過將具備精密布局推理能力的設(shè)計(jì)模型與支持多輪交互的生成式智能體(Generative Agent)深度耦合,團(tuán)隊(duì)構(gòu)建了 PosterCopilot 的完整框架,其從素材規(guī)劃到最終成稿的推理流水線如下所示:
![]()
全能設(shè)計(jì)助手 PosterCopilot:覆蓋專業(yè)設(shè)計(jì)的全鏈路需求
基于 Generative Agent 的強(qiáng)大賦能,PosterCopilot 能夠完美勝任從「從零構(gòu)建」到「后期精修」的多種專業(yè)場景:
- 全素材海報(bào)生成(Generation from Fully-provided Assets):當(dāng)用戶提供完整素材時(shí),模型專注于「布局推理」,能夠?qū)⒍嗄B(tài)元素在畫布上進(jìn)行符合美學(xué)規(guī)律的精準(zhǔn)排列,同時(shí)嚴(yán)格保障用戶原有素材零失真、無篡改。
![]()
- 缺素材智能補(bǔ)全(Generation from Insufficient Assets):針對素材缺失的冷啟動場景,智能體能夠理解設(shè)計(jì)意圖,自動生成風(fēng)格統(tǒng)一的背景或前景裝飾層,實(shí)現(xiàn)從「抽象想法」到「完整海報(bào)」的無縫落地。
![]()
- 多輪精細(xì)化編輯(Multi-round Fine-grained Edit):打破了傳統(tǒng)模型「無法精準(zhǔn)局部修改」的魔咒,支持多種專業(yè)級操作:
- 精準(zhǔn)單層編輯:支持僅修改特定圖層(如更換模特發(fā)色、改變物體材質(zhì)),同時(shí)完美「凍結(jié)」其他非編輯區(qū)域。在「相機(jī)廣告」案例中,模型能夠僅修改相機(jī)鏡頭的特效(如巖漿、大理石、水晶),而背景文字和排版紋絲不動。
![]()
- 全局主題遷移:能夠?qū)⒑?bào)從「棒棒糖促銷」無縫切換為「冰淇淋推廣」,自動替換主體并調(diào)整相關(guān)元素,且保留原有排版骨架。
![]()
- 智能尺寸重構(gòu)(Poster Reframe):只需更改畫布尺寸參數(shù),模型即可根據(jù)新的長寬比,智能重新推理布局,實(shí)現(xiàn)一鍵適配不同媒體版面。
![]()
PosterCopilot 數(shù)據(jù)集:高質(zhì)量分層海報(bào)庫
為解決數(shù)據(jù)匱乏問題,團(tuán)隊(duì)構(gòu)建了包含 16 萬張專業(yè)海報(bào)、總計(jì) 260 萬個圖層的高質(zhì)量數(shù)據(jù)集。通過 OCR 輔助的細(xì)粒度圖層融合技術(shù),解決了傳統(tǒng)數(shù)據(jù)集中圖層過度碎片化(Over-segmentation)的難題,為社區(qū)提供了寶貴的數(shù)據(jù)資源。
![]()
![]()
實(shí)驗(yàn)結(jié)果:
全面超越商業(yè)競品與 SOTA 模型
PosterCopilot 以Qwen-2.5-VL-7B-Instruct為 backbone,在多項(xiàng)指標(biāo)上實(shí)現(xiàn)了對現(xiàn)有頂尖模型的超越。
在涵蓋布局合理性、文本可讀性、素材保真度等六大維度的評測中,PosterCopilot 展現(xiàn)了統(tǒng)治級表現(xiàn)。
- 綜合勝率:在人工評測中,PosterCopilot 對比微軟Microsoft DesignerNano-Banana以及學(xué)術(shù)界 SOTA(如CreatiPosterLaDeCo),平均勝率超過 74%。
![]()
- GPT-5 評測:在 GPT-5 的打分中,PosterCopilot 在布局合理性(Layout Rationality)和風(fēng)格一致性(Style Consistency)上均大幅領(lǐng)先Qwen-VL-2.5-72BGemini 2.5 Pro
![]()
結(jié)論與展望
對于平面設(shè)計(jì)這樣兼具嚴(yán)謹(jǐn)幾何約束感性美學(xué)追求的領(lǐng)域,簡單的端到端生成并非最優(yōu)解。
PosterCopilot 通過解耦「布局推理」與「生成式編輯」,并引入強(qiáng)化學(xué)習(xí)對齊人類美學(xué),成功讓大模型掌握了專業(yè)設(shè)計(jì)師的「圖層思維」。這不僅為智能設(shè)計(jì)工具樹立了新的基準(zhǔn),也為未來 AI 輔助創(chuàng)意工作流提供了新的范式。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.