![]()
新智元報道
編輯:LRST
【新智元導讀】Canvas-to-Image 是一種新型圖像生成框架,將多種控制方式(如身份、姿態、空間布局)整合到一個統一畫布中,用戶可通過直觀操作生成高保真、多控制的圖像。它簡化了創作流程,讓用戶在單一界面完成復雜創作,為AI創作工具提供了新范式。
大型擴散模型雖然能生成高質量圖像,但在處理復雜的組合場景時仍存在挑戰。現有方法往往有如下缺點:
控制單一且分散:身份控制、姿態控制、空間布局需要分別處理,難以協同。
交互性差:用戶只能通過文本描述,無法直觀地控制生成過程。
最新研究Canvas-to-Image在交互式可控生成方面提供了一種新的范式:用戶可以在統一畫布上直接疊加多種視覺控制提示,包括放置人物參考圖以指定身份外觀、繪制骨架來約束姿態結構,以及通過邊界框指示物體或元素的大致空間位置。
模型在推理時會將這些異構線索共同解析,在遵循文本描述的同時,實現復合控制條件下的協調生成。
![]()
項目地址:https://snap-research.github.io/canvas-to-image/
論文地址:https://arxiv.org/abs/2511.21691
用戶能夠在畫布上任意位置擺放參考人物圖像,在其旁邊放置特定寵物,并通過邊界框指定帽子、棕櫚樹等元素的大體位置。
隨后,模型會綜合文本指令(例如「女孩在海邊輕拍她的狗」)與畫布中的多模態提示,生成符合語義邏輯與視覺構圖的照片級圖像。
![]()
這種統一畫布帶來的靈活性使編輯過程更加直觀:將小狗替換為貓咪手辦、更換棕櫚樹為遮陽傘、調整人物姿態等修改,只需對畫布進行對應的局部替換或幾何調整,無需重新構建多控制流程。
Canvas-to-Image能夠在不破壞整體結構一致性的前提下,響應這些局部修改,展現出高效而自然的多控制可編輯性。
Canvas-to-Image的目標,就是要將這些異構的控制信號整合到一個統一的畫布界面中,讓用戶直觀地創作可控的個性化內容。
Canvas-to-Image的工作示例
核心技術
Canvas-to-Image的設計理念
![]()
多任務畫布(Multi-Task Canvas)
Canvas-to-Image 的核心是一個統一的 RGB 畫布,能夠將多種異構控制信號整合到單一表示中,Canvas-to-Image訓練過程中的控制信號有:
身份參考:直接在畫布上放置人物的參考圖像;
姿態骨架:繪制人體骨架來控制姿態;
邊界框:用框定義物體和人物的位置。
所有這些信息都被編碼在同一個畫布圖像中,模型利用VLM- Diffusion架構(基于Qwen-Image-Edit) 可以直接解讀并進行視覺-空間推理。
單控制訓練,多控制推理
訓練階段:為簡化訓練,Canvas-to-Image在訓練過程中,每個樣本隨機采用一種控制模態(空間、姿態或邊界框)這意味著,模型在訓練過程中從未見過多種控制的組合;
推理階段:用戶可以自由組合多種控制方式,實現復雜的多控制生成。
在訓練時教會模型單獨理解「身份」、「姿態」和「位置」,但推理時它卻能自然地將這三者融合在一起。
這種「涌現能力」讓模型在從未見過的組合控制下,也能生成高質量的結果。 這是 Canvas-to-Image 設計的精妙之處,在保證推理階段的靈活性的同時,極大地簡化了訓練的復雜度。
實驗結果
多控制、高保真、強組合
多控制組合(Multi-Control Composition)
Canvas-to-Image能夠同時處理身份、姿態和布局框,而基線方法往往會失敗。
![]()
在復雜的多控制場景中,Canvas-to-Image能:
準確執行姿態和位置約束;
保持人物身份特征穩定;
在多種約束共同存在時生成結構清晰、語義一致的圖像。
身份+物體組合
Canvas-to-Image支持將特定人物與物體在各種場景中組合。與基線方法相比,Canvas-to-Image更好地保持了人物和物體的一致性。
![]()
背景人物組合
![]()
在輸入背景圖的前提下,Canvas-to-Image能夠依據參考圖粘貼或邊界框標注,將新的主體自然植入場景。 借助統一畫布的表達方式,模型能夠生成幾何關系合理、光照匹配、語義一致的合成畫面,顯著提升人物或物體的場景融合質量。
消融研究
研究人員系統地測試了當逐步添加控制時模型的表現:
![]()
僅身份控制:模型能生成人物,但不遵循姿態控制,也不理解位置框;
+姿態控制:模型學會同時控制身份和姿態,在位置框的表現上也變得更魯棒,即使目前模型還沒有在位置框上訓練。這體現了多任務之間的協同性質。
+空間布局:模型能完全控制身份、姿態和位置。
關鍵發現:雖然訓練時使用單任務畫布,但模型自然學會了在推理時組合多種控制——這種涌現能力驗證了設計理念。
總結
Canvas-to-Image將組合式生成從「分散控制」推向「統一畫布」。
用戶不再需要在多個控制模塊間切換,而是在單一界面中完成所有創作,以「統一畫布」為核心的多模態控制范式,將成為下一代AI創作工具的重要基礎。
參考資料:
https://snap-research.github.io/canvas-to-image/
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.