<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Snapchat提出Canvas-to-Image:一張畫布集成 ID、姿態(tài)與布局

      0
      分享至



      Canvas-to-Image 是一個面向組合式圖像創(chuàng)作的全新框架。它取消了傳統(tǒng)「分散控制」的流程,將身份參考圖、空間布局、姿態(tài)線稿等不同類型的控制信息全部整合在同一個畫布中。用戶在畫布上放置或繪制的內(nèi)容,會被模型直接解釋為生成指令,簡化了圖像生成過程中的控制流程。



      • 作者:Yusuf Dalva, Guocheng Gordon Qian*, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang
      • 通訊作者:Guocheng Gordon Qian
      • 機構(gòu):1Snap Inc. 2UC Merced 3Virginia Tech
      • 論文標題:Canvas-to-Image: Compositional Image Generation with Multimodal Controls
      • 項目主頁:https://snap-research.github.io/canvas-to-image/
      • arXiv:arxiv.org/abs/2511.21691



      為什么要把控制方式合并到一張畫布上?

      在以往的生成流程中,身份參考、姿態(tài)線稿、布局框等控制方式往往被設(shè)計成互不相干的獨立輸入路徑

      例如:

      • 身份控制需要貼一張獨立的參考圖;
      • 姿態(tài)控制依賴單獨的骨架圖;
      • 空間布局要再通過另一個模塊或附加輸入傳給模型。

      這些控制信號分別從不同通道進入模型,各自擁有獨立的編碼方式與預處理邏輯。結(jié)果就是:用戶無法在畫面的同一位置疊加多種控制信息,也無法用「一個局部區(qū)域里的組合提示」來告訴模型該怎么生成。

      換句話說,傳統(tǒng)方法的輸入結(jié)構(gòu)是多入口、分散式的,缺乏統(tǒng)一的表達空間。這使得復雜場景的構(gòu)建流程變得冗長且割裂,用戶只能一次提供一種控制,無法在同一個圖像區(qū)域上同時表達身份 + 姿態(tài) + 位置等組合指令。

      Canvas-to-Image 正是針對這一結(jié)構(gòu)性限制提出新的方案:所有控制信號都匯聚到同一張畫布中,由模型在同一個像素空間內(nèi)理解、組合并執(zhí)行。

      核心方法論



      (a) 多任務畫布(Multi-Task Canvas)

      Canvas-to-Image 設(shè)計的關(guān)鍵在于——畫布本身既是 UI,也是模型的輸入。畫布中可以出現(xiàn):

      • 一小塊真實人物的圖像,用于指定人物;
      • 一組簡單的骨架線條,用來調(diào)節(jié)肢體姿勢;
      • 框選區(qū)域,用來定義人物或物體應處的位置。

      這些異構(gòu)視覺符號中包含的空間關(guān)系、語義信息,都由 VLM-Diffusion(基于 Qwen-Image-Edit)直接解析。

      在訓練過程中,Canvas-to-Image 的多任務畫布從跨幀圖像集(cross-frame image sets)中自動生成。具體流程如下:

      • 隨機選取一幀作為目標圖像。
      • 從其他幀中抽取目標幀所需要不同的視覺元素(人物片段,背景,姿態(tài)結(jié)構(gòu),框選區(qū)域等)。
      • 將抽取的視覺元素,按照目標幀中的相應位置,擺放在輸入畫布中。

      這樣的跨幀采樣策略會在輸入畫布中自然引入姿態(tài)、光照、表情等方面的顯著差異,使得輸入提示與目標圖像之間不存在可直接復用的像素對應關(guān)系。由此,模型無法依賴簡單的拷貝機制來完成訓練任務,而必須學習更抽象的語義關(guān)聯(lián)與結(jié)構(gòu)映射。這一設(shè)計在訓練階段有效規(guī)避了「抄輸入」的捷徑,從根本上避免了模型在推理階段出現(xiàn) copy-paste 式的生成行為。

      為了保持訓練的簡潔性,在每一次訓練中,模型只會接收到一種隨機選定的控制模態(tài)(例如空間布局、姿態(tài)骨架或邊界框)。這樣可以讓模型分別學會獨立理解不同類型的控制提示,并在推理階段自然實現(xiàn)多控制的組合能力。

      (b) 多控制推理

      在推理階段,Canvas-to-Image 允許用戶在同一張畫布上靈活組合多種控制模態(tài),例如同時提供身份參考區(qū)域、姿態(tài)骨架以及空間布局框,從而實現(xiàn)復雜的多控制場景生成。與傳統(tǒng)「單一路徑控制」的方案不同,用戶無需在不同模塊之間切換或分階段注入條件,而是通過統(tǒng)一畫布一次性給出所有約束信號。

      從學習機制上看,模型在訓練過程中僅接觸到單一控制模態(tài)的樣本:每個訓練樣本只隨機激活其中一種控制形式(身份、姿態(tài)或位置),使模型分別掌握對單獨控制信號的理解與對齊能力。值得注意的是,即便在數(shù)據(jù)中并不存在顯式標注的「多模態(tài)組合控制」樣本,模型在推理階段仍然能夠在統(tǒng)一畫布中同時解析并整合多種控制信號:它會在身份參考的約束下保持人物外觀一致性,在姿態(tài)骨架約束下生成結(jié)構(gòu)合理的姿態(tài),并在布局框條件下遵循全局空間排布。

      這一現(xiàn)象表明,模型在統(tǒng)一畫布表示的框架下,學到的并不是對某一種控制模態(tài)的簡單記憶,而是對「畫布上局部區(qū)域與目標圖像結(jié)構(gòu)之間關(guān)系」的更高層次建模能力。換言之,模型在僅依賴單模態(tài)訓練的前提下,仍然展現(xiàn)出對未見過控制組合的泛化能力:在推理中面對新的、復雜的多控制配置時,依然能夠生成結(jié)構(gòu)一致、外觀可信且各控制信號相互兼容的高質(zhì)量結(jié)果。這也從實驗角度驗證了統(tǒng)一畫布設(shè)計在提升組合式可控生成能力方面的有效性。

      實驗結(jié)果

      多控制組合(Multi-Control Composition)

      Canvas-to-Image 能夠同時處理身份、姿態(tài)和布局框,而基線方法往往會失敗。Canvas-to-Image 能:

      • 遵循畫布中給定的姿態(tài)與空間約束;
      • 保持人物外觀與參考圖一致;
      • 在多種控制疊加時維持整體畫面的連貫性與合理性。



      身份 + 物體組合

      當畫布中同時包含人物提示和物體提示時,Canvas-to-Image 不會把兩者當作獨立元素簡單并置。模型能夠理解兩者之間應有的空間與語義關(guān)系,因而會生成具有自然接觸、合理互動的場景。

      此外,在多種控制疊加的情況下,Canvas-to-Image 仍能保持:

      • 人物外觀與參考圖一致;
      • 物體的形狀、材質(zhì)和語義保持穩(wěn)定;
      • 人物與物體之間的空間一致性與幾何邏輯不被破壞。

      因此即便在復雜的組合控制設(shè)置下,生成的畫面也能呈現(xiàn)出連貫、可信的互動效果,而不是常見的「貼圖式合成感」。



      多層次場景:前景 + 背景

      在給定一張背景圖的情況下,Canvas-to-Image 可以通過放置參考圖或標注邊界框的方式,將人物或物體自然地融入場景。模型會根據(jù)畫布中的提示自動調(diào)整空間關(guān)系,使插入元素在位置、光照和整體氛圍上與背景保持一致,呈現(xiàn)近乎原生的融合效果。



      消融研究

      我們系統(tǒng)地測試了當逐步添加控制時模型的表現(xiàn):

      • 僅身份控制:模型能生成人物,但姿態(tài)和位置隨機;
      • + 姿態(tài)控制:模型學會同時控制身份和姿態(tài);
      • + 空間布局:模型能完全控制身份、姿態(tài)和位置。

      關(guān)鍵發(fā)現(xiàn):雖然訓練時使用單任務畫布,但模型自然學會了在推理時組合多種控制——這種涌現(xiàn)能力驗證了我們的設(shè)計理念。



      總結(jié)

      Canvas-to-Image 的核心價值是把多模態(tài)的生成控制方式全部圖形化,讓復雜場景的構(gòu)建回歸到最直觀的方式:在畫布上擺放、畫、框,就能讓模型生成對應的結(jié)構(gòu)化、真實感強的畫面。統(tǒng)一畫布 + 多模態(tài)控制的范式,將有望成為下一代創(chuàng)作工具的基礎(chǔ)界面形態(tài)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      6月1日起,包工頭徹底告別舞臺!建筑圈大洗牌,5000萬工人迎巨變

      6月1日起,包工頭徹底告別舞臺!建筑圈大洗牌,5000萬工人迎巨變

      普陀動物世界
      2026-04-10 21:35:49
      男演員吃面加蔥花被服務員阻攔,遇見小面致歉:責任在我們自身

      男演員吃面加蔥花被服務員阻攔,遇見小面致歉:責任在我們自身

      極目新聞
      2026-04-11 16:12:44
      如果當初中國不改革開放,今天仍是全球最落后的國家之一嗎?

      如果當初中國不改革開放,今天仍是全球最落后的國家之一嗎?

      掠影后有感
      2026-04-10 09:58:45
      新中國十位國家級女領(lǐng)導人

      新中國十位國家級女領(lǐng)導人

      祁州校尉
      2026-04-11 09:00:31
      克羅斯吐槽老東家:拜仁次回合總掉鏈子,皇馬就愛踢大亂戰(zhàn)!

      克羅斯吐槽老東家:拜仁次回合總掉鏈子,皇馬就愛踢大亂戰(zhàn)!

      仰臥撐FTUer
      2026-04-12 08:03:02
      求復合?馬伊琍官宣兩大喜訊,前夫文章也傳來好消息,這是鬧哪出

      求復合?馬伊琍官宣兩大喜訊,前夫文章也傳來好消息,這是鬧哪出

      子芫伴你成長
      2026-04-11 23:34:33
      4月起必辦!2個證件全國發(fā)放,人人都有,沒領(lǐng)的得抓緊辦了

      4月起必辦!2個證件全國發(fā)放,人人都有,沒領(lǐng)的得抓緊辦了

      吃貨的分享
      2026-04-12 04:03:50
      趙子琪回應《乘風2026》被淘汰:我一點都不難過,不會再來;此前孫怡隊長對決輸給闞清子,趙子琪墊底出局

      趙子琪回應《乘風2026》被淘汰:我一點都不難過,不會再來;此前孫怡隊長對決輸給闞清子,趙子琪墊底出局

      魯中晨報
      2026-04-11 09:36:09
      一碗國宴熱湯暖人心!鄭麗文直呼:這味道能講一輩子

      一碗國宴熱湯暖人心!鄭麗文直呼:這味道能講一輩子

      阿天愛旅行
      2026-04-11 13:08:53
      iPhone18ProMax最新曝光,手里的iPhone17ProMax更香了!

      iPhone18ProMax最新曝光,手里的iPhone17ProMax更香了!

      搞機小帝
      2026-04-12 00:17:00
      27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺直接傻眼了

      27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺直接傻眼了

      小椰的奶奶
      2026-04-01 17:04:55
      爆冷夜!近4場3敗,阿森納1-2伯恩茅斯主場翻車,多賽2場領(lǐng)先9分

      爆冷夜!近4場3敗,阿森納1-2伯恩茅斯主場翻車,多賽2場領(lǐng)先9分

      小金體壇大視野
      2026-04-12 08:14:52
      印度:我們每家都有電視,中國行嗎?法國:人家中國居民不用偷電

      印度:我們每家都有電視,中國行嗎?法國:人家中國居民不用偷電

      離離言幾許
      2026-04-10 14:51:25
      英媒爆料:兩大突發(fā)狀況出現(xiàn),讓大陸放棄2027武統(tǒng)轉(zhuǎn)向和談

      英媒爆料:兩大突發(fā)狀況出現(xiàn),讓大陸放棄2027武統(tǒng)轉(zhuǎn)向和談

      荷蘭豆愛健康
      2026-04-11 18:39:15
      隨著馬競1-2,巴塞羅那4-1,西甲最新積分榜出爐

      隨著馬競1-2,巴塞羅那4-1,西甲最新積分榜出爐

      凌空倒鉤
      2026-04-12 05:07:51
      同學聚會我自稱市委打雜被安排坐司機桌,開會我坐主席臺,他慌了

      同學聚會我自稱市委打雜被安排坐司機桌,開會我坐主席臺,他慌了

      刺頭體育
      2026-04-12 00:09:23
      馬斯克把網(wǎng)紅肚子搞大了!曝出炸裂猛料!

      馬斯克把網(wǎng)紅肚子搞大了!曝出炸裂猛料!

      廣告案例精選
      2026-04-11 20:46:27
      姐不僅圓又大,還是個肉墩,就在家自拍,不讓別人看

      姐不僅圓又大,還是個肉墩,就在家自拍,不讓別人看

      飛娛日記
      2026-03-19 07:26:09
      耗資68億!梅洪元院士出手!長沙奧體中心沖出地面,2028年見!

      耗資68億!梅洪元院士出手!長沙奧體中心沖出地面,2028年見!

      GA環(huán)球建筑
      2026-04-11 23:05:44
      炫喪?湖南一公路插百米白燈籠,官方介入調(diào)查,結(jié)果和想的不一樣

      炫喪?湖南一公路插百米白燈籠,官方介入調(diào)查,結(jié)果和想的不一樣

      阿纂看事
      2026-04-11 19:17:54
      2026-04-12 08:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12729文章數(shù) 142623關(guān)注度
      往期回顧 全部

      科技要聞

      半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

      頭條要聞

      男子自帶茅臺就餐飲用時感覺不對味 服務員還"消失"了

      頭條要聞

      男子自帶茅臺就餐飲用時感覺不對味 服務員還"消失"了

      體育要聞

      換帥之后,他們從降級區(qū)沖到升級區(qū)

      娛樂要聞

      鄭鈞回應兒子走路:會監(jiān)督他挺直腰板

      財經(jīng)要聞

      從日本翻身看:這次誰能扛住高油價?

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態(tài)度原創(chuàng)

      教育
      健康
      數(shù)碼
      藝術(shù)
      公開課

      教育要聞

      “父親的心已經(jīng)死了”,10后女孩報到職高,父親全程背對引人心疼

      干細胞抗衰4大誤區(qū),90%的人都中招

      數(shù)碼要聞

      蘋果高配Mac全線告急,背后原因竟是它?

      藝術(shù)要聞

      鄭麗文缺席丈夫引爭議!洪秀柱書法爆紅,傳統(tǒng)與現(xiàn)代的碰撞!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版