<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Snapchat提出Canvas-to-Image:一張畫布集成 ID、姿態(tài)與布局

      0
      分享至



      Canvas-to-Image 是一個面向組合式圖像創(chuàng)作的全新框架。它取消了傳統(tǒng)「分散控制」的流程,將身份參考圖、空間布局、姿態(tài)線稿等不同類型的控制信息全部整合在同一個畫布中。用戶在畫布上放置或繪制的內(nèi)容,會被模型直接解釋為生成指令,簡化了圖像生成過程中的控制流程。



      • 作者:Yusuf Dalva, Guocheng Gordon Qian*, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang
      • 通訊作者:Guocheng Gordon Qian
      • 機構(gòu):1Snap Inc. 2UC Merced 3Virginia Tech
      • 論文標題:Canvas-to-Image: Compositional Image Generation with Multimodal Controls
      • 項目主頁:https://snap-research.github.io/canvas-to-image/
      • arXiv:arxiv.org/abs/2511.21691



      為什么要把控制方式合并到一張畫布上?

      在以往的生成流程中,身份參考、姿態(tài)線稿、布局框等控制方式往往被設(shè)計成互不相干的獨立輸入路徑

      例如:

      • 身份控制需要貼一張獨立的參考圖;
      • 姿態(tài)控制依賴單獨的骨架圖;
      • 空間布局要再通過另一個模塊或附加輸入傳給模型。

      這些控制信號分別從不同通道進入模型,各自擁有獨立的編碼方式與預(yù)處理邏輯。結(jié)果就是:用戶無法在畫面的同一位置疊加多種控制信息,也無法用「一個局部區(qū)域里的組合提示」來告訴模型該怎么生成。

      換句話說,傳統(tǒng)方法的輸入結(jié)構(gòu)是多入口、分散式的,缺乏統(tǒng)一的表達空間。這使得復(fù)雜場景的構(gòu)建流程變得冗長且割裂,用戶只能一次提供一種控制,無法在同一個圖像區(qū)域上同時表達身份 + 姿態(tài) + 位置等組合指令。

      Canvas-to-Image 正是針對這一結(jié)構(gòu)性限制提出新的方案:所有控制信號都匯聚到同一張畫布中,由模型在同一個像素空間內(nèi)理解、組合并執(zhí)行。

      核心方法論



      (a) 多任務(wù)畫布(Multi-Task Canvas)

      Canvas-to-Image 設(shè)計的關(guān)鍵在于——畫布本身既是 UI,也是模型的輸入。畫布中可以出現(xiàn):

      • 一小塊真實人物的圖像,用于指定人物;
      • 一組簡單的骨架線條,用來調(diào)節(jié)肢體姿勢;
      • 框選區(qū)域,用來定義人物或物體應(yīng)處的位置。

      這些異構(gòu)視覺符號中包含的空間關(guān)系、語義信息,都由 VLM-Diffusion(基于 Qwen-Image-Edit)直接解析。

      在訓(xùn)練過程中,Canvas-to-Image 的多任務(wù)畫布從跨幀圖像集(cross-frame image sets)中自動生成。具體流程如下:

      • 隨機選取一幀作為目標圖像。
      • 從其他幀中抽取目標幀所需要不同的視覺元素(人物片段,背景,姿態(tài)結(jié)構(gòu),框選區(qū)域等)。
      • 將抽取的視覺元素,按照目標幀中的相應(yīng)位置,擺放在輸入畫布中。

      這樣的跨幀采樣策略會在輸入畫布中自然引入姿態(tài)、光照、表情等方面的顯著差異,使得輸入提示與目標圖像之間不存在可直接復(fù)用的像素對應(yīng)關(guān)系。由此,模型無法依賴簡單的拷貝機制來完成訓(xùn)練任務(wù),而必須學(xué)習(xí)更抽象的語義關(guān)聯(lián)與結(jié)構(gòu)映射。這一設(shè)計在訓(xùn)練階段有效規(guī)避了「抄輸入」的捷徑,從根本上避免了模型在推理階段出現(xiàn) copy-paste 式的生成行為。

      為了保持訓(xùn)練的簡潔性,在每一次訓(xùn)練中,模型只會接收到一種隨機選定的控制模態(tài)(例如空間布局、姿態(tài)骨架或邊界框)。這樣可以讓模型分別學(xué)會獨立理解不同類型的控制提示,并在推理階段自然實現(xiàn)多控制的組合能力。

      (b) 多控制推理

      在推理階段,Canvas-to-Image 允許用戶在同一張畫布上靈活組合多種控制模態(tài),例如同時提供身份參考區(qū)域、姿態(tài)骨架以及空間布局框,從而實現(xiàn)復(fù)雜的多控制場景生成。與傳統(tǒng)「單一路徑控制」的方案不同,用戶無需在不同模塊之間切換或分階段注入條件,而是通過統(tǒng)一畫布一次性給出所有約束信號。

      從學(xué)習(xí)機制上看,模型在訓(xùn)練過程中僅接觸到單一控制模態(tài)的樣本:每個訓(xùn)練樣本只隨機激活其中一種控制形式(身份、姿態(tài)或位置),使模型分別掌握對單獨控制信號的理解與對齊能力。值得注意的是,即便在數(shù)據(jù)中并不存在顯式標注的「多模態(tài)組合控制」樣本,模型在推理階段仍然能夠在統(tǒng)一畫布中同時解析并整合多種控制信號:它會在身份參考的約束下保持人物外觀一致性,在姿態(tài)骨架約束下生成結(jié)構(gòu)合理的姿態(tài),并在布局框條件下遵循全局空間排布。

      這一現(xiàn)象表明,模型在統(tǒng)一畫布表示的框架下,學(xué)到的并不是對某一種控制模態(tài)的簡單記憶,而是對「畫布上局部區(qū)域與目標圖像結(jié)構(gòu)之間關(guān)系」的更高層次建模能力。換言之,模型在僅依賴單模態(tài)訓(xùn)練的前提下,仍然展現(xiàn)出對未見過控制組合的泛化能力:在推理中面對新的、復(fù)雜的多控制配置時,依然能夠生成結(jié)構(gòu)一致、外觀可信且各控制信號相互兼容的高質(zhì)量結(jié)果。這也從實驗角度驗證了統(tǒng)一畫布設(shè)計在提升組合式可控生成能力方面的有效性。

      實驗結(jié)果

      多控制組合(Multi-Control Composition)

      Canvas-to-Image 能夠同時處理身份、姿態(tài)和布局框,而基線方法往往會失敗。Canvas-to-Image 能:

      • 遵循畫布中給定的姿態(tài)與空間約束;
      • 保持人物外觀與參考圖一致;
      • 在多種控制疊加時維持整體畫面的連貫性與合理性。



      身份 + 物體組合

      當畫布中同時包含人物提示和物體提示時,Canvas-to-Image 不會把兩者當作獨立元素簡單并置。模型能夠理解兩者之間應(yīng)有的空間與語義關(guān)系,因而會生成具有自然接觸、合理互動的場景。

      此外,在多種控制疊加的情況下,Canvas-to-Image 仍能保持:

      • 人物外觀與參考圖一致;
      • 物體的形狀、材質(zhì)和語義保持穩(wěn)定;
      • 人物與物體之間的空間一致性與幾何邏輯不被破壞。

      因此即便在復(fù)雜的組合控制設(shè)置下,生成的畫面也能呈現(xiàn)出連貫、可信的互動效果,而不是常見的「貼圖式合成感」。



      多層次場景:前景 + 背景

      在給定一張背景圖的情況下,Canvas-to-Image 可以通過放置參考圖或標注邊界框的方式,將人物或物體自然地融入場景。模型會根據(jù)畫布中的提示自動調(diào)整空間關(guān)系,使插入元素在位置、光照和整體氛圍上與背景保持一致,呈現(xiàn)近乎原生的融合效果。



      消融研究

      我們系統(tǒng)地測試了當逐步添加控制時模型的表現(xiàn):

      • 僅身份控制:模型能生成人物,但姿態(tài)和位置隨機;
      • + 姿態(tài)控制:模型學(xué)會同時控制身份和姿態(tài);
      • + 空間布局:模型能完全控制身份、姿態(tài)和位置。

      關(guān)鍵發(fā)現(xiàn):雖然訓(xùn)練時使用單任務(wù)畫布,但模型自然學(xué)會了在推理時組合多種控制——這種涌現(xiàn)能力驗證了我們的設(shè)計理念。



      總結(jié)

      Canvas-to-Image 的核心價值是把多模態(tài)的生成控制方式全部圖形化,讓復(fù)雜場景的構(gòu)建回歸到最直觀的方式:在畫布上擺放、畫、框,就能讓模型生成對應(yīng)的結(jié)構(gòu)化、真實感強的畫面。統(tǒng)一畫布 + 多模態(tài)控制的范式,將有望成為下一代創(chuàng)作工具的基礎(chǔ)界面形態(tài)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      特斯拉前兩天開始量產(chǎn)一輛不像車的車,為何全世界安靜了?

      特斯拉前兩天開始量產(chǎn)一輛不像車的車,為何全世界安靜了?

      沙雕小琳琳
      2026-02-20 15:14:36
      凱德米:美國已經(jīng)在為遏制俄羅斯付出代價,問題極其嚴重。

      凱德米:美國已經(jīng)在為遏制俄羅斯付出代價,問題極其嚴重。

      風(fēng)雨與陽光
      2026-02-21 16:39:43
      這才是真正的好老師!

      這才是真正的好老師!

      張曉磊
      2026-02-21 12:23:04
      廣東一男子留2年長發(fā)回家過年,引起長輩們圍觀都忘記催婚了

      廣東一男子留2年長發(fā)回家過年,引起長輩們圍觀都忘記催婚了

      九方魚論
      2026-02-21 08:45:47
      英國上將揭露,當年“香港”回歸真相:誰敢抗衡中國解放軍?

      英國上將揭露,當年“香港”回歸真相:誰敢抗衡中國解放軍?

      終于在眼淚中明白
      2026-02-07 08:36:49
      3999元!又一款 Ultra新品官宣:正式上市

      3999元!又一款 Ultra新品官宣:正式上市

      高科技愛好者
      2026-02-20 22:59:06
      開打!海上突傳巨大撞擊聲,兩艘美軍艦,撞了!美開火3人被打死

      開打!海上突傳巨大撞擊聲,兩艘美軍艦,撞了!美開火3人被打死

      趣生活
      2026-02-20 21:30:01
      48歲保潔阿姨睡在公司1個月,老板打開了監(jiān)控,第2天送給她20萬

      48歲保潔阿姨睡在公司1個月,老板打開了監(jiān)控,第2天送給她20萬

      秀秀情感課堂
      2025-12-12 14:20:05
      看了《鏢人》,才發(fā)現(xiàn)吳京最正確的決定,就是換掉女主選擇陳麗君

      看了《鏢人》,才發(fā)現(xiàn)吳京最正確的決定,就是換掉女主選擇陳麗君

      斷翼的鳥兒
      2026-02-20 23:15:57
      這7位央視主持至今未嫁,她們?nèi)巳硕际敲琅畲蟮哪挲g已到60歲

      這7位央視主持至今未嫁,她們?nèi)巳硕际敲琅畲蟮哪挲g已到60歲

      TVB的四小花
      2026-02-18 08:42:26
      從9億回升至15億,《鏢人》逆跌奪得亞軍,吳京開啟漫長回本之路

      從9億回升至15億,《鏢人》逆跌奪得亞軍,吳京開啟漫長回本之路

      電影票房預(yù)告片
      2026-02-20 22:51:47
      3年9100萬!騎士簽約神塔賺大了,哈登一來,他從藍領(lǐng)變成高級貨

      3年9100萬!騎士簽約神塔賺大了,哈登一來,他從藍領(lǐng)變成高級貨

      球盲姐
      2026-02-21 17:05:54
      果然沒讓中方失望!美對華發(fā)終極威脅,不到24小時,俄有動作了

      果然沒讓中方失望!美對華發(fā)終極威脅,不到24小時,俄有動作了

      愛吃醋的貓咪
      2026-02-21 16:09:33
      春節(jié)來新加坡旅游,被自己窮笑了:酒店一晚1.6萬、入境被罰6000

      春節(jié)來新加坡旅游,被自己窮笑了:酒店一晚1.6萬、入境被罰6000

      新加坡萬事通
      2026-02-17 18:29:48
      惜敗湖人!倫納德柯林斯傷情更新,馬瑟林+盧采訪中極度不滿判罰

      惜敗湖人!倫納德柯林斯傷情更新,馬瑟林+盧采訪中極度不滿判罰

      籃球資訊達人
      2026-02-21 15:39:12
      這次中日摩擦,為何不“抵制日貨”了?

      這次中日摩擦,為何不“抵制日貨”了?

      華山穹劍
      2026-02-20 20:35:29
      特朗普至今不敢打伊朗,是害怕中國漁翁得利?事實證明,恰恰相反

      特朗普至今不敢打伊朗,是害怕中國漁翁得利?事實證明,恰恰相反

      青橘罐頭
      2026-02-21 07:17:45
      冬奧會僅剩2天,中國最后奪金點分析,超日本登亞洲第一就在今天

      冬奧會僅剩2天,中國最后奪金點分析,超日本登亞洲第一就在今天

      侃球熊弟
      2026-02-21 13:14:01
      孩子越大,越要告訴他這五句人生真相:比成績更重要的,是活好這一生

      孩子越大,越要告訴他這五句人生真相:比成績更重要的,是活好這一生

      青蘋果sht
      2026-02-20 05:52:21
      俄烏打了三年,打窮了三個國家,富了三個國家,中國也在其中

      俄烏打了三年,打窮了三個國家,富了三個國家,中國也在其中

      青煙小先生
      2026-02-19 19:14:06
      2026-02-21 17:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12325文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認:系一家人

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認:系一家人

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關(guān)系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經(jīng)要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔(dān)當”來了 方程豹首款轎車路跑信息曝光

      態(tài)度原創(chuàng)

      手機
      健康
      數(shù)碼
      家居
      公開課

      手機要聞

      vivo產(chǎn)品線結(jié)構(gòu)分析,走量最大的是這個檔次

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      數(shù)碼要聞

      NVIDIA新卡皇RTX 5090 Ti再曝光:功耗直飆超700W!性能提升10%

      家居要聞

      本真棲居 愛暖伴流年

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版