<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      跨物體融合新突破!從拼貼到創造:AI學會「生」出新物體

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】AI不再只是把兩個物體「放一起」,而是真正造出一個新實體。VMDiff模型通過分階段策略:先拼接保留信息,再插值融合成整體,并自動調節平衡,讓生成結果既像兩者,又自然統一。

      過去,很多圖像生成模型都能同時畫出兩個物體;但要讓它們真正「長成一個新物體」,其實遠沒有那么簡單。

      如果讓AI把「玻璃罐」和「貓頭鷹」結合起來,很多模型表面上看似做到了,實際上卻沒有真正融合。

      有的結果只是把兩個物體放在同一張圖里,彼此靠近、重疊,但仍然是兩個分離的概念;還有的結果更直接,只保留了其中一個物體,另一個概念幾乎消失不見。

      這正是跨物體融合生成長期存在的兩個核心難題: 一類叫coexistent generation,也就是「共存但不融合」;另一類叫bias generation,也就是「只偏向一邊,另一邊被吞掉」。

      最近,來自南京理工大學和南京大學的研究者提出了VMDiff(Visual Mixing Diffusion)。 這項工作的目標不是讓兩個概念「出現在同一張圖里」,而是讓它們真正融合成一個結構連貫、語義平衡、視覺統一的新實體。


      論文鏈接:https://arxiv.org/abs/2509.23605

      項目主頁: https://xzr52.github.io/VMDiff_index/

      代碼倉庫: https://github.com/xzr52/VMDiff_code


      圖 1. VMDiff能將兩個輸入物體融合為結構統一的新實體。


      圖 2. 現有方法常見的兩類失敗:共存不融合,或只偏向一邊。

      VMDiff最核心的思路,不是籠統地說「在noise和embedding上融合」,而是更精確地把整個過程拆成兩個目標完全不同的階段:

      • 在前一階段,目標是盡可能完整保留兩個輸入的信息;

      • 在后一階段,目標是把這些信息真正長成一個統一的新物體。

      這兩個階段分別對應論文中的Hybrid Sampling Process(HSP)Efficient Adaptive Adjustment(EAA)。 而HSP里面最值得講的,就是兩個非常「反直覺但很對」的設計選擇:

      該保留信息的時候,不做插值,而是拼接; 該形成統一整體的時候,不再拼接,而是插值。


      圖 3. VMDiff由HSP與EAA兩部分組成:前者負責融合生成,后者負責自適應調參。

      第一步:先別急著「混」,先保證兩個輸入都真的在場

      很多人一看到「融合」就會想到插值。 但 VMDiff 在前面的Blending Noise(BNoise)階段并沒有這么做。

      它先從高斯噪聲出發,再通過引導去噪和反演,把噪聲逐步變成一個帶有兩個輸入概念信息的語義噪聲。 而在這個階段,VMDiff 對兩個輸入特征采用的不是插值,而是拼接(concatenate)

      為什么這里要拼接?

      因為這一階段的目標還不是「生成一個整體」,而是「把兩個來源的信息都盡可能保住」。 如果過早插值,兩個物體中那些不完全對齊的局部細節,很容易在平均過程中被抹平;相反,拼接能先把雙方的重要特征都保留下來,再交給后續的反演過程去提煉。

      換句話說,VMDiff在這一步解決的是:如何在真正開始生成之前,先把兩個概念的信息注入噪聲。


      圖 4. 在 BNoise 階段,拼接比插值更有利于保留輸入細節。

      第二步:真正生成時,目標變了——這時必須讓它長成一個整體

      前面那一步解決的是「兩個概念都在」。 但只做到這一步還不夠,因為「都在」不等于「融合好了」。

      如果在最終生成階段還繼續拼接,那么模型雖然擁有兩邊的信息,但它們還是彼此分離的,最后很容易長成「兩個物體擠在一起」的結果。 所以在Mixing Denoise(MDeNoise)階段,VMDiff做了第二個關鍵轉換:

      它不再拼接,而是用球面插值(spherical interpolation)去混合兩組視覺表征,讓它們沿著一個更自然的潛空間路徑逐步過渡,最終形成單一、連貫、和諧的新實體

      這一點特別重要。 它說明 VMDiff 不是簡單地「全程統一融合策略」,而是針對不同階段的目標,選擇了不同的操作:

      • BNoise階段,怕丟信息,所以選拼接;

      • MDeNoise階段,怕長不成整體,所以選插值。

      這正是VMDiff和很多「直接混一混」方法最本質的區別。


      圖 5. 在最終生成階段,插值比拼接更容易形成統一整體。

      但「成整體」還不夠,VMDiff 還要解決另一個麻煩:別偏科

      即便有了前面的兩步,模型仍然可能偏向其中一個輸入。 比如「口紅 + 鋼鐵俠手辦」,最后也許更容易只剩口紅,或者只剩鋼鐵俠風格,而無法做到真正平衡。

      所以VMDiff 又設計了一個Similarity Score(SS),專門衡量生成結果是否同時:

      1.既像輸入圖像 1,也像輸入圖像 2;

      2.既符合類別語義 1,也符合類別語義 2;

      3.而且兩邊不能差太多。

      這個式子可以拆成四部分來看:

      表示visual similarity,要求生成結果在視覺上都接近兩個輸入圖像;

      semantic similarity,要求生成結果在語義上都符合兩個類別標簽;

      visual balance,懲罰視覺上只偏向其中一邊;

      semantic balance,懲罰語義上只保留一個概念。

      換句話說,VMDiff優化的不是「像某一個輸入」,而是:既保留兩個來源的視覺與語義,又顯式壓制不平衡。

      有了這個目標之后,后面的 Efficient Adaptive Adjustment (EAA) 就有了明確的優化方向: 先搜索控制融合比例的 ,再根據結果進一步調整 ,必要時重采樣噪聲 ,從而自動找到一個既自然、又平衡的融合點。

      EAA自動搜索「最平衡的融合點」

      有了這個相似度與平衡聯合目標之后,VMDiff 用Efficient Adaptive Adjustment(EAA)去自動搜索參數。

      它會分層地調整:控制融合比例的α、控制噪聲側影響的β1、β2,以及隨機噪聲?

      做法并不是昂貴的梯度反向傳播,而是更輕量的層次化搜索,比如 golden section search,再結合少量重采樣。 這使得 VMDiff 不需要一個特別重的優化過程,也能比較高效地找到「最像兩邊、又最平衡」的解。


      圖 6. EAA 通過分層搜索逐步提升相似度并減小失衡。

      結果上,VMDiff 做到的不是「更花哨」,而是「更像一個新物體」

      為了系統評估這件事,作者構建了IIOF(Image-Image Object Fusion)數據集,包含 780 個圖像對,覆蓋動物、水果、人造物體和角色手辦等類別。 實驗表明,VMDiff 不只是主觀上更有創意,在客觀指標也都表現突出。

      在多概念生成對比中,很多基線方法仍然容易出現「只是疊在一起」或者「偏向其中一邊」的問題;而 VMDiff 生成的結果往往更像是一個真正統一的混合實體。 從表 1 可以看到,VMDiff 并不是只在單一指標上占優,而是在語義一致性、單實體連貫性、相似度和平衡性等多個維度上都表現突出。


      表 1. IIOF 數據集上的定量對比結果


      圖 7. 與多概念生成方法相比,VMDiff 更能生成統一而平衡的融合體。


      圖 8. 與混合和編輯方法相比,VMDiff 的結果更完整、更自然。

      這篇工作的價值,不只是生成幾個新奇例子

      VMDiff 真正有意思的地方,不只是做出了幾張好看的圖,而是它給「跨物體視覺融合」這件事提供了一種很清晰的方法論:

      • 先解決「信息別丟」;

      • 再解決「整體要成」;

      • 最后再解決「雙方要平衡」。

      這三件事以前常常被混在一起處理,而 VMDiff 把它們拆開了,并為每一步都設計了對應的機制。 這也是為什么它生成出來的結果,不是簡單拼貼,也不是只偏向一邊,而更像一個真的被「設計出來」的新物體。

      總結

      很多方法能把兩個物體同時畫出來, 但VMDiff 的目標不是「同時出現」,而是「真正長成一個新物體」。對角色設計、潮玩設計、電影動畫和工業外觀探索來說,這種「真正生成一個新物體」的能力,比簡單拼貼更接近實際創作需求。 它最核心的洞察在于:

      • 在噪聲構造階段,用拼接保住兩邊信息;

      • 在最終生成階段,用插值把兩邊長成一個整體;

      • 再用聯合考慮相似度與平衡的目標函數,自動找到最佳融合點。

      這讓跨物體融合不再只是「把A和B放一起」, 而是真正走向「從A和B里,創造出一個新的C」。

      參考資料:

      https://arxiv.org/abs/2509.23605

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      韓媒:韓日足球差距越來越大,日本已將世界杯奪冠視為可觸及目標

      韓媒:韓日足球差距越來越大,日本已將世界杯奪冠視為可觸及目標

      懂球帝
      2026-04-07 18:26:06
      納斯達克100指數期貨跌幅一度擴大至0.8%

      納斯達克100指數期貨跌幅一度擴大至0.8%

      每日經濟新聞
      2026-04-07 19:03:06
      一空姐機上被打,航司霸氣出面:打我家空姐,拉入黑名單

      一空姐機上被打,航司霸氣出面:打我家空姐,拉入黑名單

      中國民航人
      2026-04-06 18:10:42
      楊振寧去世5個月后,49歲翁帆現狀:剪了頭發染了色,仍獨居國內

      楊振寧去世5個月后,49歲翁帆現狀:剪了頭發染了色,仍獨居國內

      照見古今
      2026-03-26 19:06:28
      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      共工之錨
      2026-03-31 00:27:37
      今晚上調!山東92號汽油每升8.87元

      今晚上調!山東92號汽油每升8.87元

      新浪財經
      2026-04-07 17:43:04
      郭艾倫直播講述被騙千萬細節:熟人以項目投資為由,誘導信任詐騙

      郭艾倫直播講述被騙千萬細節:熟人以項目投資為由,誘導信任詐騙

      觀魚聽雨
      2026-04-06 19:04:20
      醫學專家談文班傷情:肋骨挫傷通常不會缺席太久 平均缺陣約4天

      醫學專家談文班傷情:肋骨挫傷通常不會缺席太久 平均缺陣約4天

      北青網-北京青年報
      2026-04-07 19:34:09
      首都兒研所+北京兒童醫院多款自制“明星”藥,昌平能開啦

      首都兒研所+北京兒童醫院多款自制“明星”藥,昌平能開啦

      昌平圈
      2026-04-07 17:10:28
      安慶6歲失聯女童確認遇害,35歲犯罪嫌疑人柳某某歸案;女童父親不愿多言,鎮政府工作人員:一直在安撫家屬情緒

      安慶6歲失聯女童確認遇害,35歲犯罪嫌疑人柳某某歸案;女童父親不愿多言,鎮政府工作人員:一直在安撫家屬情緒

      極目新聞
      2026-04-07 09:04:35
      一覺醒來,中國斯諾克4勝2負!白雨露開門紅,高陽爆冷10冠王!

      一覺醒來,中國斯諾克4勝2負!白雨露開門紅,高陽爆冷10冠王!

      劉姚堯的文字城堡
      2026-04-07 06:53:56
      1920年,一位俄羅斯醫生突發奇想,把猴子的睪丸,植入到老頭體內

      1920年,一位俄羅斯醫生突發奇想,把猴子的睪丸,植入到老頭體內

      歲月有情1314
      2026-04-07 07:26:46
      毛澤東的晚年,除了最喜歡所有的紅色外,更加喜歡游泳過后抽支煙

      毛澤東的晚年,除了最喜歡所有的紅色外,更加喜歡游泳過后抽支煙

      文史季季紅
      2026-04-07 21:10:03
      老了才明白:最大的災難,是父母六十來歲了,還隨意泄露家里隱私

      老了才明白:最大的災難,是父母六十來歲了,還隨意泄露家里隱私

      藝鑒在線
      2026-04-07 16:27:38
      要來了,蘋果即將發布 iOS 26.4.1 正式版!

      要來了,蘋果即將發布 iOS 26.4.1 正式版!

      花果科技
      2026-04-07 12:40:07
      娘家不是我的家了!廣東女子哭訴想帶孩回住半年,被母親果斷拒絕

      娘家不是我的家了!廣東女子哭訴想帶孩回住半年,被母親果斷拒絕

      火山詩話
      2026-04-07 06:19:19
      美國墜毀的運輸機,到底是伊朗打下來的,還是美國人自己炸毀的?

      美國墜毀的運輸機,到底是伊朗打下來的,還是美國人自己炸毀的?

      小蘿卜絲
      2026-04-06 17:14:42
      為什么現在打籃球的人越來越少了?網友:社會碎片化后必然的結果

      為什么現在打籃球的人越來越少了?網友:社會碎片化后必然的結果

      另子維愛讀史
      2026-04-06 22:31:50
      男子騎電動車帶妻子去接孩子,途中車底鋰電池突然爆燃,火焰瞬間吞沒車身,后座的妻子淪為火人

      男子騎電動車帶妻子去接孩子,途中車底鋰電池突然爆燃,火焰瞬間吞沒車身,后座的妻子淪為火人

      觀威海
      2026-04-05 07:31:02
      哈弗旗艦方盒子官圖公布:高端歸元平臺打造 預計售價30萬級

      哈弗旗艦方盒子官圖公布:高端歸元平臺打造 預計售價30萬級

      快科技
      2026-04-07 16:39:09
      2026-04-07 21:44:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14918文章數 66754關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

      頭條要聞

      臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      家居
      教育
      房產
      手機
      公開課

      家居要聞

      雅致愜意 感知生活之美

      教育要聞

      地理教材上五種交通運輸方式的比較是不是過時了?

      房產要聞

      重磅!三亞擬出安居房新政!

      手機要聞

      4月21日的手機圈,不敢想象會有多刺激

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版