網易首頁 > 網易號 > 正文申請入駐

跨物體融合新突破！從拼貼到創造：AI學會「生」出新物體

2026-04-02 13:04:02　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】AI不再只是把兩個物體「放一起」，而是真正造出一個新實體。VMDiff模型通過分階段策略：先拼接保留信息，再插值融合成整體，并自動調節平衡，讓生成結果既像兩者，又自然統一。

過去，很多圖像生成模型都能同時畫出兩個物體；但要讓它們真正「長成一個新物體」，其實遠沒有那么簡單。

如果讓AI把「玻璃罐」和「貓頭鷹」結合起來，很多模型表面上看似做到了，實際上卻沒有真正融合。

有的結果只是把兩個物體放在同一張圖里，彼此靠近、重疊，但仍然是兩個分離的概念；還有的結果更直接，只保留了其中一個物體，另一個概念幾乎消失不見。

這正是跨物體融合生成長期存在的兩個核心難題：一類叫coexistent generation，也就是「共存但不融合」；另一類叫bias generation，也就是「只偏向一邊，另一邊被吞掉」。

最近，來自南京理工大學和南京大學的研究者提出了VMDiff（Visual Mixing Diffusion）。這項工作的目標不是讓兩個概念「出現在同一張圖里」，而是讓它們真正融合成一個結構連貫、語義平衡、視覺統一的新實體。

論文鏈接：https://arxiv.org/abs/2509.23605

項目主頁： https://xzr52.github.io/VMDiff_index/

代碼倉庫： https://github.com/xzr52/VMDiff_code

圖 1. VMDiff能將兩個輸入物體融合為結構統一的新實體。

圖 2. 現有方法常見的兩類失敗：共存不融合，或只偏向一邊。

VMDiff最核心的思路，不是籠統地說「在noise和embedding上融合」，而是更精確地把整個過程拆成兩個目標完全不同的階段：

在前一階段，目標是盡可能完整保留兩個輸入的信息；
在后一階段，目標是把這些信息真正長成一個統一的新物體。

這兩個階段分別對應論文中的Hybrid Sampling Process（HSP）和Efficient Adaptive Adjustment（EAA）。而HSP里面最值得講的，就是兩個非常「反直覺但很對」的設計選擇：

該保留信息的時候，不做插值，而是拼接；該形成統一整體的時候，不再拼接，而是插值。

圖 3. VMDiff由HSP與EAA兩部分組成：前者負責融合生成，后者負責自適應調參。

第一步：先別急著「混」，先保證兩個輸入都真的在場

很多人一看到「融合」就會想到插值。但 VMDiff 在前面的Blending Noise（BNoise）階段并沒有這么做。

它先從高斯噪聲出發，再通過引導去噪和反演，把噪聲逐步變成一個帶有兩個輸入概念信息的語義噪聲。而在這個階段，VMDiff 對兩個輸入特征采用的不是插值，而是拼接（concatenate）。

為什么這里要拼接？

因為這一階段的目標還不是「生成一個整體」，而是「把兩個來源的信息都盡可能保住」。如果過早插值，兩個物體中那些不完全對齊的局部細節，很容易在平均過程中被抹平；相反，拼接能先把雙方的重要特征都保留下來，再交給后續的反演過程去提煉。

換句話說，VMDiff在這一步解決的是：如何在真正開始生成之前，先把兩個概念的信息注入噪聲。

圖 4. 在 BNoise 階段，拼接比插值更有利于保留輸入細節。

第二步：真正生成時，目標變了——這時必須讓它長成一個整體

前面那一步解決的是「兩個概念都在」。但只做到這一步還不夠，因為「都在」不等于「融合好了」。

如果在最終生成階段還繼續拼接，那么模型雖然擁有兩邊的信息，但它們還是彼此分離的，最后很容易長成「兩個物體擠在一起」的結果。所以在Mixing Denoise（MDeNoise）階段，VMDiff做了第二個關鍵轉換：

它不再拼接，而是用球面插值（spherical interpolation）去混合兩組視覺表征，讓它們沿著一個更自然的潛空間路徑逐步過渡，最終形成單一、連貫、和諧的新實體。

這一點特別重要。它說明 VMDiff 不是簡單地「全程統一融合策略」，而是針對不同階段的目標，選擇了不同的操作：

在BNoise階段，怕丟信息，所以選拼接；
在MDeNoise階段，怕長不成整體，所以選插值。

這正是VMDiff和很多「直接混一混」方法最本質的區別。

圖 5. 在最終生成階段，插值比拼接更容易形成統一整體。

但「成整體」還不夠，VMDiff 還要解決另一個麻煩：別偏科

即便有了前面的兩步，模型仍然可能偏向其中一個輸入。比如「口紅 + 鋼鐵俠手辦」，最后也許更容易只剩口紅，或者只剩鋼鐵俠風格，而無法做到真正平衡。

所以VMDiff 又設計了一個Similarity Score（SS），專門衡量生成結果是否同時：

1.既像輸入圖像 1，也像輸入圖像 2；

2.既符合類別語義 1，也符合類別語義 2；

3.而且兩邊不能差太多。

這個式子可以拆成四部分來看：

表示visual similarity，要求生成結果在視覺上都接近兩個輸入圖像；

semantic similarity，要求生成結果在語義上都符合兩個類別標簽；

visual balance，懲罰視覺上只偏向其中一邊；

semantic balance，懲罰語義上只保留一個概念。

換句話說，VMDiff優化的不是「像某一個輸入」，而是：既保留兩個來源的視覺與語義，又顯式壓制不平衡。

有了這個目標之后，后面的 Efficient Adaptive Adjustment (EAA) 就有了明確的優化方向：先搜索控制融合比例的，再根據結果進一步調整，必要時重采樣噪聲，從而自動找到一個既自然、又平衡的融合點。

EAA自動搜索「最平衡的融合點」

有了這個相似度與平衡聯合目標之后，VMDiff 用Efficient Adaptive Adjustment（EAA）去自動搜索參數。

它會分層地調整：控制融合比例的α、控制噪聲側影響的β1、β2，以及隨機噪聲?

做法并不是昂貴的梯度反向傳播，而是更輕量的層次化搜索，比如 golden section search，再結合少量重采樣。這使得 VMDiff 不需要一個特別重的優化過程，也能比較高效地找到「最像兩邊、又最平衡」的解。

圖 6. EAA 通過分層搜索逐步提升相似度并減小失衡。

結果上，VMDiff 做到的不是「更花哨」，而是「更像一個新物體」

為了系統評估這件事，作者構建了IIOF（Image-Image Object Fusion）數據集，包含 780 個圖像對，覆蓋動物、水果、人造物體和角色手辦等類別。實驗表明，VMDiff 不只是主觀上更有創意，在客觀指標也都表現突出。

在多概念生成對比中，很多基線方法仍然容易出現「只是疊在一起」或者「偏向其中一邊」的問題；而 VMDiff 生成的結果往往更像是一個真正統一的混合實體。從表 1 可以看到，VMDiff 并不是只在單一指標上占優，而是在語義一致性、單實體連貫性、相似度和平衡性等多個維度上都表現突出。

表 1. IIOF 數據集上的定量對比結果

圖 7. 與多概念生成方法相比，VMDiff 更能生成統一而平衡的融合體。

圖 8. 與混合和編輯方法相比，VMDiff 的結果更完整、更自然。

這篇工作的價值，不只是生成幾個新奇例子

VMDiff 真正有意思的地方，不只是做出了幾張好看的圖，而是它給「跨物體視覺融合」這件事提供了一種很清晰的方法論：

先解決「信息別丟」；
再解決「整體要成」；
最后再解決「雙方要平衡」。

這三件事以前常常被混在一起處理，而 VMDiff 把它們拆開了，并為每一步都設計了對應的機制。這也是為什么它生成出來的結果，不是簡單拼貼，也不是只偏向一邊，而更像一個真的被「設計出來」的新物體。

總結

很多方法能把兩個物體同時畫出來，但VMDiff 的目標不是「同時出現」，而是「真正長成一個新物體」。對角色設計、潮玩設計、電影動畫和工業外觀探索來說，這種「真正生成一個新物體」的能力，比簡單拼貼更接近實際創作需求。它最核心的洞察在于：

在噪聲構造階段，用拼接保住兩邊信息；
在最終生成階段，用插值把兩邊長成一個整體；
再用聯合考慮相似度與平衡的目標函數，自動找到最佳融合點。

這讓跨物體融合不再只是「把A和B放一起」，而是真正走向「從A和B里，創造出一個新的C」。

參考資料：

https://arxiv.org/abs/2509.23605

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

新智元

AI產業主平臺領航智能+時代

14918文章數 66754關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

教育

房產

手機

公開課

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

跨物體融合新突破！從拼貼到創造：AI學會「生」出新物體

滿嘴謊言！OpenAI奧特曼黑料大起底

臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

官宣簽約“AI球員”，這支球隊被罵慘了...

女首富陳麗華離世 被曝生前已分好遺產

10萬億財政轉移支付，被誰拿走了？

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

雅致愜意 感知生活之美

地理教材上五種交通運輸方式的比較是不是過時了？

重磅！三亞擬出安居房新政！

4月21日的手機圈，不敢想象會有多刺激

女首富陳麗華離世被曝生前已分好遺產

不止是大極狐首款MPV問道V9靜態體驗

雅致愜意感知生活之美