![]()
新智元報道
編輯:LRST
【新智元導讀】AI不再只是把兩個物體「放一起」,而是真正造出一個新實體。VMDiff模型通過分階段策略:先拼接保留信息,再插值融合成整體,并自動調節平衡,讓生成結果既像兩者,又自然統一。
過去,很多圖像生成模型都能同時畫出兩個物體;但要讓它們真正「長成一個新物體」,其實遠沒有那么簡單。
如果讓AI把「玻璃罐」和「貓頭鷹」結合起來,很多模型表面上看似做到了,實際上卻沒有真正融合。
有的結果只是把兩個物體放在同一張圖里,彼此靠近、重疊,但仍然是兩個分離的概念;還有的結果更直接,只保留了其中一個物體,另一個概念幾乎消失不見。
這正是跨物體融合生成長期存在的兩個核心難題: 一類叫coexistent generation,也就是「共存但不融合」;另一類叫bias generation,也就是「只偏向一邊,另一邊被吞掉」。
最近,來自南京理工大學和南京大學的研究者提出了VMDiff(Visual Mixing Diffusion)。 這項工作的目標不是讓兩個概念「出現在同一張圖里」,而是讓它們真正融合成一個結構連貫、語義平衡、視覺統一的新實體。
![]()
論文鏈接:https://arxiv.org/abs/2509.23605
項目主頁: https://xzr52.github.io/VMDiff_index/
代碼倉庫: https://github.com/xzr52/VMDiff_code
![]()
圖 1. VMDiff能將兩個輸入物體融合為結構統一的新實體。
![]()
圖 2. 現有方法常見的兩類失敗:共存不融合,或只偏向一邊。
VMDiff最核心的思路,不是籠統地說「在noise和embedding上融合」,而是更精確地把整個過程拆成兩個目標完全不同的階段:
在前一階段,目標是盡可能完整保留兩個輸入的信息;
在后一階段,目標是把這些信息真正長成一個統一的新物體。
這兩個階段分別對應論文中的Hybrid Sampling Process(HSP)和Efficient Adaptive Adjustment(EAA)。 而HSP里面最值得講的,就是兩個非常「反直覺但很對」的設計選擇:
該保留信息的時候,不做插值,而是拼接; 該形成統一整體的時候,不再拼接,而是插值。
![]()
圖 3. VMDiff由HSP與EAA兩部分組成:前者負責融合生成,后者負責自適應調參。
第一步:先別急著「混」,先保證兩個輸入都真的在場
很多人一看到「融合」就會想到插值。 但 VMDiff 在前面的Blending Noise(BNoise)階段并沒有這么做。
它先從高斯噪聲出發,再通過引導去噪和反演,把噪聲逐步變成一個帶有兩個輸入概念信息的語義噪聲。 而在這個階段,VMDiff 對兩個輸入特征采用的不是插值,而是拼接(concatenate)。
為什么這里要拼接?
因為這一階段的目標還不是「生成一個整體」,而是「把兩個來源的信息都盡可能保住」。 如果過早插值,兩個物體中那些不完全對齊的局部細節,很容易在平均過程中被抹平;相反,拼接能先把雙方的重要特征都保留下來,再交給后續的反演過程去提煉。
換句話說,VMDiff在這一步解決的是:如何在真正開始生成之前,先把兩個概念的信息注入噪聲。
![]()
圖 4. 在 BNoise 階段,拼接比插值更有利于保留輸入細節。
第二步:真正生成時,目標變了——這時必須讓它長成一個整體
前面那一步解決的是「兩個概念都在」。 但只做到這一步還不夠,因為「都在」不等于「融合好了」。
如果在最終生成階段還繼續拼接,那么模型雖然擁有兩邊的信息,但它們還是彼此分離的,最后很容易長成「兩個物體擠在一起」的結果。 所以在Mixing Denoise(MDeNoise)階段,VMDiff做了第二個關鍵轉換:
它不再拼接,而是用球面插值(spherical interpolation)去混合兩組視覺表征,讓它們沿著一個更自然的潛空間路徑逐步過渡,最終形成單一、連貫、和諧的新實體。
這一點特別重要。 它說明 VMDiff 不是簡單地「全程統一融合策略」,而是針對不同階段的目標,選擇了不同的操作:
在BNoise階段,怕丟信息,所以選拼接;
在MDeNoise階段,怕長不成整體,所以選插值。
這正是VMDiff和很多「直接混一混」方法最本質的區別。
![]()
圖 5. 在最終生成階段,插值比拼接更容易形成統一整體。
但「成整體」還不夠,VMDiff 還要解決另一個麻煩:別偏科
即便有了前面的兩步,模型仍然可能偏向其中一個輸入。 比如「口紅 + 鋼鐵俠手辦」,最后也許更容易只剩口紅,或者只剩鋼鐵俠風格,而無法做到真正平衡。
所以VMDiff 又設計了一個Similarity Score(SS),專門衡量生成結果是否同時:
1.既像輸入圖像 1,也像輸入圖像 2;
2.既符合類別語義 1,也符合類別語義 2;
3.而且兩邊不能差太多。
這個式子可以拆成四部分來看:
表示visual similarity,要求生成結果在視覺上都接近兩個輸入圖像;
semantic similarity,要求生成結果在語義上都符合兩個類別標簽;
visual balance,懲罰視覺上只偏向其中一邊;
semantic balance,懲罰語義上只保留一個概念。
換句話說,VMDiff優化的不是「像某一個輸入」,而是:既保留兩個來源的視覺與語義,又顯式壓制不平衡。
有了這個目標之后,后面的 Efficient Adaptive Adjustment (EAA) 就有了明確的優化方向: 先搜索控制融合比例的 ,再根據結果進一步調整 ,必要時重采樣噪聲 ,從而自動找到一個既自然、又平衡的融合點。
EAA自動搜索「最平衡的融合點」
有了這個相似度與平衡聯合目標之后,VMDiff 用Efficient Adaptive Adjustment(EAA)去自動搜索參數。
它會分層地調整:控制融合比例的α、控制噪聲側影響的β1、β2,以及隨機噪聲?
做法并不是昂貴的梯度反向傳播,而是更輕量的層次化搜索,比如 golden section search,再結合少量重采樣。 這使得 VMDiff 不需要一個特別重的優化過程,也能比較高效地找到「最像兩邊、又最平衡」的解。
![]()
圖 6. EAA 通過分層搜索逐步提升相似度并減小失衡。
結果上,VMDiff 做到的不是「更花哨」,而是「更像一個新物體」
為了系統評估這件事,作者構建了IIOF(Image-Image Object Fusion)數據集,包含 780 個圖像對,覆蓋動物、水果、人造物體和角色手辦等類別。 實驗表明,VMDiff 不只是主觀上更有創意,在客觀指標也都表現突出。
在多概念生成對比中,很多基線方法仍然容易出現「只是疊在一起」或者「偏向其中一邊」的問題;而 VMDiff 生成的結果往往更像是一個真正統一的混合實體。 從表 1 可以看到,VMDiff 并不是只在單一指標上占優,而是在語義一致性、單實體連貫性、相似度和平衡性等多個維度上都表現突出。
![]()
表 1. IIOF 數據集上的定量對比結果
![]()
圖 7. 與多概念生成方法相比,VMDiff 更能生成統一而平衡的融合體。
![]()
圖 8. 與混合和編輯方法相比,VMDiff 的結果更完整、更自然。
這篇工作的價值,不只是生成幾個新奇例子
VMDiff 真正有意思的地方,不只是做出了幾張好看的圖,而是它給「跨物體視覺融合」這件事提供了一種很清晰的方法論:
先解決「信息別丟」;
再解決「整體要成」;
最后再解決「雙方要平衡」。
這三件事以前常常被混在一起處理,而 VMDiff 把它們拆開了,并為每一步都設計了對應的機制。 這也是為什么它生成出來的結果,不是簡單拼貼,也不是只偏向一邊,而更像一個真的被「設計出來」的新物體。
總結
很多方法能把兩個物體同時畫出來, 但VMDiff 的目標不是「同時出現」,而是「真正長成一個新物體」。對角色設計、潮玩設計、電影動畫和工業外觀探索來說,這種「真正生成一個新物體」的能力,比簡單拼貼更接近實際創作需求。 它最核心的洞察在于:
在噪聲構造階段,用拼接保住兩邊信息;
在最終生成階段,用插值把兩邊長成一個整體;
再用聯合考慮相似度與平衡的目標函數,自動找到最佳融合點。
這讓跨物體融合不再只是「把A和B放一起」, 而是真正走向「從A和B里,創造出一個新的C」。
參考資料:
https://arxiv.org/abs/2509.23605
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.