網易首頁 > 網易號 > 正文申請入駐

上海交通大學打造全新統一模型：讓AI像人類一樣邊看邊想邊畫

2026-04-13 22:24:05　來源: 至頂AI實驗室

北京舉報

分享至

這項由上海交通大學聯合清華大學和加州大學圣地亞哥分校共同完成的研究，發表于2026年4月的計算機視覺頂級會議論文集中，研究編號為arXiv:2604.02097。有興趣深入了解的讀者可以通過該編號查詢完整論文。

在人工智能的發展歷程中，一個長期存在的挑戰就是如何讓機器像人類一樣，既能理解圖像又能生成圖像，并且在這兩個過程之間進行無縫的推理。目前的AI系統往往像是兩個獨立的專家——一個擅長看圖說話，另一個擅長根據描述畫畫，但它們彼此之間缺乏有效的溝通。上海交通大學的研究團隊提出了一個革命性的解決方案：LatentUM，這是一個能夠在統一的語義空間中處理多種模態信息的模型。

傳統的多模態AI系統面臨著一個根本性的問題——就像兩個說不同語言的人試圖合作一樣。理解圖像的模塊使用一套"語言"（語義特征），而生成圖像的模塊使用另一套"語言"（像素特征）。當系統需要對自己生成的圖像進行推理時，就必須先將圖像轉換成像素，再重新編碼成語義特征，這個過程不僅效率低下，還會引入偏差和錯誤。LatentUM的創新之處在于讓這兩個模塊說同一種"語言"——都使用語義特征進行交流。

一、統一語義空間的構建：讓AI學會"同一種語言"

LatentUM的核心思想可以比作培訓一個既能看懂畫又能畫畫的藝術家，而且這個藝術家在看畫和畫畫時使用的都是同一套思維體系。研究團隊首先需要解決的問題是如何構建這個統一的語義空間。

他們選擇了CLIP特征作為基礎，CLIP是一種已經被證明能夠很好地連接圖像和文本的表示方法。但是，CLIP特征是連續的數值，而語言模型更擅長處理離散的符號。為了解決這個問題，研究團隊開發了一種叫做"模型行為對齊量化"（MBAQ）的方法。

MBAQ的工作原理可以這樣理解：假設有一個經驗豐富的藝術鑒賞家，他能夠通過觀察原畫來判斷畫作的內容和風格。現在研究團隊要訓練一個助手，這個助手只能看到經過特殊處理的畫作副本，但必須給出與鑒賞家完全相同的判斷。在訓練過程中，助手需要不斷調整自己的觀察方式，直到他的判斷與鑒賞家的判斷完全一致。

具體來說，研究團隊使用視覺問答任務來訓練量化器。他們讓視覺語言模型分別對原始的CLIP特征和量化后的特征進行問答，然后最小化兩者輸出分布之間的差異。這樣訓練出來的量化器能夠保留對理解任務最重要的語義信息，而不是簡單地重建像素細節。

二、混合專家架構：專業分工與協同配合

為了避免視覺理解和視覺生成任務之間的相互干擾，研究團隊設計了一種叫做"模態混合專家"（MoME）的架構。這就像一個工作室里有兩組專業人員：一組專門負責分析和理解藝術作品，另一組專門負責創作新的作品。

在每個Transformer層中，都有兩套并行的參數分支：理解分支和生成分支。理解分支處理文本和視覺特征的理解任務，而生成分支專門負責生成視覺令牌。雖然它們有各自的專業領域，但通過共享的注意力機制，兩個分支可以相互交流信息，就像工作室里的分析師和畫家可以隨時溝通一樣。

這種設計的巧妙之處在于，生成的視覺令牌可以直接被理解分支讀取和分析，無需任何中間轉換。當模型生成一個視覺令牌后，它立即就能"看懂"自己畫的是什么，并基于這個理解繼續進行后續的推理和生成。

三、跨模態推理能力：從簡單生成到復雜思考

有了統一的語義空間，LatentUM展現出了令人印象深刻的跨模態推理能力。研究團隊在三個主要應用場景中驗證了這種能力。

在視覺生成的自我反思方面，LatentUM可以在生成圖像后立即對自己的作品進行評價和改進。就像一個畫家在完成一幅畫后，能夠立即發現畫中的不足并進行修改。具體來說，模型生成圖像后，會對照原始提示進行多個維度的檢查：物體是否存在、數量是否正確、顏色是否匹配、位置關系是否合理等。基于這些自我評價，模型可以通過強化學習不斷改進自己的生成質量。

在視覺空間規劃任務中，LatentUM展現了更加復雜的推理能力。面對迷宮導航問題時，模型采用了兩種策略。粗粒度規劃類似于先在腦海中構建整個路徑圖，然后一次性給出完整的解決方案。而細粒度規劃則更像是一步一步地探索，每走一步都會更新對環境的理解，然后基于新的理解決定下一步行動。

世界模型的應用展示了LatentUM在時間維度上的推理能力。給定當前的環境狀態和即將執行的動作，模型能夠預測下一時刻的環境狀態。更令人驚喜的是，由于動作也被表示為文本令牌，模型甚至可以理解自然語言描述的動作指令，比如"靠近左邊的房子"，然后生成相應的未來視覺狀態。

四、實驗驗證：全面超越現有方法

研究團隊在多個基準測試上驗證了LatentUM的效果。在基礎的視覺理解任務上，即使使用量化后的特征，LatentUM的性能也與使用原始特征時相當，這證明了MBAQ方法的有效性。在某些情況下，量化特征甚至表現得更好，因為它們去除了對理解任務無關的細節信息。

在視覺生成任務上，LatentUM在GenEval基準上達到了0.85的分數，超過了所有其他統一模型，盡管使用的訓練數據相對較少。更重要的是，通過自我反思的強化學習訓練，模型在GenEval上的表現進一步提升到0.87，在GenEval2上更是達到了31.3的高分，大幅超越其他方法。

在視覺空間規劃任務上，LatentUM的表現尤為出色。在細粒度規劃模式下，模型在不同難度級別的迷宮上都達到了接近完美的準確率，在最高難度的6×6迷宮上仍然保持97%的成功率。這個結果不僅超越了所有現有的視覺推理模型，也驗證了統一語義表示對復雜推理任務的重要性。

五、技術細節與創新突破

LatentUM的成功離不開幾個關鍵的技術創新。首先是MBAQ量化方法，它不同于傳統的基于像素重建的量化方法，而是專注于保持視覺理解能力。研究團隊使用多碼本量化技術，將每個視覺令牌分解為8個子令牌，每個子令牌從一個包含2048個條目的碼本中選擇，這樣可以用相對較少的碼本條目表示出巨大的有效詞匯量。

在訓練策略方面，研究團隊采用了分階段的方法。首先訓練MBAQ量化器，然后固定理解分支的參數，只訓練生成分支，這樣可以保持原有的理解能力不被破壞。對于需要跨模態推理的任務，再進行聯合微調。

為了處理序列中多個視覺狀態的訓練，研究團隊設計了特殊的注意力掩碼機制，讓同一批次中的不同視覺段落可以并行處理，同時保持各自的因果結構。這個設計解決了訓練效率的問題，使得模型可以在一次前向傳播中處理整個推理序列。

像素解碼器的設計也很巧妙。它基于現有的擴散模型架構，但用量化的語義特征替代了原有的文本條件。重要的是，這個解碼器是獨立訓練的，核心模型從不直接優化像素重建損失，這保持了語義空間的純粹性。

六、應用前景與意義

LatentUM的成功展示了統一多模態AI系統的巨大潛力。在實際應用中，這樣的系統可以用于智能設計助手，它不僅能根據用戶描述生成設計圖，還能分析設計的合理性并提出改進建議。在教育領域，它可以幫助創建互動式的視覺學習材料，根據學生的理解程度動態調整內容的復雜度和表現形式。

在機器人領域，LatentUM的世界模型能力特別有價值。機器人可以在執行動作前先在"腦海"中模擬可能的結果，這種能力對于復雜環境中的導航和操作任務至關重要。而且，由于模型能理解自然語言指令，人機交互也會變得更加自然和直觀。

研究團隊也坦誠地指出了當前的局限性。模型目前只支持固定分辨率的生成，訓練規模相對較小。在世界模型應用中，系統仍然依賴像素空間的遞歸接口，而非完全的潛在遞歸預測。此外，由于MBAQ目前只對齊到單一視覺語言模型的行為，學到的語義表示的通用性還需要進一步探索。

不過，這些限制也指明了未來的發展方向：擴大預訓練數據和模型規模、支持可變分辨率和更長上下文的生成、改進長期預測的時間一致性，以及開發完全在潛在空間中運行的世界模型和規劃流程。

說到底，LatentUM代表了多模態AI發展的一個重要里程碑。它證明了通過巧妙的架構設計和訓練策略，我們可以構建出既高效又強大的統一AI系統。這種系統不僅在技術上更加優雅，也為實現真正智能的AI奠定了基礎——一個能夠像人類一樣seamlessly地在理解和生成之間切換，在不同模態之間進行復雜推理的AI系統。

雖然距離實現人類級別的多模態智能還有很長的路要走，但LatentUM無疑為我們指明了一個充滿希望的方向。它告訴我們，統一的表示學習不僅是可能的，也是實現更強大AI系統的關鍵。

Q&A

Q1：LatentUM與現有的多模態AI系統有什么根本區別？

A：LatentUM的最大區別是實現了真正的統一語義空間。傳統系統中，理解圖像和生成圖像使用不同的"語言"，需要像素轉換作為橋梁，效率低且容易出錯。LatentUM讓這兩個功能使用同一套語義表示，生成的圖像可以直接被模型理解，無需任何轉換，就像培養了一個既能看懂畫又能畫畫，且思維體系完全一致的藝術家。

Q2：MBAQ量化方法為什么比傳統的像素重建方法更好？

A：MBAQ專注于保持視覺理解能力，而不是重建像素細節。就像訓練一個藝術助手，傳統方法要求助手完美復制每個筆觸，而MBAQ只要求助手的藝術判斷與專家一致。這樣訓練出來的系統能夠保留對理解任務最重要的語義信息，去除無關的視覺細節，使得生成的圖像更符合語義要求而不是像素完美。

Q3：LatentUM在實際應用中能做什么傳統AI做不到的事？

A：LatentUM可以進行真正的跨模態推理，比如在生成圖像后立即評判自己的作品并改進，或者在復雜的空間規劃任務中邊走邊思考邊更新策略。在世界模型應用中，它甚至能理解自然語言動作指令如"靠近左邊的房子"，然后生成相應的未來視覺狀態。這些能力讓AI從簡單的生成工具變成了真正能夠思考和推理的智能系統。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.