![]()
智東西
作者 李水青
編輯 漠影
智東西2月1日報道,北京時間1月29日,北京智源人工智能研究院推出的多模態大模型“悟界·Emu”登上Nature正刊,成為繼DeepSeek之后第二個達成此成就的中國大模型團隊研究成果,也是中國首篇圍繞多模態大模型路線的Nature論文。
![]()
▲Nature官網截圖
Nature編輯點評道:“Emu3僅基于‘預測下一個token’實現了大規模文本、圖像和視頻的統一學習,其在生成與感知任務上的性能可與使用專門路線相當,這一成果對構建可擴展、統一的多模態智能系統具有重要意義,有望推動原生多模態助手、世界模型以及具身智能等方向的發展。”

▲Emu3有望推動具身智能等方向發展
“悟界·Emu3”模型由智源研究院于2024年10月推出。無論在感知和還是生成方面,Emu3均達到了與特定任務旗艦模型相媲美的性能。該模型能夠完成文本到圖像生成、文本到視頻生成、未來預測、視覺語言理解、交錯圖像文本生成以及具身操作等多方面任務,這一成果對于確立自回歸成為生成式AI統一路線具有重大意義。
如下圖所示,Emu3的圖像生成在MSCOCO-30K23等基準上表現優于SDXL等擴散模型;視頻生成在VBench評分達81,超過Open-Sora 1.2;視覺語言理解得分62.1,略高于LLaVA-1.6。盡管這一成績在如今已經比較尋常,但在兩年前卻非同一般。
![]()
▲Emu3圖像生成、視覺-語言理解和視頻生成的主要測評結果
前OpenAI政策主管、現Anthropic聯合創始人杰克·克拉克(Jack Clark)當時評價Emu3:“不依賴花哨的架構技巧,僅用最基礎的預測下一個token的邏輯,這種‘簡單’被視為具備強大的擴展潛力。”
而正是這種“簡單”架構路線,對降低大模型研發門檻和成本意義重大。“越是極簡的架構,可能越具備強大的生產力,對產業的價值也越大。”智源研究院院長王仲遠告訴智東西,“因為它簡化了多模態AI架構,減少了研發過程中的復雜性和潛在錯誤,從而使模型的構建和維護更高效。”
![]()
▲智源研究院院長王仲遠
到2025年10月,“悟界·Emu”系列已迭代出多模態世界模型。Emu3.5可以理解長時序、空間一致的序列,模擬在虛擬世界中的探索和操作,不僅超越谷歌Nano Banana等模型拿下多模態SOTA,并首次指明了“多模態Scaling 范式”,讓模型自發學習世界演變的內在規律,為具身智能等物理AI領域發展提供了重要新路徑。

▲Emu3.5延續了多模態數據統一建模的核心思想
Emu3為什么能夠登上Nature正刊,得到國際學術界的高度認可?背后誕生了什么樣的AI原創技術,并經歷了什么樣的挑戰?這又將對學界和產業界的發展產生什么樣的實際影響?本文試圖對這些問題進行深入探討。
論文名:
《通過預測下一個token進行多模態學習的多模態大模型(Multimodal learning with next-token prediction for large multimodal models)》
論文地址:
https://www.nature.com/articles/s41586-025-10041-x
GitHub地址:
https://github.com/baaivision/Emu3
![]()
▲Emu3論文部分截圖
一、50人小組死磕“統一”:一場押注AI未來的技術豪賭
Emu3模型最早立項是在2024年2月,當時正值團隊重新審視大模型發展路徑——隨著GPT-4、Sora的爆火,“預測下一個token”自回歸路線徹底改變了語言模型領域,并引發了關于AGI早期跡象的討論,而在多模態生成領域,DiT(Difussion Transformer)架構成為主流,開始展現出令人驚艷的生成效果。
自回歸技術路線是否可以作為通用路線統一多模態?一直是未解之謎。
Emu3的開創性,就在于僅采用“預測下一個token(NTP)”自回歸路線,就實現統一多模態學習,訓練出性能出色的原生多模態大模型。
時間線拉回到立項之前,當時智源研究院團隊進行了大量分析和辯論,達成一個共識——多模態是未來實現AGI的關鍵路徑,但現有的多模態生成長期以來由擴散模型主導,而視覺語言感知則主要由組合式方法引領,并不收斂統一,存在技術天花板。
盡管已有業內人士試圖統一生成與感知(如Emu和Chameleon),但這些工作要么簡單地將大語言模型與擴散模型拼接在一起,要么在性能效果上不及那些針對生成或感知任務精心設計的專用方法。
自回歸架構能否作為原生統一多模態的技術路線,信與不信,這是一個重大的技術決策。最終在2024年2月底,智源研究院決定,組建一支五十人的技術攻關團隊,以自回歸架構為核心進行研發,并采用離散的token方式,以精簡架構和大規模復用的大語言模型基礎設施,開啟全新的多模態模型Emu3的研發工作。
該模型開創性地將圖像、文本和視頻統一離散化到同一個表示空間中,并從零開始,在多模態序列混合數據上聯合訓練一個單一的 Transformer。
![]()
▲Emu3可完成不同多模態任務
這是一條挑戰傳統的“冒險”之路,在成功之前,智源研究院團隊經歷了重重挑戰。
首先不言而喻的是技術上的挑戰。選擇“離散的token”方式本身是一種冒險,因為它嘗試為視覺和其他模態重新發明一種與人類文字語言對齊的語言體系。在圖像壓縮過程中,由于圖像信息相較于文字的信息量更大,但冗余更多,這使得基于token壓縮圖像時難以訓練出有效模型,在這個過程中也難免受挫和沮喪。
第二,更深層次的是路徑上的質疑。2024年國內各個大模型團隊都在如火如荼地復現GPT-4,很多頭部玩家一邊也布局了多模態模型,但實際過程中存在搖擺,最終因資源消耗大、主線仍聚焦于語言模型等原因而砍掉了團隊。智源研究院在這樣的產業大背景下堅持了下來,背后需要一號位強大的信念和團隊強大的定力。
第三,“多模態能否提升模型的智能”這個問題,當時還沒有完全成定論。但智源團隊堅信,下一代模型如果要進入到物理世界,僅靠文字是不夠的,需要一個“見過世界”的模型。他們相信,不管突破多模態模型乃至世界模型智能升級有多難,它都是實現AGI的一條必經之路。
二、性能匹敵專用模型:兩年,Emu3已深度影響產業發展脈絡
多位業內專業人士告訴智東西,Emu3模型發布兩年多以來,已經對多模態領域產生了顯著影響,推動了整個產業的發展脈絡。有證據表明其在產業界中得到了廣泛應用和高度認可。
而進入產業應用的前提,是Emu3首先打贏了“性能”這一仗。在多模態生成與感知任務上,Emu3的整體表現可與多種成熟的任務專用模型相媲美。
首先聚焦文本到圖像生成能力,在MSCOCO-30K23、GenEval24、T2I-CompBench25等多個基準上,Emu3的性能與當時最先進的擴散模型相當:超越了SD1.5、SDXL等模型,并接近DALL-E 3、FLUX.1(Dev)等模型。
![]()
▲Emu3的性能與最先進的擴散模型相當
如下圖所示,在文生圖任務中,其效果達到擴散模型水平;在視覺語言理解方面,其可以與融合CLIP和大語言模型的主流方案比肩。
![]()
▲Emu3在文生圖和視覺語言理解上比肩主流方案
在視覺語言理解方面,如下圖所示,Emu3作為一種純粹的無編碼器方法,在多個基準測試中達到了與其同類方法相當的性能。取得這樣的視覺-語言理解能力,Emu3并未依賴專門的預訓練大語言模型和CLIP。
![]()
▲Emu3在視覺-語言理解能力方面的測評成績
在零樣本圖像修復案例中,給定輸入圖像(每行左側)和相應提示,Emu3能準確填充邊界框內的掩碼區域,生成語義對齊的內容,且無需特定任務的微調。
![]()
▲Emu3零樣本圖像修復
同時,Emu3還具備視頻生成能力。Emu3原生支持生成24幀/秒的5秒視頻,并可通過自回歸方法進行擴展。如圖所示,在擴展數據表3中,Emu3所產生的結果與其他視頻擴散模型相比具有很強的競爭力:Emu3的性能超過Open Sora V1.2、Kling(2024)、Gen-3等當年的知名專用模型。
![]()
▲Emu3與其他視頻擴散模型對比情況
Emu3可以通過預測未來幀來擴展視頻。以視頻擴展的定性為例,將2秒、24幀/秒的視頻token化為離散視覺token作為上下文。Emu3以同樣的離散視覺token形式預測后續2秒的內容,這些token可以被解token化以生成預測的未來視頻。
不同于Sora等模型的以噪聲為起點的擴散式視頻生成模型,Emu3通過自回歸方式逐token預測視頻序列,實現基于因果的視頻生成與延展,展現出對物理世界中環境、人類與動物行為的初步模擬能力。
Emu3還可拓展至視覺語言交錯生成,例如圖文并茂的菜譜生成。
![]()
▲交錯圖文生成結果的可視化
其也可拓展至視覺語言動作建模,如機器人操作VLA等,進一步體現了“預測下一個token”的通用性。
![]()
▲Droid數據集上視覺預測的可視化
事實上,在Nature論文之外,智源研究院于2025年10月30日發布了Emu3的后續版本Emu3.5,其在多種多模態任務上繼續展現出令人驚艷的效果以及SOTA的結果,對比Emu3有了全方位、大幅度的性能提升,開啟多模態世界大模型新紀元。
“悟界·Emu”系列在架構理念和實際效果上都達到了產品級,這才使它不僅在學術界獲得了《自然》期刊的高度認可,而且在業界引起了廣泛關注。Emu3及后續版本的成果具有重大產業應用前景,可能改寫整個多模態大模型格局,為中國在下一代大模型下的原創科研成果樹立了典范。
三、擴散模型已死?技術角度揭秘Emu3框架
Emu3及后續版本的發布,一度在開發者社區引起討論和關注,甚至產生了“擴散模型已死”的說法。
對此,王仲遠坦言,目前對于擴散模型的研究趨勢尚不能定論。雖然有一些成果如Emu3.5提供了世界模型的可行路徑,但并非唯一路徑。未來可能會有更多技術路徑實現“預測下一個狀態”,且擴散模型也在與其他技術結合改進。因此,不能斷言擴散模型會消失,而是需要持續觀察和學習交流。
盡管不能斷言自回歸路線已經一統天下,但Emu3已經為產業提供了一條新的康莊大道。
回到Emu3模型架構來看,其保留了Llama-2等成熟大語言模型的架構框架,主要修改在于擴展了嵌入層以容納離散的視覺標記。這是一個統一的、僅含解碼器的框架,該框架將語言、圖像和視頻建模為單一的離散標記序列,并通過下一個標記預測目標進行端到端訓練。
下圖展示了該框架,其方法包含五個緊密集成的組件:
1、一個大型的混合多模態訓練數據集。
2、一個統一的標記器,可將圖像和視頻片段轉換為緊湊的離散標記流(視覺分詞器)。
3、一個基于Transformer的僅解碼器架構,該架構擴展了大型語言模型的嵌入空間以接受視覺標記,其他方面則遵循標準的僅解碼器設計選擇(架構)。
4、一個兩階段優化方案,包括采用平衡交叉熵損失的大規模多模態預訓練,以及與任務格式和人類偏好對齊的高質量后訓練(預訓練和后訓練)。
5、一個高效的推理后端,支持無分類器引導(CFG)、低延遲和高吞吐量,用于自回歸多模態生成(推理)。
![]()
▲Emu3架構圖
這一架構證明,僅憑“預測下一個token”,我們就能夠同時支持高水平的生成能力與理解能力,并且在同一統一架構下,自然地擴展到機器人操作以及多模態交錯等生成任務。智源研究團隊對相關研究的多項關鍵技術與模型進行了開源,以推動該方向的持續研究。
同時,研究通過大規模消融實驗系統分析了多項關鍵技術的設計選擇,驗證了多模態學習的規模定律(Scaling law)、統一離散化的高效性、以及解碼器架構的有效性。研究還驗證了自回歸路線高度通用性:直接偏好優化(DPO)方法可無縫應用于自回歸視覺生成任務,使模型能夠更好地對齊人類偏好。
在此研究基礎上,悟界·Emu3.5進一步通過大規模長時序視頻訓練,學習時空與因果關系,展現出隨模型與數據規模增長而提升的物理世界建模能力,并觀察到多模態能力隨規模擴展而涌現的趨勢,實現了“預測下一個狀態”的范式升級。
四、堅持原始創新:北京智源引領大模型技術演進
自2018年創立之后,智源研究院通過多項成果深刻影響了中國AI學術和產業界。其在2021年發布了中國首個大語言模型“悟道1.0”,及當時全球最大的大語言模型(采用MoE架構)“悟道2.0”,同時因輸送大量頂尖AI產業人才被稱為“大模型的黃埔軍校”。
智源2022年開辟的新的模型系列——悟界·Emu研究成果的發表,不僅是國際學術界對智源研究團隊工作的認可,更是對中國AI原創技術路線的重要肯定。
Emu系列模型自2022年啟動研發以來,圍繞“原生多模態”這一核心技術主線持續迭代,每一個版本都在關鍵能力與方法論上實現了實質性突破。
2022年6月,系統布局多模態大模型的研發。
2023年7月,發布并開源首個版本,成為最早打通多模態輸入到多模態輸出的統一多模態模型,創新性提出統一多模態學習框架并大規模引入視頻數據,初步實現多模態自回歸預測。
2023年12月,發布Emu2,通過大規模自回歸生成式多模態預訓練,展現出可泛化的多模態上下文學習能力,可在少量示例和簡單指令下完成聽、說、讀、寫、畫等任務,是當時開源最大的生成式多模態模型。
2024年10月,發布Emu3,該模型只基于預測下一個token,無需擴散模型或組合方法,即可完成文本、圖像、視頻三種模態數據的理解和生成。
2025年10月,推出原生多模態世界模型Emu3.5,實現從 “預測下一個token” 到 “預測下一個狀態” 的能力躍遷,從長視頻數據中學習世界演化規律,提出多模態 Scaling 新范式。
自2020年啟動“悟道”大模型研究以來,智源持續聚焦大模型的原始創新與長期技術路徑探索。2025年6月,智源發布新一代大模型系列“悟界”,旨在構建人工智能從數字世界邁向物理世界的關鍵能力,及物理世界的人工智能基座模型。
“悟界”系列模型構建起覆蓋宏觀具身智能、介觀生命系統到微觀構象動力學的多層次技術基座。FlagOS開源系統軟件棧更是為模型的訓練和推理帶來效率突破和多元AI硬件適配能力。
智源自成立以來,始終堅持開源開放理念。官方數據顯示,智源已開源200多款模型,全球下載量超過7.6億次,并開源了180多個數據集,全球下載量超過500萬次。這些舉措在國內AI科研機構中名列前茅,對開源社區和產業界做出了獨特貢獻。
王仲遠告訴智東西,開源開放是智源研究院從成立之初起就始終堅持的理念,未來智源將持續在大模型技術及產業發展中起到表率作用,不僅開放模型權重,還將開放數據訓練代碼和產業應用案例,促進開源生態和產業鏈共同發展。
結語:扎根AI基礎研究,北京“開源之都”建設初見成效
作為大模型第一城、開源之都,北京在近幾個月成果不斷。
“全球大模型第一股”智譜剛剛在1月8日成功上市,并聯合華為開源首個在國產芯片上完成全程訓練的SOTA多模態模型GLM-Image;緊接著百度文心大模型5.0在1月24號上線,在40余項權威基準的綜合評測中穩居國際第一梯隊;月之暗面Kimi在1月27日開源新模型K2.5,可調度百員智能體集群,比單智能體任務執行效率提升4.5倍……
而智源研究院在繼10月推出世界大模型悟界·Emu3.5后,再次靠Emu3刷新紀錄,開創了我國科研機構主導的大模型成果首次在Nature正刊發表的歷史。下一步,王仲遠透露,智源將持續投入資源研發新一代人工智能技術,包括世界模型、具身智能及生命科學智能研究,目標是構建AI在物理世界中的基礎模型和關鍵能力。
這是一次中國AI原始創新的勝利。一方面,高密度的人才隊伍、充足的算力資源、機構的堅定技術信仰、地方政策支持都為其提供了動力和保障;另一方面,或許也只有智源這樣產學兩棲的機構這才有可能發生,相比于高校擁有更多算力、工程團隊、企業化運作的優勢;相比于企業,他們不用完全服務業務,可以去做真正具有前瞻性、突破性科研項目。
北京“開源之都”建設初見成效。背后,北京在大模型領域的領先,并非僅僅依靠項目數量或融資規模,而更在于對基礎能力的扎實投入,以及對“慢變量”培育的長期堅守。自2023年起,《北京市加快建設具有全球影響力的人工智能創新策源地實施方案(2023-2025年)》《北京市促進通用人工智能創新發展的若干措施》等文件相繼出臺,北京明確將AI作為“新質生產力”的核心引擎。
去年4月,北京市科委、中關村管委會透露,一批北京企業都積極擁抱開源,北京也在組織優勢單位開源RISC-V處理器核、基礎及專業數據集、系列大模型,持續建設開源項目孵化平臺,積極打造中國版“Hugging Face”,并持續推動開源生態建設。
隨著全球大模型競爭步入深水區,北京在AI基礎領域的扎實投入正日益展現出其深遠價值。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.