智源多模態(tài)大模型登Nature，生成式人工智能路線統(tǒng)一到自回歸

2026-01-30 18:31:32　來源: 人工智能學家

北京舉報

分享至

來源：智源研究院

2026年1月28日，智源多模態(tài)大模型成果"Multimodal learning with next-token prediction for large multimodal models（通過預測下一個詞元進行多模態(tài)學習的多模態(tài)大模型）"上線國際頂級學術(shù)期刊Nature，預計2月12日紙質(zhì)版正式刊發(fā)，這是我國科研機構(gòu)主導的大模型成果首次在Nature正刊發(fā)表。

2018年以來，GPT采用 “預測下一個詞元（Next-token prediction，NTP）”的自回歸路線，實現(xiàn)了語言大模型重大突破，開啟了生成式人工智能浪潮。

而多模態(tài)模型主要依賴對比學習、擴散模型等專門路線，自回歸路線是否可以作為通用路線統(tǒng)一多模態(tài)？一直是未解之謎。智源這項成果表明，只采用自回歸路線，就可以統(tǒng)一多模態(tài)學習，訓練出優(yōu)秀的原生多模態(tài)大模型，對于確立自回歸成為生成式人工智能統(tǒng)一路線具有重大意義。

https://www.nature.com/articles/s41586-025-10041-x

Nature編輯點評這項研究：Emu3 僅基于預測下一個詞元（Next-token prediction），實現(xiàn)了大規(guī)模文本、圖像和視頻的統(tǒng)一學習，其在生成與感知任務(wù)上的性能可與使用專門路線相當，這一成果對構(gòu)建可擴展、統(tǒng)一的多模態(tài)智能系統(tǒng)具有重要意義。

在后續(xù)迭代的Emu3.5版本，確實證明了這一范式的可拓展性，并達成預測下一個狀態(tài)（Next-state prediction)的能力躍遷，獲得可泛化的世界建模能力。

從語言到多模態(tài)：

“預測下一個詞元”的潛力與未解之問

“預測下一個詞元”徹底改變了語言模型，促成了如 ChatGPT等突破性成果，并引發(fā)了關(guān)于通用人工智能（AGI）早期跡象的討論。然而，其在多模態(tài)學習中的潛力一直不甚明朗。

在多模態(tài)模型領(lǐng)域，視覺生成長期以來由結(jié)構(gòu)復雜的擴散模型主導，而視覺語言感知則主要由組合式方法引領(lǐng) ，這些方法通常將CLIP編碼器與大語言模型（LLMs）結(jié)合。盡管已有一些嘗試試圖統(tǒng)一生成與感知（如Emu和Chameleon），但這些工作要么簡單將LLM與擴散模型拼接在一起，要么在性能效果上不及那些針對生成或感知任務(wù)精心設(shè)計的專用方法。這就留下了一個根本性的科學問題：單一的預測下一個詞元框架是否能夠作為通用的多模態(tài)學習范式？

Emu3：

以單一框架統(tǒng)一多模態(tài)生成與感知

就此，智源提出了Emu3，基于“預測下一個詞元”的全新多模態(tài)模型，將圖像、文本和視頻統(tǒng)一離散化到同一個表示空間中，并從零開始，在多模態(tài)序列混合數(shù)據(jù)上聯(lián)合訓練一個單一的 Transformer。這一架構(gòu)證明了僅憑“預測下一個詞元”，就能夠同時支持高水平的生成能力與理解能力，并且在同一統(tǒng)一架構(gòu)下，自然地擴展到機器人操作以及多模態(tài)交錯等生成任務(wù)。此外，研究團隊還做了大量消融實驗和分析，驗證了多模態(tài)學習的規(guī)模定律（Scaling law）、統(tǒng)一離散化的高效性、以及解碼器架構(gòu)的有效性。

Emu3 架構(gòu)圖

實驗顯示，Emu3在生成與感知任務(wù)上的整體表現(xiàn)可與多種成熟的任務(wù)專用模型相媲美：在文生圖任務(wù)中，其效果達到擴散模型水平；在視覺語言理解方面，可以與融合CLIP和大語言模型的主流方案比肩。此外，Emu3還具備視頻生成能力。不同于以噪聲為起點的擴散式視頻生成模型，Emu3通過自回歸方式逐詞元（token）預測視頻序列，實現(xiàn)基于因果的視頻生成與延展，展現(xiàn)出對物理世界中環(huán)境、人類與動物行為的初步模擬能力。

從模型到范式：

Emu3對多模態(tài)學習的啟示

不同于 Sora 的擴散式視頻生成，Emu3采用純自回歸方式逐詞元（token）生成視頻，能夠在給定上下文下進行視頻延展與未來預測，并在文本引導下生成高保真視頻。此外，Emu3 還可拓展至視覺語言交錯生成，例如圖文并茂的菜譜生成；也可拓展至視覺語言動作建模，如機器人操作VLA等，進一步體現(xiàn)了“預測下一個詞元”的通用性。

智源研究團隊對相關(guān)研究的多項關(guān)鍵技術(shù)與模型進行了開源，以推動該方向的持續(xù)研究。其中包括一個穩(wěn)定且通用的視覺分詞器（tokenizer），可將圖像與視頻高效轉(zhuǎn)換為離散詞元來表示。同時，研究通過大規(guī)模消融實驗系統(tǒng)分析了多項關(guān)鍵技術(shù)的設(shè)計選擇，例如：分詞器（tokenizer）碼本尺寸、初始化策略、多模態(tài)dropout機制以及損失權(quán)重配置等，揭示了多模態(tài)自回歸模型在訓練過程中的動態(tài)特性。研究還驗證了自回歸路線高度通用性：直接偏好優(yōu)化（DPO）方法可無縫應(yīng)用于自回歸視覺生成任務(wù)，使模型能夠更好地對齊人類偏好。

研究有力表明了預測下一個詞元可作為多模態(tài)模型的核心范式，突破語言模型的邊界，在多種多模態(tài)任務(wù)中展現(xiàn)了強勁性能。通過簡化復雜的模型設(shè)計、聚焦統(tǒng)一詞元，該方法在訓練與推理階段均展現(xiàn)出顯著的可擴展性，為統(tǒng)一多模態(tài)學習奠定了堅實基礎(chǔ)，有望推動原生多模態(tài)助手、世界模型以及具身智能等方向的發(fā)展。

在此研究基礎(chǔ)上，悟界·Emu3.5進一步通過大規(guī)模長時序視頻訓練，學習時空與因果關(guān)系，展現(xiàn)出隨模型與數(shù)據(jù)規(guī)模增長而提升的物理世界建模能力，并觀察到多模態(tài)能力隨規(guī)模擴展而涌現(xiàn)的趨勢，實現(xiàn)了“預測下一個狀態(tài)”的范式升級。

堅持原始創(chuàng)新：

智源持續(xù)引領(lǐng)大模型技術(shù)演進

悟界·Emu研究成果的發(fā)表，不僅是國際學術(shù)界對智源研究團隊工作的認可，更是對人工智能原創(chuàng)技術(shù)路線的肯定。Emu 系列模型自 2022 年啟動研發(fā)以來，圍繞“原生多模態(tài)”這一核心技術(shù)主線持續(xù)迭代，每一個版本都在關(guān)鍵能力與方法論上實現(xiàn)了實質(zhì)性突破。

2022年6月，系統(tǒng)布局多模態(tài)大模型的研發(fā)。

2023年7月，發(fā)布并開源首個版本，成為最早打通多模態(tài)輸入到多模態(tài)輸出的統(tǒng)一多模態(tài)模型，創(chuàng)新性提出統(tǒng)一多模態(tài)學習框架并大規(guī)模引入視頻數(shù)據(jù)，初步實現(xiàn)多模態(tài)自回歸預測。

2023年12月，發(fā)布Emu2，通過大規(guī)模自回歸生成式多模態(tài)預訓練，展現(xiàn)出可泛化的多模態(tài)上下文學習能力，可在少量示例和簡單指令下完成聽、說、讀、寫、畫等任務(wù)，是當時開源最大的生成式多模態(tài)模型。

2024年10月，發(fā)布Emu3，該模型只基于預測下一個詞元，無需擴散模型或組合方法，即可完成文本、圖像、視頻三種模態(tài)數(shù)據(jù)的理解和生成。

2025年10月，推出原生多模態(tài)世界模型Emu3.5，實現(xiàn)從 “預測下一個詞元” 到 “預測下一個狀態(tài)” 的能力躍遷，從長視頻數(shù)據(jù)中學習世界演化規(guī)律，提出多模態(tài) Scaling 新范式。

自 2020年啟動“悟道”大模型研究以來，智源持續(xù)聚焦大模型的原始創(chuàng)新與長期技術(shù)路徑探索。2025年6月，智源發(fā)布新一代大模型系列“悟界”，旨在構(gòu)建人工智能從數(shù)字世界邁向物理世界的關(guān)鍵能力，及物理世界的人工智能基座模型。這其中包括：Emu 系列多模態(tài)世界模型、RoboBrain跨本體具身大腦、數(shù)字孿生心臟、Brainμ 腦科學多模態(tài)基礎(chǔ)模型以及OpenComplex全原子生命模型等，構(gòu)建起覆蓋宏觀具身智能、介觀生命系統(tǒng)到微觀構(gòu)象動力學的多層次技術(shù)基座。FlagOS開源系統(tǒng)軟件棧更是為模型的訓練和推理帶來效率突破和多元AI硬件適配能力。

成立七年來，智源聚焦人工智能技術(shù)前沿，挑戰(zhàn)最基礎(chǔ)的問題和最關(guān)鍵的難題，推進大模型技術(shù)不斷演進。隨著Emu等研究成果發(fā)表于Nature等國際頂級期刊，智源將繼續(xù)圍繞智能與物理世界的深層關(guān)聯(lián)，推進面向下一代人工智能的科研創(chuàng)新。

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯(lián)網(wǎng)、超級智能，數(shù)智大腦、能源、軍事、經(jīng)濟、人類風險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.