![]()
來源:智源研究院
2026年1月28日,智源多模態(tài)大模型成果"Multimodal learning with next-token prediction for large multimodal models(通過預測下一個詞元進行多模態(tài)學習的多模態(tài)大模型)"上線國際頂級學術(shù)期刊Nature,預計2月12日紙質(zhì)版正式刊發(fā),這是我國科研機構(gòu)主導的大模型成果首次在Nature正刊發(fā)表。
2018年以來,GPT采用 “預測下一個詞元(Next-token prediction,NTP)”的自回歸路線,實現(xiàn)了語言大模型重大突破,開啟了生成式人工智能浪潮。
而多模態(tài)模型主要依賴對比學習、擴散模型等專門路線,自回歸路線是否可以作為通用路線統(tǒng)一多模態(tài)?一直是未解之謎。智源這項成果表明,只采用自回歸路線,就可以統(tǒng)一多模態(tài)學習,訓練出優(yōu)秀的原生多模態(tài)大模型,對于確立自回歸成為生成式人工智能統(tǒng)一路線具有重大意義。
![]()
https://www.nature.com/articles/s41586-025-10041-x
Nature編輯點評這項研究:Emu3 僅基于預測下一個詞元(Next-token prediction),實現(xiàn)了大規(guī)模文本、圖像和視頻的統(tǒng)一學習,其在生成與感知任務(wù)上的性能可與使用專門路線相當,這一成果對構(gòu)建可擴展、統(tǒng)一的多模態(tài)智能系統(tǒng)具有重要意義。
在后續(xù)迭代的Emu3.5版本,確實證明了這一范式的可拓展性,并達成預測下一個狀態(tài)(Next-state prediction)的能力躍遷,獲得可泛化的世界建模能力。
從語言到多模態(tài):
“預測下一個詞元”的潛力與未解之問
“預測下一個詞元”徹底改變了語言模型,促成了如 ChatGPT等突破性成果,并引發(fā)了關(guān)于通用人工智能(AGI)早期跡象的討論。然而,其在多模態(tài)學習中的潛力一直不甚明朗。
在多模態(tài)模型領(lǐng)域,視覺生成長期以來由結(jié)構(gòu)復雜的擴散模型主導,而視覺語言感知則主要由組合式方法引領(lǐng) ,這些方法通常將CLIP編碼器與大語言模型(LLMs)結(jié)合。盡管已有一些嘗試試圖統(tǒng)一生成與感知(如Emu和Chameleon),但這些工作要么簡單將LLM與擴散模型拼接在一起,要么在性能效果上不及那些針對生成或感知任務(wù)精心設(shè)計的專用方法。這就留下了一個根本性的科學問題:單一的預測下一個詞元框架是否能夠作為通用的多模態(tài)學習范式?
Emu3:
以單一框架統(tǒng)一多模態(tài)生成與感知
就此,智源提出了Emu3,基于“預測下一個詞元”的全新多模態(tài)模型,將圖像、文本和視頻統(tǒng)一離散化到同一個表示空間中,并從零開始,在多模態(tài)序列混合數(shù)據(jù)上聯(lián)合訓練一個單一的 Transformer。這一架構(gòu)證明了僅憑“預測下一個詞元”,就能夠同時支持高水平的生成能力與理解能力,并且在同一統(tǒng)一架構(gòu)下,自然地擴展到機器人操作以及多模態(tài)交錯等生成任務(wù)。此外,研究團隊還做了大量消融實驗和分析,驗證了多模態(tài)學習的規(guī)模定律(Scaling law)、統(tǒng)一離散化的高效性、以及解碼器架構(gòu)的有效性。
![]()
Emu3 架構(gòu)圖
實驗顯示,Emu3在生成與感知任務(wù)上的整體表現(xiàn)可與多種成熟的任務(wù)專用模型相媲美:在文生圖任務(wù)中,其效果達到擴散模型水平;在視覺語言理解方面,可以與融合CLIP和大語言模型的主流方案比肩。此外,Emu3還具備視頻生成能力。不同于以噪聲為起點的擴散式視頻生成模型,Emu3通過自回歸方式逐詞元(token)預測視頻序列,實現(xiàn)基于因果的視頻生成與延展,展現(xiàn)出對物理世界中環(huán)境、人類與動物行為的初步模擬能力。
從模型到范式:
Emu3對多模態(tài)學習的啟示
不同于 Sora 的擴散式視頻生成,Emu3采用純自回歸方式逐詞元(token) 生成視頻,能夠在給定上下文下進行視頻延展與未來預測,并在文本引導下生成高保真視頻。此外,Emu3 還可拓展至視覺語言交錯生成,例如圖文并茂的菜譜生成;也可拓展至視覺語言動作建模,如機器人操作VLA等,進一步體現(xiàn)了“預測下一個詞元”的通用性。
智源研究團隊對相關(guān)研究的多項關(guān)鍵技術(shù)與模型進行了開源,以推動該方向的持續(xù)研究。其中包括一個穩(wěn)定且通用的視覺分詞器(tokenizer),可將圖像與視頻高效轉(zhuǎn)換為離散詞元來表示。同時,研究通過大規(guī)模消融實驗系統(tǒng)分析了多項關(guān)鍵技術(shù)的設(shè)計選擇,例如:分詞器(tokenizer)碼本尺寸、初始化策略、多模態(tài)dropout機制以及損失權(quán)重配置等,揭示了多模態(tài)自回歸模型在訓練過程中的動態(tài)特性。研究還驗證了自回歸路線高度通用性:直接偏好優(yōu)化(DPO)方法可無縫應(yīng)用于自回歸視覺生成任務(wù),使模型能夠更好地對齊人類偏好。
研究有力表明了預測下一個詞元可作為多模態(tài)模型的核心范式,突破語言模型的邊界,在多種多模態(tài)任務(wù)中展現(xiàn)了強勁性能。通過簡化復雜的模型設(shè)計、聚焦統(tǒng)一詞元,該方法在訓練與推理階段均展現(xiàn)出顯著的可擴展性,為統(tǒng)一多模態(tài)學習奠定了堅實基礎(chǔ),有望推動原生多模態(tài)助手、世界模型以及具身智能等方向的發(fā)展。
在此研究基礎(chǔ)上,悟界·Emu3.5進一步通過大規(guī)模長時序視頻訓練,學習時空與因果關(guān)系,展現(xiàn)出隨模型與數(shù)據(jù)規(guī)模增長而提升的物理世界建模能力,并觀察到多模態(tài)能力隨規(guī)模擴展而涌現(xiàn)的趨勢,實現(xiàn)了“預測下一個狀態(tài)”的范式升級。
堅持原始創(chuàng)新:
智源持續(xù)引領(lǐng)大模型技術(shù)演進
悟界·Emu研究成果的發(fā)表,不僅是國際學術(shù)界對智源研究團隊工作的認可,更是對人工智能原創(chuàng)技術(shù)路線的肯定。Emu 系列模型自 2022 年啟動研發(fā)以來,圍繞“原生多模態(tài)”這一核心技術(shù)主線持續(xù)迭代,每一個版本都在關(guān)鍵能力與方法論上實現(xiàn)了實質(zhì)性突破。
2022年6月,系統(tǒng)布局多模態(tài)大模型的研發(fā)。
2023年7月,發(fā)布并開源首個版本,成為最早打通多模態(tài)輸入到多模態(tài)輸出的統(tǒng)一多模態(tài)模型,創(chuàng)新性提出統(tǒng)一多模態(tài)學習框架并大規(guī)模引入視頻數(shù)據(jù),初步實現(xiàn)多模態(tài)自回歸預測。
2023年12月,發(fā)布Emu2,通過大規(guī)模自回歸生成式多模態(tài)預訓練,展現(xiàn)出可泛化的多模態(tài)上下文學習能力,可在少量示例和簡單指令下完成聽、說、讀、寫、畫等任務(wù),是當時開源最大的生成式多模態(tài)模型。
2024年10月,發(fā)布Emu3,該模型只基于預測下一個詞元,無需擴散模型或組合方法,即可完成文本、圖像、視頻三種模態(tài)數(shù)據(jù)的理解和生成。
2025年10月,推出原生多模態(tài)世界模型Emu3.5,實現(xiàn)從 “預測下一個詞元” 到 “預測下一個狀態(tài)” 的能力躍遷,從長視頻數(shù)據(jù)中學習世界演化規(guī)律,提出多模態(tài) Scaling 新范式。
自 2020年啟動“悟道”大模型研究以來,智源持續(xù)聚焦大模型的原始創(chuàng)新與長期技術(shù)路徑探索。2025年6月,智源發(fā)布新一代大模型系列“悟界”,旨在構(gòu)建人工智能從數(shù)字世界邁向物理世界的關(guān)鍵能力,及物理世界的人工智能基座模型。這其中包括:Emu 系列多模態(tài)世界模型、RoboBrain跨本體具身大腦、數(shù)字孿生心臟、Brainμ 腦科學多模態(tài)基礎(chǔ)模型以及OpenComplex全原子生命模型等,構(gòu)建起覆蓋宏觀具身智能、介觀生命系統(tǒng)到微觀構(gòu)象動力學的多層次技術(shù)基座。FlagOS開源系統(tǒng)軟件棧更是為模型的訓練和推理帶來效率突破和多元AI硬件適配能力。
成立七年來,智源聚焦人工智能技術(shù)前沿,挑戰(zhàn)最基礎(chǔ)的問題和最關(guān)鍵的難題,推進大模型技術(shù)不斷演進。隨著Emu等研究成果發(fā)表于Nature等國際頂級期刊,智源將繼續(xù)圍繞智能與物理世界的深層關(guān)聯(lián),推進面向下一代人工智能的科研創(chuàng)新。
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.