<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      智源多模態(tài)大模型登Nature,生成式人工智能路線統(tǒng)一到自回歸

      0
      分享至


      來源:智源研究院

      2026年1月28日,智源多模態(tài)大模型成果"Multimodal learning with next-token prediction for large multimodal models(通過預測下一個詞元進行多模態(tài)學習的多模態(tài)大模型)"上線國際頂級學術(shù)期刊Nature,預計2月12日紙質(zhì)版正式刊發(fā),這是我國科研機構(gòu)主導的大模型成果首次在Nature正刊發(fā)表

      2018年以來,GPT采用 “預測下一個詞元(Next-token prediction,NTP)”的自回歸路線,實現(xiàn)了語言大模型重大突破,開啟了生成式人工智能浪潮。


      而多模態(tài)模型主要依賴對比學習、擴散模型等專門路線,自回歸路線是否可以作為通用路線統(tǒng)一多模態(tài)?一直是未解之謎。智源這項成果表明,只采用自回歸路線,就可以統(tǒng)一多模態(tài)學習,訓練出優(yōu)秀的原生多模態(tài)大模型,對于確立自回歸成為生成式人工智能統(tǒng)一路線具有重大意義。


      https://www.nature.com/articles/s41586-025-10041-x

      Nature編輯點評這項研究:Emu3 僅基于預測下一個詞元(Next-token prediction),實現(xiàn)了大規(guī)模文本、圖像和視頻的統(tǒng)一學習,其在生成與感知任務(wù)上的性能可與使用專門路線相當,這一成果對構(gòu)建可擴展、統(tǒng)一的多模態(tài)智能系統(tǒng)具有重要意義

      在后續(xù)迭代的Emu3.5版本,確實證明了這一范式的可拓展性,并達成預測下一個狀態(tài)(Next-state prediction)的能力躍遷,獲得可泛化的世界建模能力。

      從語言到多模態(tài):

      “預測下一個詞元”的潛力與未解之問

      “預測下一個詞元”徹底改變了語言模型,促成了如 ChatGPT等突破性成果,并引發(fā)了關(guān)于通用人工智能(AGI)早期跡象的討論。然而,其在多模態(tài)學習中的潛力一直不甚明朗。

      在多模態(tài)模型領(lǐng)域,視覺生成長期以來由結(jié)構(gòu)復雜的擴散模型主導,而視覺語言感知則主要由組合式方法引領(lǐng) ,這些方法通常將CLIP編碼器與大語言模型(LLMs)結(jié)合。盡管已有一些嘗試試圖統(tǒng)一生成與感知(如Emu和Chameleon),但這些工作要么簡單將LLM與擴散模型拼接在一起,要么在性能效果上不及那些針對生成或感知任務(wù)精心設(shè)計的專用方法。這就留下了一個根本性的科學問題:單一的預測下一個詞元框架是否能夠作為通用的多模態(tài)學習范式?

      Emu3:

      以單一框架統(tǒng)一多模態(tài)生成與感知

      就此,智源提出了Emu3,基于“預測下一個詞元”的全新多模態(tài)模型,將圖像、文本和視頻統(tǒng)一離散化到同一個表示空間中,并從零開始,在多模態(tài)序列混合數(shù)據(jù)上聯(lián)合訓練一個單一的 Transformer。這一架構(gòu)證明了僅憑“預測下一個詞元”,就能夠同時支持高水平的生成能力與理解能力,并且在同一統(tǒng)一架構(gòu)下,自然地擴展到機器人操作以及多模態(tài)交錯等生成任務(wù)。此外,研究團隊還做了大量消融實驗和分析,驗證了多模態(tài)學習的規(guī)模定律(Scaling law)、統(tǒng)一離散化的高效性、以及解碼器架構(gòu)的有效性。


      Emu3 架構(gòu)圖

      實驗顯示,Emu3在生成與感知任務(wù)上的整體表現(xiàn)可與多種成熟的任務(wù)專用模型相媲美:在文生圖任務(wù)中,其效果達到擴散模型水平;在視覺語言理解方面,可以與融合CLIP和大語言模型的主流方案比肩。此外,Emu3還具備視頻生成能力。不同于以噪聲為起點的擴散式視頻生成模型,Emu3通過自回歸方式逐詞元(token)預測視頻序列,實現(xiàn)基于因果的視頻生成與延展,展現(xiàn)出對物理世界中環(huán)境、人類與動物行為的初步模擬能力。

      從模型到范式:

      Emu3對多模態(tài)學習的啟示

      不同于 Sora 的擴散式視頻生成,Emu3采用純自回歸方式逐詞元(token) 生成視頻,能夠在給定上下文下進行視頻延展與未來預測,并在文本引導下生成高保真視頻。此外,Emu3 還可拓展至視覺語言交錯生成,例如圖文并茂的菜譜生成;也可拓展至視覺語言動作建模,如機器人操作VLA等,進一步體現(xiàn)了“預測下一個詞元”的通用性。

      智源研究團隊對相關(guān)研究的多項關(guān)鍵技術(shù)與模型進行了開源,以推動該方向的持續(xù)研究。其中包括一個穩(wěn)定且通用的視覺分詞器(tokenizer),可將圖像與視頻高效轉(zhuǎn)換為離散詞元來表示。同時,研究通過大規(guī)模消融實驗系統(tǒng)分析了多項關(guān)鍵技術(shù)的設(shè)計選擇,例如:分詞器(tokenizer)碼本尺寸、初始化策略、多模態(tài)dropout機制以及損失權(quán)重配置等,揭示了多模態(tài)自回歸模型在訓練過程中的動態(tài)特性。研究還驗證了自回歸路線高度通用性:直接偏好優(yōu)化(DPO)方法可無縫應(yīng)用于自回歸視覺生成任務(wù),使模型能夠更好地對齊人類偏好。

      研究有力表明了預測下一個詞元可作為多模態(tài)模型的核心范式突破語言模型的邊界,在多種多模態(tài)任務(wù)中展現(xiàn)了強勁性能。通過簡化復雜的模型設(shè)計、聚焦統(tǒng)一詞元,該方法在訓練與推理階段均展現(xiàn)出顯著的可擴展性,為統(tǒng)一多模態(tài)學習奠定了堅實基礎(chǔ),有望推動原生多模態(tài)助手、世界模型以及具身智能等方向的發(fā)展。

      在此研究基礎(chǔ)上,悟界·Emu3.5進一步通過大規(guī)模長時序視頻訓練,學習時空與因果關(guān)系,展現(xiàn)出隨模型與數(shù)據(jù)規(guī)模增長而提升的物理世界建模能力,并觀察到多模態(tài)能力隨規(guī)模擴展而涌現(xiàn)的趨勢,實現(xiàn)了“預測下一個狀態(tài)”的范式升級。

      堅持原始創(chuàng)新:

      智源持續(xù)引領(lǐng)大模型技術(shù)演進

      悟界·Emu研究成果的發(fā)表,不僅是國際學術(shù)界對智源研究團隊工作的認可,更是對人工智能原創(chuàng)技術(shù)路線的肯定。Emu 系列模型自 2022 年啟動研發(fā)以來,圍繞“原生多模態(tài)”這一核心技術(shù)主線持續(xù)迭代,每一個版本都在關(guān)鍵能力與方法論上實現(xiàn)了實質(zhì)性突破。

      • 2022年6月,系統(tǒng)布局多模態(tài)大模型的研發(fā)。

      • 2023年7月,發(fā)布并開源首個版本,成為最早打通多模態(tài)輸入到多模態(tài)輸出的統(tǒng)一多模態(tài)模型,創(chuàng)新性提出統(tǒng)一多模態(tài)學習框架并大規(guī)模引入視頻數(shù)據(jù),初步實現(xiàn)多模態(tài)自回歸預測。

      • 2023年12月,發(fā)布Emu2,通過大規(guī)模自回歸生成式多模態(tài)預訓練,展現(xiàn)出可泛化的多模態(tài)上下文學習能力,可在少量示例和簡單指令下完成聽、說、讀、寫、畫等任務(wù),是當時開源最大的生成式多模態(tài)模型

      • 2024年10月,發(fā)布Emu3,該模型只基于預測下一個詞元,無需擴散模型或組合方法,即可完成文本、圖像、視頻三種模態(tài)數(shù)據(jù)的理解和生成。

      • 2025年10月,推出原生多模態(tài)世界模型Emu3.5,實現(xiàn)從 “預測下一個詞元” 到 “預測下一個狀態(tài)” 的能力躍遷,從長視頻數(shù)據(jù)中學習世界演化規(guī)律,提出多模態(tài) Scaling 新范式

      自 2020年啟動“悟道”大模型研究以來,智源持續(xù)聚焦大模型的原始創(chuàng)新與長期技術(shù)路徑探索。2025年6月,智源發(fā)布新一代大模型系列“悟界”,旨在構(gòu)建人工智能從數(shù)字世界邁向物理世界的關(guān)鍵能力,及物理世界的人工智能基座模型。這其中包括:Emu 系列多模態(tài)世界模型、RoboBrain跨本體具身大腦、數(shù)字孿生心臟、Brainμ 腦科學多模態(tài)基礎(chǔ)模型以及OpenComplex全原子生命模型等,構(gòu)建起覆蓋宏觀具身智能、介觀生命系統(tǒng)到微觀構(gòu)象動力學的多層次技術(shù)基座。FlagOS開源系統(tǒng)軟件棧更是為模型的訓練和推理帶來效率突破和多元AI硬件適配能力。

      成立七年來,智源聚焦人工智能技術(shù)前沿,挑戰(zhàn)最基礎(chǔ)的問題和最關(guān)鍵的難題,推進大模型技術(shù)不斷演進。隨著Emu等研究成果發(fā)表于Nature等國際頂級期刊,智源將繼續(xù)圍繞智能與物理世界的深層關(guān)聯(lián),推進面向下一代人工智能的科研創(chuàng)新。

      閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

      https://wx.zsxq.com/group/454854145828


      未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      戲子誤國!春節(jié)剛過3位明星相繼塌房,事情做絕一個比一個荒唐

      戲子誤國!春節(jié)剛過3位明星相繼塌房,事情做絕一個比一個荒唐

      琨玉秋霜
      2026-03-02 06:09:04
      “最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

      “最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

      地理三體說
      2026-01-29 21:40:34
      結(jié)婚不到一年,娶了“白月光”的李國慶,口碑徹底反轉(zhuǎn)了

      結(jié)婚不到一年,娶了“白月光”的李國慶,口碑徹底反轉(zhuǎn)了

      蕭鑟科普解說
      2026-02-26 06:07:11
      這老師真是絕代美人啊!

      這老師真是絕代美人啊!

      東方不敗然多多
      2026-03-01 01:09:31
      莫迪想賭一把大的,為了把中國企業(yè)釣去印度,畫7500億大餅做魚餌

      莫迪想賭一把大的,為了把中國企業(yè)釣去印度,畫7500億大餅做魚餌

      胖福的小木屋
      2026-03-01 22:34:51
      臺積電創(chuàng)辦人張忠謀:如果想扼殺中國大陸,中國大陸真的無能為力

      臺積電創(chuàng)辦人張忠謀:如果想扼殺中國大陸,中國大陸真的無能為力

      混沌錄
      2026-02-27 21:29:05
      重磅發(fā)布!“京通”APP要來了

      重磅發(fā)布!“京通”APP要來了

      家住昌平
      2026-03-02 21:27:03
      哇塞!交易界的"盲盒"要開啦!倫納德等來全明星后衛(wèi)...

      哇塞!交易界的"盲盒"要開啦!倫納德等來全明星后衛(wèi)...

      體育新角度
      2026-03-02 23:12:57
      氫彈威力上不封頂,但核武器有個不成文的規(guī)定:扔不到對方頭上去

      氫彈威力上不封頂,但核武器有個不成文的規(guī)定:扔不到對方頭上去

      沒有偏旁的常慶
      2026-03-01 07:00:11
      70%用戶表示“失去靈魂”,全新奧迪A6L:實力很強,口碑兩極分化

      70%用戶表示“失去靈魂”,全新奧迪A6L:實力很強,口碑兩極分化

      少數(shù)派報告Report
      2026-03-02 11:43:10
      演員李茂已租車開往阿曼,全家將經(jīng)由阿曼乘機回國

      演員李茂已租車開往阿曼,全家將經(jīng)由阿曼乘機回國

      三湘都市報
      2026-03-02 20:33:03
      伊朗稱用導彈摧毀阿聯(lián)酋“薩德”系統(tǒng)

      伊朗稱用導彈摧毀阿聯(lián)酋“薩德”系統(tǒng)

      參考消息
      2026-03-02 11:22:12
      驚!美國設(shè)“谷愛凌法案”?!沒收全部財產(chǎn),背叛美國,必付代價

      驚!美國設(shè)“谷愛凌法案”?!沒收全部財產(chǎn),背叛美國,必付代價

      北國向錫安
      2026-03-02 16:55:11
      明星卸妝后,曾黎臉蠟黃,王子文像老阿姨,看到王一博后我驚呆了

      明星卸妝后,曾黎臉蠟黃,王子文像老阿姨,看到王一博后我驚呆了

      最美的開始
      2026-02-24 19:00:14
      伊朗1200枚導彈復仇,美航母遇襲,三國準備下場,戰(zhàn)爭走向失控?

      伊朗1200枚導彈復仇,美航母遇襲,三國準備下場,戰(zhàn)爭走向失控?

      紓瑤
      2026-03-02 19:11:03
      100%賴賬,這何嘗不是一種極致的誠信!

      100%賴賬,這何嘗不是一種極致的誠信!

      財經(jīng)保探長
      2026-02-28 10:46:25
      寵妾滅妻、“吸血”親爹,侄女再曝大瓜,楊議徹底活成全網(wǎng)笑話!

      寵妾滅妻、“吸血”親爹,侄女再曝大瓜,楊議徹底活成全網(wǎng)笑話!

      奇怪的鯊魚們
      2026-03-02 06:41:32
      小托馬斯狂言:杜蘭特退役必登歷史得分第二!死神真能封神?

      小托馬斯狂言:杜蘭特退役必登歷史得分第二!死神真能封神?

      林子說事
      2026-03-02 14:41:57
      因加速、倒放宣傳視頻引發(fā)爭議 兩家鴻蒙智行用戶中心公開致歉

      因加速、倒放宣傳視頻引發(fā)爭議 兩家鴻蒙智行用戶中心公開致歉

      中國能源網(wǎng)
      2026-03-02 11:47:11
      韓媒:韓國前國腳李記帝將與伊朗球隊解約,球員在大使館避難

      韓媒:韓國前國腳李記帝將與伊朗球隊解約,球員在大使館避難

      懂球帝
      2026-03-02 16:49:59
      2026-03-03 00:08:49
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領(lǐng)域權(quán)威媒體
      4555文章數(shù) 37413關(guān)注度
      往期回顧 全部

      科技要聞

      蘋果中國官網(wǎng)上線iPhone 17e,4499元起

      頭條要聞

      媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運

      頭條要聞

      媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運

      體育要聞

      “想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

      娛樂要聞

      李亞鵬與哥哥和解 只有一條真心話短信

      財經(jīng)要聞

      油價飆升 美伊沖突將如何攪動全球經(jīng)濟

      汽車要聞

      國民SUV再添一員 瑞虎7L靜態(tài)體驗

      態(tài)度原創(chuàng)

      游戲
      房產(chǎn)
      健康
      公開課
      軍事航空

      《寶可夢》新作M站90分!近年最新鮮的寶可夢體驗

      房產(chǎn)要聞

      方案突然曝光!海口北師大附校,又有書包大盤殺出!

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國中央司令部透露對伊朗動武全部武器裝備清單

      無障礙瀏覽 進入關(guān)懷版