當(dāng)?shù)貢r(shí)間1月28日,北京智源人工智能研究院的一項(xiàng)突破性研究成果在國(guó)際頂級(jí)學(xué)術(shù)期刊《自然》(Nature)上線,這是我國(guó)科研機(jī)構(gòu)主導(dǎo)的大模型成果首次在《自然》正刊發(fā)表。
2018年以來(lái),GPT采用“預(yù)測(cè)下一個(gè)詞元(Next-token prediction,NTP)”的自回歸路線,實(shí)現(xiàn)了語(yǔ)言大模型重大突破,開(kāi)啟了生成式人工智能浪潮。而擅長(zhǎng)同時(shí)處理文字、圖片、視頻等多種形態(tài)信息的多模態(tài)模型主要依賴對(duì)比學(xué)習(xí)、擴(kuò)散模型等專門路線。在此背景下,一個(gè)重要問(wèn)題困擾行業(yè)數(shù)年:能否用一種簡(jiǎn)單、統(tǒng)一的方法即自回歸路線,讓AI(人工智能)同時(shí)學(xué)會(huì)高效地處理文字、圖片和視頻?
智源這項(xiàng)名為“通過(guò)預(yù)測(cè)下一個(gè)詞元進(jìn)行多模態(tài)學(xué)習(xí)的多模態(tài)大模型”的成果給出了肯定的答案。該成果表明,只采用自回歸路線,就可以統(tǒng)一多模態(tài)學(xué)習(xí),訓(xùn)練出優(yōu)秀的原生多模態(tài)大模型,這對(duì)于確立自回歸成為生成式人工智能統(tǒng)一路線具有重大意義。
據(jù)了解,長(zhǎng)期以來(lái),AI在學(xué)習(xí)不同類型的“感官”信息時(shí),往往需要“分科而治”——理解文字用一套方法,生成圖片用另一套,處理視頻又需要不同的專業(yè)模型,過(guò)程復(fù)雜且協(xié)同起來(lái)較為困難。而智源研究院研發(fā)的Emu3模型,借鑒了GPT成功的關(guān)鍵思路“預(yù)測(cè)下一個(gè)詞元”,成功統(tǒng)一了對(duì)文本、圖像及視頻的理解與生成能力。打個(gè)比方,就如同給AI找到了一個(gè)“萬(wàn)能學(xué)習(xí)法”,無(wú)論面對(duì)的是一段文字、一張照片,還是一段動(dòng)態(tài)影像,AI都用同一種邏輯去分析和創(chuàng)造。實(shí)驗(yàn)表明,這種統(tǒng)一方法在圖片生成、圖文理解和視頻創(chuàng)作等多個(gè)任務(wù)上,達(dá)到了與當(dāng)前各類專用模型相當(dāng)?shù)乃剑揖邆涓鼜?qiáng)的擴(kuò)展?jié)摿屯ㄓ眯浴?/p>
《自然》編輯點(diǎn)評(píng)這項(xiàng)研究時(shí)表示,基于“預(yù)測(cè)下一個(gè)詞元”,Emu3實(shí)現(xiàn)了大規(guī)模文本、圖像和視頻的統(tǒng)一學(xué)習(xí),其在生成與感知任務(wù)上的性能可與使用專門路線相當(dāng),這一成果對(duì)構(gòu)建可擴(kuò)展、統(tǒng)一的多模態(tài)智能系統(tǒng)具有重要意義。
值得一提的是,基于這一核心路徑的迭代版本Emu3.5模型,已展現(xiàn)出對(duì)物理世界運(yùn)行規(guī)律的初步學(xué)習(xí)與模擬能力,能夠嘗試預(yù)測(cè)場(chǎng)景的下一步變化,為發(fā)展更通用、更接近人類認(rèn)知方式的大模型與智能體奠定了基礎(chǔ)。
據(jù)悉,自2020年啟動(dòng)“悟道”大模型研究以來(lái),智源研究院持續(xù)聚焦大模型的原始創(chuàng)新與長(zhǎng)期技術(shù)路徑探索。2025年6月,智源發(fā)布新一代大模型系列成果“悟界”,目標(biāo)是構(gòu)建人工智能從數(shù)字世界邁向物理世界的關(guān)鍵能力,打造物理世界的人工智能基座模型。該系列模型包括:Emu系列多模態(tài)世界模型、RoboBrain跨本體具身大腦、數(shù)字孿生心臟、Brainμ腦科學(xué)多模態(tài)基礎(chǔ)模型以及OpenComplex全原子生命模型等,共同構(gòu)建起覆蓋宏觀具身智能、介于宏觀和微觀尺度的生命系統(tǒng)到微觀構(gòu)象動(dòng)力學(xué)的多層次技術(shù)基座。(孫奇茹)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.