網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

下一場(chǎng)人工智能革命可能始于世界模型

2026-01-18 18:08:10　來(lái)源: 人工智能學(xué)家

北京舉報(bào)

分享至

來(lái)源：科技世代千高原

作者：德尼·埃利斯·貝沙爾

編輯：埃里克·沙利文

為什么當(dāng)今的人工智能系統(tǒng)難以保持一致性，以及新興的世界模型如何旨在使機(jī)器能夠穩(wěn)定地理解空間和時(shí)間。

你可能見(jiàn)過(guò)人工智能系統(tǒng)出錯(cuò)的情況。你要求播放一段狗狗的視頻，當(dāng)狗狗跑到沙發(fā)后面時(shí)，它的項(xiàng)圈消失了。然后，隨著鏡頭拉遠(yuǎn)，沙發(fā)變成了三人沙發(fā)。

部分問(wèn)題在于許多人工智能模型的預(yù)測(cè)特性。例如， ChatGPT所使用的模型經(jīng)過(guò)訓(xùn)練可以預(yù)測(cè)文本，而視頻生成模型則預(yù)測(cè)接下來(lái)最有可能出現(xiàn)的畫面。這兩種情況下，人工智能都沒(méi)有一個(gè)清晰定義的世界模型，也無(wú)法持續(xù)更新該模型以做出更明智的決策。

但隨著許多人工智能領(lǐng)域的研究人員致力于創(chuàng)建“世界模型”，這種情況正在發(fā)生改變。這些模型的影響范圍不僅限于視頻生成和聊天機(jī)器人的使用，還包括增強(qiáng)現(xiàn)實(shí)、機(jī)器人、自動(dòng)駕駛汽車，甚至類人智能——或通用人工智能（AGI）。

理解世界建模的一個(gè)簡(jiǎn)單方法是通過(guò)四維模型（三維加上時(shí)間）。為了更好地理解這一點(diǎn)，讓我們回顧一下2012年，《泰坦尼克號(hào)》在上映15年后被精心轉(zhuǎn)換成立體3D版本。如果你暫停任何一幀畫面，你就能感受到船上人物和物體之間的距離感。但如果萊昂納多·迪卡普里奧背對(duì)著鏡頭，你就無(wú)法繞到他身后看到他的臉。電影的3D幻覺(jué)是通過(guò)立體成像技術(shù)實(shí)現(xiàn)的——通常快速交替投射兩幅略有不同的圖像，一幅對(duì)應(yīng)左眼，一幅對(duì)應(yīng)右眼。影院里的每個(gè)人都能看到相同的圖像對(duì)，因此擁有相似的視角。

然而，得益于過(guò)去十年的研究，多視角成像正變得越來(lái)越可行。試想一下，如果你意識(shí)到應(yīng)該從另一個(gè)角度拍攝一張照片，然后人工智能可以自動(dòng)調(diào)整角度，從而賦予同一場(chǎng)景全新的視角。自 2020 年起，NeRF（神經(jīng)輻射場(chǎng)）算法為創(chuàng)建“逼真的新視角”提供了一條途徑，但這需要將多張照片拼接起來(lái)，以便人工智能系統(tǒng)能夠生成 3D 模型。其他 3D 方法則利用人工智能預(yù)測(cè)性地填充缺失信息，但這種方法與現(xiàn)實(shí)的偏差更大。

現(xiàn)在，想象一下，《泰坦尼克號(hào)》的每一幀都以 3D 形式呈現(xiàn)，這樣整部電影就以 4D 形式存在了。你可以滾動(dòng)時(shí)間線觀看不同的場(chǎng)景，也可以滾動(dòng)空間線從不同的視角觀看。你還可以生成新的版本。例如，最近一篇預(yù)印本論文《NeoVerse：利用自然場(chǎng)景單目視頻增強(qiáng) 4D 世界模型》描述了一種將視頻轉(zhuǎn)換為 4D 模型，從而從不同視角生成新視頻的方法。

但4D技術(shù)也能幫助生成新的視頻內(nèi)容。另一篇近期發(fā)表的預(yù)印本論文《TeleWorld：基于4D世界模型的動(dòng)態(tài)多模態(tài)合成》就適用于我們最初討論的場(chǎng)景：一只狗在沙發(fā)后面奔跑。作者認(rèn)為，當(dāng)持續(xù)更新的4D世界模型指導(dǎo)視頻生成時(shí)，AI視頻系統(tǒng)的穩(wěn)定性會(huì)得到提升。該系統(tǒng)的4D模型可以防止沙發(fā)變成長(zhǎng)椅，也能防止狗的項(xiàng)圈脫落。

這些只是初步結(jié)果，但它們預(yù)示著一個(gè)更廣泛的趨勢(shì)：模型會(huì)在生成過(guò)程中更新內(nèi)部場(chǎng)景地圖。然而，4D建模的應(yīng)用遠(yuǎn)不止于視頻生成。對(duì)于增強(qiáng)現(xiàn)實(shí)（AR）——例如Meta公司的Orion原型眼鏡——4D世界模型是用戶所處世界隨時(shí)間演變的地圖。它使AR系統(tǒng)能夠保持虛擬物體的穩(wěn)定性，使光照和透視效果逼真，并擁有對(duì)近期事件的空間記憶。它還支持遮擋效果——即數(shù)字物體被真實(shí)物體遮擋。一篇2023年的論文直截了當(dāng)?shù)刂赋觯骸耙獙?shí)現(xiàn)遮擋效果，需要一個(gè)物理環(huán)境的3D模型。”

快速將視頻轉(zhuǎn)換為 4D 格式，還能為訓(xùn)練機(jī)器人和自動(dòng)駕駛車輛了解真實(shí)世界的運(yùn)作方式提供豐富的數(shù)據(jù)。通過(guò)生成機(jī)器人所處空間的 4D 模型，它們可以更好地導(dǎo)航并預(yù)測(cè)接下來(lái)可能發(fā)生的事情。如今的通用視覺(jué)語(yǔ)言人工智能模型雖然能夠理解圖像和文本，但無(wú)法生成清晰定義的世界模型，因此經(jīng)常出錯(cuò)；一篇在 2025 年會(huì)議上發(fā)表的基準(zhǔn)論文指出，這些模型在基本的世界建模能力方面存在“顯著局限性”，包括“在區(qū)分運(yùn)動(dòng)軌跡時(shí)準(zhǔn)確率接近隨機(jī)”。

關(guān)鍵在于：“世界模型”對(duì)于那些致力于通用人工智能（AGI）的人來(lái)說(shuō)意義遠(yuǎn)不止于此。例如，目前領(lǐng)先的大型語(yǔ)言模型（LLM），例如ChatGPT所使用的模型，都從訓(xùn)練數(shù)據(jù)中隱含地感知著世界。“從某種意義上說(shuō)，我認(rèn)為L(zhǎng)LM已經(jīng)擁有一個(gè)非常好的世界模型；只是我們并不真正了解它是如何實(shí)現(xiàn)的，”加州大學(xué)伯克利分校電子工程與計(jì)算機(jī)科學(xué)系助理教授Angjoo Kanazawa說(shuō)道。然而，這些概念模型并非對(duì)世界的實(shí)時(shí)物理理解，因?yàn)長(zhǎng)LM無(wú)法實(shí)時(shí)更新其訓(xùn)練數(shù)據(jù)。甚至OpenAI的技術(shù)報(bào)告也指出，其模型GPT-4一旦部署，“就無(wú)法從經(jīng)驗(yàn)中學(xué)習(xí)”。

“如何開(kāi)發(fā)一個(gè)能夠接收實(shí)時(shí)輸入、不斷更新對(duì)世界的理解并做出相應(yīng)反應(yīng)的智能LLM視覺(jué)系統(tǒng)？”金澤說(shuō)，“這是一個(gè)尚未解決的重大難題。我認(rèn)為，如果不解決這個(gè)問(wèn)題，通用人工智能（AGI）就不可能實(shí)現(xiàn)。”

盡管研究人員仍在爭(zhēng)論語(yǔ)言邏輯模型（LLM）是否能夠最終實(shí)現(xiàn)通用人工智能（AGI），但許多人認(rèn)為L(zhǎng)LM是未來(lái)人工智能系統(tǒng)的重要組成部分。金澤表示，LLM將作為“語(yǔ)言和常識(shí)進(jìn)行交流”的橋梁；它將充當(dāng)“接口”，而一個(gè)更清晰定義的底層世界模型將提供當(dāng)前LLM所缺乏的“時(shí)空記憶”。

近年來(lái)，許多知名的人工智能研究人員開(kāi)始關(guān)注世界模型。2024年，李飛飛創(chuàng)立了World Labs，該公司近期推出了Marble軟件，該軟件能夠根據(jù)“文本、圖像、視頻或粗略的3D布局”創(chuàng)建3D世界（據(jù)該公司宣傳資料所述）。去年11月，人工智能研究員Yann LeCun在LinkedIn上宣布離開(kāi)Meta，創(chuàng)辦一家名為Advanced Machine Intelligence（AMI Labs）的初創(chuàng)公司，旨在構(gòu)建“能夠理解物理世界、擁有持久記憶、能夠推理并能夠規(guī)劃復(fù)雜動(dòng)作序列的系統(tǒng)”。他在2022年的一份立場(chǎng)文件中提出了這些想法，他在文件中探討了為什么人類能夠在從未遇到過(guò)的情況下表現(xiàn)良好，并認(rèn)為答案“可能在于……學(xué)習(xí)世界模型的能力，即學(xué)習(xí)世界運(yùn)作方式的內(nèi)部模型”。越來(lái)越多的研究證實(shí)了內(nèi)部模型的優(yōu)勢(shì)。2025年4月發(fā)表在《自然》雜志上的一篇論文報(bào)道了DreamerV3的研究成果，DreamerV3是一款人工智能代理，它通過(guò)學(xué)習(xí)世界模型，能夠通過(guò)“想象”未來(lái)場(chǎng)景來(lái)改進(jìn)自身的行為。

因此，在通用人工智能（AGI）的語(yǔ)境下，“世界模型”更側(cè)重于描述現(xiàn)實(shí)運(yùn)作方式的內(nèi)部模型，而不僅僅是4D重建。然而，4D建模技術(shù)的進(jìn)步可以提供一些組件，幫助我們理解視角、記憶，甚至進(jìn)行短期預(yù)測(cè)。同時(shí)，在通往AGI的道路上，4D模型可以提供豐富的現(xiàn)實(shí)模擬環(huán)境，用于測(cè)試人工智能，確保當(dāng)我們讓它們?cè)诂F(xiàn)實(shí)世界中運(yùn)行時(shí)，它們知道如何在現(xiàn)實(shí)世界中生存。

https://www.scientificamerican.com/article/world-models-could-unlock-the-next-revolution-in-artificial-intelligence/

閱讀最新前沿科技趨勢(shì)報(bào)告，請(qǐng)?jiān)L問(wèn)歐米伽研究所的“未來(lái)知識(shí)庫(kù)”

https://wx.zsxq.com/group/454854145828

未來(lái)知識(shí)庫(kù)是“ 歐米伽未來(lái)研究所”建立的在線知識(shí)庫(kù)平臺(tái)，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.