![]()
來(lái)源:科技世代千高原
作者:德尼·埃利斯·貝沙爾
編輯:埃里克·沙利文
為什么當(dāng)今的人工智能系統(tǒng)難以保持一致性,以及新興的世界模型如何旨在使機(jī)器能夠穩(wěn)定地理解空間和時(shí)間。
![]()
你可能見(jiàn)過(guò)人工智能系統(tǒng)出錯(cuò)的情況。你要求播放一段狗狗的視頻,當(dāng)狗狗跑到沙發(fā)后面時(shí),它的項(xiàng)圈消失了。然后,隨著鏡頭拉遠(yuǎn),沙發(fā)變成了三人沙發(fā)。
部分問(wèn)題在于許多人工智能模型的預(yù)測(cè)特性。例如, ChatGPT所使用的模型經(jīng)過(guò)訓(xùn)練可以預(yù)測(cè)文本,而視頻生成模型則預(yù)測(cè)接下來(lái)最有可能出現(xiàn)的畫面。這兩種情況下,人工智能都沒(méi)有一個(gè)清晰定義的世界模型,也無(wú)法持續(xù)更新該模型以做出更明智的決策。
但隨著許多人工智能領(lǐng)域的研究人員致力于創(chuàng)建“世界模型”,這種情況正在發(fā)生改變。這些模型的影響范圍不僅限于視頻生成和聊天機(jī)器人的使用,還包括增強(qiáng)現(xiàn)實(shí)、機(jī)器人、自動(dòng)駕駛汽車,甚至類人智能——或通用人工智能(AGI)。
理解世界建模的一個(gè)簡(jiǎn)單方法是通過(guò)四維模型(三維加上時(shí)間)。為了更好地理解這一點(diǎn),讓我們回顧一下2012年,《泰坦尼克號(hào)》在上映15年后被精心轉(zhuǎn)換成立體3D版本。如果你暫停任何一幀畫面,你就能感受到船上人物和物體之間的距離感。但如果萊昂納多·迪卡普里奧背對(duì)著鏡頭,你就無(wú)法繞到他身后看到他的臉。電影的3D幻覺(jué)是通過(guò)立體成像技術(shù)實(shí)現(xiàn)的——通常快速交替投射兩幅略有不同的圖像,一幅對(duì)應(yīng)左眼,一幅對(duì)應(yīng)右眼。影院里的每個(gè)人都能看到相同的圖像對(duì),因此擁有相似的視角。
然而,得益于過(guò)去十年的研究,多視角成像正變得越來(lái)越可行。試想一下,如果你意識(shí)到應(yīng)該從另一個(gè)角度拍攝一張照片,然后人工智能可以自動(dòng)調(diào)整角度,從而賦予同一場(chǎng)景全新的視角。自 2020 年起,NeRF(神經(jīng)輻射場(chǎng))算法為創(chuàng)建“逼真的新視角”提供了一條途徑,但這需要將多張照片拼接起來(lái),以便人工智能系統(tǒng)能夠生成 3D 模型。其他 3D 方法則利用人工智能預(yù)測(cè)性地填充缺失信息,但這種方法與現(xiàn)實(shí)的偏差更大。
現(xiàn)在,想象一下,《泰坦尼克號(hào)》的每一幀都以 3D 形式呈現(xiàn),這樣整部電影就以 4D 形式存在了。你可以滾動(dòng)時(shí)間線觀看不同的場(chǎng)景,也可以滾動(dòng)空間線從不同的視角觀看。你還可以生成新的版本。例如,最近一篇預(yù)印本論文《NeoVerse:利用自然場(chǎng)景單目視頻增強(qiáng) 4D 世界模型》描述了一種將視頻轉(zhuǎn)換為 4D 模型,從而從不同視角生成新視頻的方法。
但4D技術(shù)也能幫助生成新的視頻內(nèi)容。另一篇近期發(fā)表的預(yù)印本論文《TeleWorld:基于4D世界模型的動(dòng)態(tài)多模態(tài)合成》就適用于我們最初討論的場(chǎng)景:一只狗在沙發(fā)后面奔跑。作者認(rèn)為,當(dāng)持續(xù)更新的4D世界模型指導(dǎo)視頻生成時(shí),AI視頻系統(tǒng)的穩(wěn)定性會(huì)得到提升。該系統(tǒng)的4D模型可以防止沙發(fā)變成長(zhǎng)椅,也能防止狗的項(xiàng)圈脫落。
這些只是初步結(jié)果,但它們預(yù)示著一個(gè)更廣泛的趨勢(shì):模型會(huì)在生成過(guò)程中更新內(nèi)部場(chǎng)景地圖。然而,4D建模的應(yīng)用遠(yuǎn)不止于視頻生成。對(duì)于增強(qiáng)現(xiàn)實(shí)(AR)——例如Meta公司的Orion原型眼鏡——4D世界模型是用戶所處世界隨時(shí)間演變的地圖。它使AR系統(tǒng)能夠保持虛擬物體的穩(wěn)定性,使光照和透視效果逼真,并擁有對(duì)近期事件的空間記憶。它還支持遮擋效果——即數(shù)字物體被真實(shí)物體遮擋。一篇2023年的論文直截了當(dāng)?shù)刂赋觯骸耙獙?shí)現(xiàn)遮擋效果,需要一個(gè)物理環(huán)境的3D模型。”
快速將視頻轉(zhuǎn)換為 4D 格式,還能為訓(xùn)練機(jī)器人和自動(dòng)駕駛車輛了解真實(shí)世界的運(yùn)作方式提供豐富的數(shù)據(jù)。通過(guò)生成機(jī)器人所處空間的 4D 模型,它們可以更好地導(dǎo)航并預(yù)測(cè)接下來(lái)可能發(fā)生的事情。如今的通用視覺(jué)語(yǔ)言人工智能模型雖然能夠理解圖像和文本,但無(wú)法生成清晰定義的世界模型,因此經(jīng)常出錯(cuò);一篇在 2025 年會(huì)議上發(fā)表的基準(zhǔn)論文指出,這些模型在基本的世界建模能力方面存在“顯著局限性”,包括“在區(qū)分運(yùn)動(dòng)軌跡時(shí)準(zhǔn)確率接近隨機(jī)”。
關(guān)鍵在于:“世界模型”對(duì)于那些致力于通用人工智能(AGI)的人來(lái)說(shuō)意義遠(yuǎn)不止于此。例如,目前領(lǐng)先的大型語(yǔ)言模型(LLM),例如ChatGPT所使用的模型,都從訓(xùn)練數(shù)據(jù)中隱含地感知著世界。“從某種意義上說(shuō),我認(rèn)為L(zhǎng)LM已經(jīng)擁有一個(gè)非常好的世界模型;只是我們并不真正了解它是如何實(shí)現(xiàn)的,”加州大學(xué)伯克利分校電子工程與計(jì)算機(jī)科學(xué)系助理教授Angjoo Kanazawa說(shuō)道。然而,這些概念模型并非對(duì)世界的實(shí)時(shí)物理理解,因?yàn)長(zhǎng)LM無(wú)法實(shí)時(shí)更新其訓(xùn)練數(shù)據(jù)。甚至OpenAI的技術(shù)報(bào)告也指出,其模型GPT-4一旦部署,“就無(wú)法從經(jīng)驗(yàn)中學(xué)習(xí)”。
“如何開(kāi)發(fā)一個(gè)能夠接收實(shí)時(shí)輸入、不斷更新對(duì)世界的理解并做出相應(yīng)反應(yīng)的智能LLM視覺(jué)系統(tǒng)?”金澤說(shuō),“這是一個(gè)尚未解決的重大難題。我認(rèn)為,如果不解決這個(gè)問(wèn)題,通用人工智能(AGI)就不可能實(shí)現(xiàn)。”
盡管研究人員仍在爭(zhēng)論語(yǔ)言邏輯模型(LLM)是否能夠最終實(shí)現(xiàn)通用人工智能(AGI),但許多人認(rèn)為L(zhǎng)LM是未來(lái)人工智能系統(tǒng)的重要組成部分。金澤表示,LLM將作為“語(yǔ)言和常識(shí)進(jìn)行交流”的橋梁;它將充當(dāng)“接口”,而一個(gè)更清晰定義的底層世界模型將提供當(dāng)前LLM所缺乏的“時(shí)空記憶”。
近年來(lái),許多知名的人工智能研究人員開(kāi)始關(guān)注世界模型。2024年,李飛飛創(chuàng)立了World Labs,該公司近期推出了Marble軟件,該軟件能夠根據(jù)“文本、圖像、視頻或粗略的3D布局”創(chuàng)建3D世界(據(jù)該公司宣傳資料所述)。去年11月,人工智能研究員Yann LeCun在LinkedIn上宣布離開(kāi)Meta,創(chuàng)辦一家名為Advanced Machine Intelligence(AMI Labs)的初創(chuàng)公司,旨在構(gòu)建“能夠理解物理世界、擁有持久記憶、能夠推理并能夠規(guī)劃復(fù)雜動(dòng)作序列的系統(tǒng)”。他在2022年的一份立場(chǎng)文件中提出了這些想法,他在文件中探討了為什么人類能夠在從未遇到過(guò)的情況下表現(xiàn)良好,并認(rèn)為答案“可能在于……學(xué)習(xí)世界模型的能力,即學(xué)習(xí)世界運(yùn)作方式的內(nèi)部模型”。越來(lái)越多的研究證實(shí)了內(nèi)部模型的優(yōu)勢(shì)。2025年4月發(fā)表在《自然》雜志上的一篇論文報(bào)道了DreamerV3的研究成果,DreamerV3是一款人工智能代理,它通過(guò)學(xué)習(xí)世界模型,能夠通過(guò)“想象”未來(lái)場(chǎng)景來(lái)改進(jìn)自身的行為。
因此,在通用人工智能(AGI)的語(yǔ)境下,“世界模型”更側(cè)重于描述現(xiàn)實(shí)運(yùn)作方式的內(nèi)部模型,而不僅僅是4D重建。然而,4D建模技術(shù)的進(jìn)步可以提供一些組件,幫助我們理解視角、記憶,甚至進(jìn)行短期預(yù)測(cè)。同時(shí),在通往AGI的道路上,4D模型可以提供豐富的現(xiàn)實(shí)模擬環(huán)境,用于測(cè)試人工智能,確保當(dāng)我們讓它們?cè)诂F(xiàn)實(shí)世界中運(yùn)行時(shí),它們知道如何在現(xiàn)實(shí)世界中生存。
https://www.scientificamerican.com/article/world-models-could-unlock-the-next-revolution-in-artificial-intelligence/
閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問(wèn)歐米伽研究所的“未來(lái)知識(shí)庫(kù)”
https://wx.zsxq.com/group/454854145828
![]()
未來(lái)知識(shí)庫(kù)是“ 歐米伽 未來(lái)研究所”建立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.