![]()
作者|西梅汁
編輯|星奈
媒體|AI大模型工場(chǎng)
過去,AI 行業(yè)的關(guān)注點(diǎn)幾乎都集中在大語(yǔ)言模型上:從 ChatGPT 引爆全球,到國(guó)內(nèi)外大廠紛紛追趕,參數(shù)規(guī)模、功能體驗(yàn)不斷拉高。但隨著同質(zhì)化加劇,行業(yè)開始面臨一個(gè)問題,語(yǔ)言模型之外,下一個(gè)真正高門檻、能構(gòu)筑護(hù)城河的方向在哪里?
近期的答案似乎逐漸浮出水面:世界模型。在短短一個(gè)月里,谷歌 DeepMind、昆侖萬(wàn)維、騰訊先后亮出最新成果,把“理解語(yǔ)言”拓展為“理解世界”。這種同步動(dòng)作背后,既是技術(shù)演進(jìn)的自然結(jié)果,也是產(chǎn)業(yè)競(jìng)爭(zhēng)的戰(zhàn)略選擇。
01
谷歌、昆侖萬(wàn)維與騰訊的“世界模型月”
“世界模型”領(lǐng)域正變得熱鬧起來。
8 月 5 日,谷歌 DeepMind 發(fā)布了第三代世界模型 Genie 3,這是首個(gè)支持實(shí)時(shí)交互的世界模型。用戶只需要輸入文本提示,Genie 3 就能以每秒 24 幀的速度,實(shí)時(shí)生成一個(gè)可以自由探索的動(dòng)態(tài)世界。比如輸入“一片海邊的黃昏,有小船和海鷗,可以走動(dòng)觀看。”
![]()

此前的世界模型,雖然也能生成場(chǎng)景,但大多是靜態(tài)的,或者只能支持短時(shí)間的交互。Genie 3 則將單次交互時(shí)長(zhǎng)從幾十秒延長(zhǎng)到數(shù)分鐘,并加入了 “可提示的世界事件” 和 “視覺記憶” 等關(guān)鍵特性。用戶在場(chǎng)景里留下的痕跡,比如涂鴉、移動(dòng)的家具等,都會(huì)被保留下來,極大提升了真實(shí)感。
在發(fā)布 Genie 3 的同時(shí),在發(fā)布 Genie 3 的同時(shí),谷歌強(qiáng)調(diào)了其在機(jī)器人訓(xùn)練、自動(dòng)駕駛仿真等領(lǐng)域的潛在價(jià)值,并指出這類世界模型可為 AI 智能體提供虛擬環(huán)境進(jìn)行學(xué)習(xí)和交互,谷歌希望借此構(gòu)建一個(gè)大規(guī)模的智能體訓(xùn)練平臺(tái)。
僅僅一周之后,昆侖萬(wàn)維也推出了自己的世界模型 Matrix Game 2.0。與 Genie 3 相比,Matrix Game 2.0 的最大亮點(diǎn)在于全面開源,開發(fā)者可以直接將其集成到自己的項(xiàng)目中。昆侖萬(wàn)維稱,這是業(yè)內(nèi)首個(gè)在通用場(chǎng)景中實(shí)現(xiàn)實(shí)時(shí)長(zhǎng)序列交互生成的開源世界模型。
![]()
Matrix Game 2.0 的性能也十分出色,能夠以 25FPS 的速度,在多種復(fù)雜場(chǎng)景中穩(wěn)定生成連續(xù)視頻內(nèi)容,生成時(shí)長(zhǎng)可擴(kuò)展至分鐘級(jí)。用戶可以通過簡(jiǎn)單指令,自由探索、操控并實(shí)時(shí)構(gòu)建虛擬環(huán)境。
比如輸入:“一座漂浮的島嶼上有瀑布和小屋,夜空中繁星與行星閃耀,整體采用動(dòng)漫風(fēng)格,細(xì)節(jié)豐富,色彩鮮艷,營(yíng)造出充滿魔法氣息的氛圍”。


模型就能生成 25fps 的流暢畫面,你用鍵盤操作角色時(shí),它會(huì)做出符合物理邏輯的反應(yīng),比如繞開障礙、跨越臺(tái)階,而不是隨機(jī)跳動(dòng)。技術(shù)上,它結(jié)合了 3D 因果 VAE 與擴(kuò)散 Transformer,并用 GTA5 與 Unreal Engine 搭建了 1350 小時(shí)交互視頻數(shù)據(jù)集,保證了動(dòng)作的合理性和場(chǎng)景的多樣性。更重要的是,它在 8 月份開源,意味著研究者和開發(fā)者可以直接調(diào)用,在 VR、影視、甚至元宇宙內(nèi)容創(chuàng)作中探索落地。
還有,在 2025 年 WAIC 上,騰訊正式發(fā)布并開源了混元 3D 世界模型 1.0(HunyuanWorld-1.0)。它是業(yè)內(nèi)首個(gè)同時(shí)具備 沉浸漫游、交互和物理仿真 能力的開源 3D 世界生成模型。
該模型融合了全景視覺生成與分層 3D 重建技術(shù),支持文本或圖像輸入,可在幾分鐘內(nèi)生成高質(zhì)量、風(fēng)格多樣的 360° 虛擬場(chǎng)景。生成的世界支持對(duì)象級(jí)解耦與交互,并能導(dǎo)出標(biāo)準(zhǔn) 3D Mesh 格式,兼容 Unity、Unreal Engine、Blender 等主流工具,從而滿足 游戲、虛擬演出、沉浸式社交及科研仿真的應(yīng)用需求。

混元 3D 世界模型的推出與騰訊在游戲和虛擬內(nèi)容上的業(yè)務(wù)積累高度相關(guān)。在未來的應(yīng)用中,它可能被用于構(gòu)建沉浸式場(chǎng)景、虛擬演出或互動(dòng)社交環(huán)境。比如輸入:“一間日式風(fēng)格的木屋,內(nèi)部擺放茶具,可以從室外走進(jìn)室內(nèi)。
![]()

模型會(huì)生成一個(gè) 360° 可探索的空間,不僅能圍繞木屋,還能看到其內(nèi)部,與茶具互動(dòng)。它通過“分層 3D 重建”技術(shù),既保證了全景一致性,又支持對(duì)象級(jí)別的交互,而且生成的場(chǎng)景可直接導(dǎo)入主流 3D 引擎,快速轉(zhuǎn)化為標(biāo)準(zhǔn)化資產(chǎn)。在7月正式開源后,8月中旬騰訊又推出了 Lite 版,讓消費(fèi)級(jí)顯卡也能運(yùn)行,顯示出其擴(kuò)大開發(fā)者生態(tài)的意圖。
02
從語(yǔ)言到世界
世界模型為何會(huì)在此時(shí)成為“大廠必爭(zhēng)之地”?
從技術(shù)邏輯看,LLM賽道已經(jīng)高度內(nèi)卷。近年來,幾乎所有主流大廠都推出了百億、千億參數(shù)的語(yǔ)言模型,功能趨同,差異化有限。即便是ChatGPT、Claude、文心、通義、Kimi等產(chǎn)品,在文本問答、寫作輔助上的體驗(yàn)差距逐漸縮小。行業(yè)迫切需要一個(gè)更高壁壘的方向。而三維環(huán)境推理、物理世界建模,正是這種“更高門檻”。
所謂“世界模型”,核心是讓AI不僅能理解靜態(tài)的數(shù)據(jù),還能模擬現(xiàn)實(shí)世界的動(dòng)態(tài)過程。它既包含對(duì)空間、物體、人物的建模,也涉及因果關(guān)系和物理規(guī)律的學(xué)習(xí)。DeepMind在2023年就提出,世界模型是實(shí)現(xiàn)具身智能的前提,因?yàn)闄C(jī)器人必須在腦中“預(yù)測(cè)下一秒會(huì)發(fā)生什么”,才能做出正確動(dòng)作。
當(dāng)然,推動(dòng)這一方向走向前臺(tái)的,可能還有現(xiàn)實(shí)的產(chǎn)業(yè)需求。
在機(jī)器人領(lǐng)域,真實(shí)環(huán)境下的訓(xùn)練成本極高。一臺(tái)機(jī)械臂學(xué)習(xí)“抓起物體”的任務(wù),可能需要上千次失敗實(shí)驗(yàn)。世界模型提供虛擬環(huán)境,讓機(jī)器人先在仿真里試錯(cuò),再遷移到現(xiàn)實(shí),大幅降低成本。
在自動(dòng)駕駛場(chǎng)景,復(fù)雜路況和長(zhǎng)尾情況是研發(fā)難點(diǎn)。世界模型可以生成各種極端天氣、復(fù)雜交通的虛擬場(chǎng)景,用于補(bǔ)充真實(shí)道路數(shù)據(jù)。特斯拉在 2024 年披露,其 FSD 系統(tǒng)每天生成數(shù)十億公里虛擬駕駛數(shù)據(jù),仿真平臺(tái)已成為必要環(huán)節(jié)。
在游戲行業(yè),AI 原生游戲的探索正在進(jìn)行。傳統(tǒng)游戲依賴人工設(shè)計(jì)關(guān)卡和劇情,而世界模型可以通過自然語(yǔ)言提示生成場(chǎng)景、角色和交互。Matrix Game 就是這一方向的代表。對(duì)開發(fā)者而言,這意味著開發(fā)周期縮短,對(duì)玩家而言,則可能獲得更具開放性的體驗(yàn)。
影視、虛擬現(xiàn)實(shí)、元宇宙 等領(lǐng)域,也開始嘗試用世界模型生成大規(guī)模動(dòng)態(tài)場(chǎng)景。
對(duì)大廠來說,這不僅是應(yīng)用驅(qū)動(dòng),也是壁壘所在。訓(xùn)練一個(gè)高保真世界模型的算力消耗,往往是比同規(guī)模語(yǔ)言模型高的。高質(zhì)量三維動(dòng)態(tài)數(shù)據(jù)遠(yuǎn)比文本、圖像稀缺。英偉達(dá) Cosmos 的參數(shù)規(guī)模雖只有 14B,但使用了 2000 萬(wàn)小時(shí)真實(shí)世界交互和工業(yè)數(shù)據(jù)。資源門檻和技術(shù)復(fù)雜度,讓世界模型成為大廠優(yōu)勢(shì)能夠發(fā)揮的方向。
總的來看,三家公司切入點(diǎn)各不相同:
DeepMind 更偏科研導(dǎo)向,把 Genie 與智能體框架 AgentWorlds 結(jié)合,用于大規(guī)模訓(xùn)練。
而昆侖萬(wàn)維依托游戲業(yè)務(wù),主攻“AI原生游戲”,并借開源吸引開發(fā)者。
騰訊則強(qiáng)調(diào)工具化,結(jié)合游戲、社交生態(tài),未來可能擴(kuò)展到機(jī)器人研究。
不同路徑背后,是相似的邏輯:在語(yǔ)言模型趨同之后,尋找新的高門檻賽道。
03
長(zhǎng)期豪賭,長(zhǎng)線博弈
世界模型距離大規(guī)模落地還有不短的距離。
即使是DeepMind、騰訊這樣的公司,也承認(rèn)訓(xùn)練 Genie 3、混元 3D 的資源消耗巨大。DeepMind在論文里指出,Genie 3 在復(fù)雜場(chǎng)景下的穩(wěn)定性仍有限。騰訊則表示,混元 3D 的訓(xùn)練成本相當(dāng)于兩套大語(yǔ)言模型。
三維動(dòng)態(tài)數(shù)據(jù)難以獲取。大多數(shù)團(tuán)隊(duì)依賴合成或引擎生成,但能否無縫遷移到現(xiàn)實(shí),仍是未知數(shù)。OpenAI Robotics 的研究就發(fā)現(xiàn),虛擬環(huán)境里的表現(xiàn)往往無法直接映射到真實(shí)機(jī)器人。
當(dāng)前產(chǎn)品多為演示或?qū)嶒?yàn)性。Matrix Game 2.0 能生成任務(wù)和角色,但仍遠(yuǎn)未形成規(guī)模化用戶市場(chǎng)。自動(dòng)駕駛仿真仍需真實(shí)道路補(bǔ)充。機(jī)器人在虛擬環(huán)境學(xué)到的技能,遷移成功率有限。
這些不確定性,決定了世界模型是一場(chǎng)高投入、長(zhǎng)周期的豪賭。研發(fā)一個(gè)中等規(guī)模世界模型,每年投入可能高達(dá)數(shù)億美元。但對(duì)大廠而言,風(fēng)險(xiǎn)在于不下注。若未來十年,機(jī)器人、自動(dòng)駕駛、虛擬世界確實(shí)以世界模型為基礎(chǔ),那么提前缺席意味著失去定義入口的機(jī)會(huì)。
因此我們看到,谷歌、昆侖萬(wàn)維、騰訊幾乎在同一時(shí)間亮相。這未必意味著立刻能帶來收入,但已經(jīng)成為它們戰(zhàn)略敘事的一部分。
在行業(yè)中,世界模型也頻繁被提到。英偉達(dá) CEO 黃仁勛在今年演講中說:“世界模型是 AI 下一步的核心,不僅要理解語(yǔ)言,還要理解世界。”中國(guó)工程院院士張亞勤去年在論壇上也指出,世界模型可能成為連接虛擬與現(xiàn)實(shí)的關(guān)鍵技術(shù)之一。
未來幾年,其余廠商是否會(huì)加入競(jìng)爭(zhēng)仍待觀察。但可以確認(rèn)的是,世界模型已經(jīng)從研究概念,進(jìn)入大廠的資源清單。
高算力成本、數(shù)據(jù)難題、應(yīng)用落地的不確定性,決定了它短期內(nèi)不會(huì)成為“下一個(gè) ChatGPT”。但也正因如此,它成了大廠不能缺席的方向。
這是一場(chǎng)長(zhǎng)期博弈:結(jié)果如何,取決于技術(shù)和市場(chǎng)的共同演化。無論它是否會(huì)成為未來的關(guān)鍵基礎(chǔ)設(shè)施,大廠們已經(jīng)在下注。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.