網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

為什么在2025年，大廠必須下注世界模型？

2025-09-04 15:01:23　來源: AI大模型工場(chǎng)

北京舉報(bào)

分享至

作者｜西梅汁

編輯｜星奈

媒體｜AI大模型工場(chǎng)

過去，AI 行業(yè)的關(guān)注點(diǎn)幾乎都集中在大語(yǔ)言模型上：從 ChatGPT 引爆全球，到國(guó)內(nèi)外大廠紛紛追趕，參數(shù)規(guī)模、功能體驗(yàn)不斷拉高。但隨著同質(zhì)化加劇，行業(yè)開始面臨一個(gè)問題，語(yǔ)言模型之外，下一個(gè)真正高門檻、能構(gòu)筑護(hù)城河的方向在哪里？

近期的答案似乎逐漸浮出水面：世界模型。在短短一個(gè)月里，谷歌 DeepMind、昆侖萬(wàn)維、騰訊先后亮出最新成果，把“理解語(yǔ)言”拓展為“理解世界”。這種同步動(dòng)作背后，既是技術(shù)演進(jìn)的自然結(jié)果，也是產(chǎn)業(yè)競(jìng)爭(zhēng)的戰(zhàn)略選擇。

谷歌、昆侖萬(wàn)維與騰訊的“世界模型月”

“世界模型”領(lǐng)域正變得熱鬧起來。

8 月 5 日，谷歌 DeepMind 發(fā)布了第三代世界模型 Genie 3，這是首個(gè)支持實(shí)時(shí)交互的世界模型。用戶只需要輸入文本提示，Genie 3 就能以每秒 24 幀的速度，實(shí)時(shí)生成一個(gè)可以自由探索的動(dòng)態(tài)世界。比如輸入“一片海邊的黃昏，有小船和海鷗，可以走動(dòng)觀看。”

此前的世界模型，雖然也能生成場(chǎng)景，但大多是靜態(tài)的，或者只能支持短時(shí)間的交互。Genie 3 則將單次交互時(shí)長(zhǎng)從幾十秒延長(zhǎng)到數(shù)分鐘，并加入了 “可提示的世界事件” 和 “視覺記憶” 等關(guān)鍵特性。用戶在場(chǎng)景里留下的痕跡，比如涂鴉、移動(dòng)的家具等，都會(huì)被保留下來，極大提升了真實(shí)感。

在發(fā)布 Genie 3 的同時(shí)，在發(fā)布 Genie 3 的同時(shí)，谷歌強(qiáng)調(diào)了其在機(jī)器人訓(xùn)練、自動(dòng)駕駛仿真等領(lǐng)域的潛在價(jià)值，并指出這類世界模型可為 AI 智能體提供虛擬環(huán)境進(jìn)行學(xué)習(xí)和交互，谷歌希望借此構(gòu)建一個(gè)大規(guī)模的智能體訓(xùn)練平臺(tái)。

僅僅一周之后，昆侖萬(wàn)維也推出了自己的世界模型 Matrix Game 2.0。與 Genie 3 相比，Matrix Game 2.0 的最大亮點(diǎn)在于全面開源，開發(fā)者可以直接將其集成到自己的項(xiàng)目中。昆侖萬(wàn)維稱，這是業(yè)內(nèi)首個(gè)在通用場(chǎng)景中實(shí)現(xiàn)實(shí)時(shí)長(zhǎng)序列交互生成的開源世界模型。

Matrix Game 2.0 的性能也十分出色，能夠以 25FPS 的速度，在多種復(fù)雜場(chǎng)景中穩(wěn)定生成連續(xù)視頻內(nèi)容，生成時(shí)長(zhǎng)可擴(kuò)展至分鐘級(jí)。用戶可以通過簡(jiǎn)單指令，自由探索、操控并實(shí)時(shí)構(gòu)建虛擬環(huán)境。

比如輸入：“一座漂浮的島嶼上有瀑布和小屋，夜空中繁星與行星閃耀，整體采用動(dòng)漫風(fēng)格，細(xì)節(jié)豐富，色彩鮮艷，營(yíng)造出充滿魔法氣息的氛圍”。

模型就能生成 25fps 的流暢畫面，你用鍵盤操作角色時(shí)，它會(huì)做出符合物理邏輯的反應(yīng)，比如繞開障礙、跨越臺(tái)階，而不是隨機(jī)跳動(dòng)。技術(shù)上，它結(jié)合了 3D 因果 VAE 與擴(kuò)散 Transformer，并用 GTA5 與 Unreal Engine 搭建了 1350 小時(shí)交互視頻數(shù)據(jù)集，保證了動(dòng)作的合理性和場(chǎng)景的多樣性。更重要的是，它在 8 月份開源，意味著研究者和開發(fā)者可以直接調(diào)用，在 VR、影視、甚至元宇宙內(nèi)容創(chuàng)作中探索落地。

還有，在 2025 年 WAIC 上，騰訊正式發(fā)布并開源了混元 3D 世界模型 1.0（HunyuanWorld-1.0）。它是業(yè)內(nèi)首個(gè)同時(shí)具備沉浸漫游、交互和物理仿真能力的開源 3D 世界生成模型。

該模型融合了全景視覺生成與分層 3D 重建技術(shù)，支持文本或圖像輸入，可在幾分鐘內(nèi)生成高質(zhì)量、風(fēng)格多樣的 360° 虛擬場(chǎng)景。生成的世界支持對(duì)象級(jí)解耦與交互，并能導(dǎo)出標(biāo)準(zhǔn) 3D Mesh 格式，兼容 Unity、Unreal Engine、Blender 等主流工具，從而滿足游戲、虛擬演出、沉浸式社交及科研仿真的應(yīng)用需求。

混元 3D 世界模型的推出與騰訊在游戲和虛擬內(nèi)容上的業(yè)務(wù)積累高度相關(guān)。在未來的應(yīng)用中，它可能被用于構(gòu)建沉浸式場(chǎng)景、虛擬演出或互動(dòng)社交環(huán)境。比如輸入：“一間日式風(fēng)格的木屋，內(nèi)部擺放茶具，可以從室外走進(jìn)室內(nèi)。

模型會(huì)生成一個(gè) 360° 可探索的空間，不僅能圍繞木屋，還能看到其內(nèi)部，與茶具互動(dòng)。它通過“分層 3D 重建”技術(shù)，既保證了全景一致性，又支持對(duì)象級(jí)別的交互，而且生成的場(chǎng)景可直接導(dǎo)入主流 3D 引擎，快速轉(zhuǎn)化為標(biāo)準(zhǔn)化資產(chǎn)。在7月正式開源后，8月中旬騰訊又推出了 Lite 版，讓消費(fèi)級(jí)顯卡也能運(yùn)行，顯示出其擴(kuò)大開發(fā)者生態(tài)的意圖。

從語(yǔ)言到世界

世界模型為何會(huì)在此時(shí)成為“大廠必爭(zhēng)之地”？

從技術(shù)邏輯看，LLM賽道已經(jīng)高度內(nèi)卷。近年來，幾乎所有主流大廠都推出了百億、千億參數(shù)的語(yǔ)言模型，功能趨同，差異化有限。即便是ChatGPT、Claude、文心、通義、Kimi等產(chǎn)品，在文本問答、寫作輔助上的體驗(yàn)差距逐漸縮小。行業(yè)迫切需要一個(gè)更高壁壘的方向。而三維環(huán)境推理、物理世界建模，正是這種“更高門檻”。

所謂“世界模型”，核心是讓AI不僅能理解靜態(tài)的數(shù)據(jù)，還能模擬現(xiàn)實(shí)世界的動(dòng)態(tài)過程。它既包含對(duì)空間、物體、人物的建模，也涉及因果關(guān)系和物理規(guī)律的學(xué)習(xí)。DeepMind在2023年就提出，世界模型是實(shí)現(xiàn)具身智能的前提，因?yàn)闄C(jī)器人必須在腦中“預(yù)測(cè)下一秒會(huì)發(fā)生什么”，才能做出正確動(dòng)作。

當(dāng)然，推動(dòng)這一方向走向前臺(tái)的，可能還有現(xiàn)實(shí)的產(chǎn)業(yè)需求。

在機(jī)器人領(lǐng)域，真實(shí)環(huán)境下的訓(xùn)練成本極高。一臺(tái)機(jī)械臂學(xué)習(xí)“抓起物體”的任務(wù)，可能需要上千次失敗實(shí)驗(yàn)。世界模型提供虛擬環(huán)境，讓機(jī)器人先在仿真里試錯(cuò)，再遷移到現(xiàn)實(shí)，大幅降低成本。

在自動(dòng)駕駛場(chǎng)景，復(fù)雜路況和長(zhǎng)尾情況是研發(fā)難點(diǎn)。世界模型可以生成各種極端天氣、復(fù)雜交通的虛擬場(chǎng)景，用于補(bǔ)充真實(shí)道路數(shù)據(jù)。特斯拉在 2024 年披露，其 FSD 系統(tǒng)每天生成數(shù)十億公里虛擬駕駛數(shù)據(jù)，仿真平臺(tái)已成為必要環(huán)節(jié)。

在游戲行業(yè)，AI 原生游戲的探索正在進(jìn)行。傳統(tǒng)游戲依賴人工設(shè)計(jì)關(guān)卡和劇情，而世界模型可以通過自然語(yǔ)言提示生成場(chǎng)景、角色和交互。Matrix Game 就是這一方向的代表。對(duì)開發(fā)者而言，這意味著開發(fā)周期縮短，對(duì)玩家而言，則可能獲得更具開放性的體驗(yàn)。

影視、虛擬現(xiàn)實(shí)、元宇宙等領(lǐng)域，也開始嘗試用世界模型生成大規(guī)模動(dòng)態(tài)場(chǎng)景。

對(duì)大廠來說，這不僅是應(yīng)用驅(qū)動(dòng)，也是壁壘所在。訓(xùn)練一個(gè)高保真世界模型的算力消耗，往往是比同規(guī)模語(yǔ)言模型高的。高質(zhì)量三維動(dòng)態(tài)數(shù)據(jù)遠(yuǎn)比文本、圖像稀缺。英偉達(dá) Cosmos 的參數(shù)規(guī)模雖只有 14B，但使用了 2000 萬(wàn)小時(shí)真實(shí)世界交互和工業(yè)數(shù)據(jù)。資源門檻和技術(shù)復(fù)雜度，讓世界模型成為大廠優(yōu)勢(shì)能夠發(fā)揮的方向。

總的來看，三家公司切入點(diǎn)各不相同：

DeepMind 更偏科研導(dǎo)向，把 Genie 與智能體框架 AgentWorlds 結(jié)合，用于大規(guī)模訓(xùn)練。

而昆侖萬(wàn)維依托游戲業(yè)務(wù)，主攻“AI原生游戲”，并借開源吸引開發(fā)者。

騰訊則強(qiáng)調(diào)工具化，結(jié)合游戲、社交生態(tài)，未來可能擴(kuò)展到機(jī)器人研究。

不同路徑背后，是相似的邏輯：在語(yǔ)言模型趨同之后，尋找新的高門檻賽道。

長(zhǎng)期豪賭，長(zhǎng)線博弈

世界模型距離大規(guī)模落地還有不短的距離。

即使是DeepMind、騰訊這樣的公司，也承認(rèn)訓(xùn)練 Genie 3、混元 3D 的資源消耗巨大。DeepMind在論文里指出，Genie 3 在復(fù)雜場(chǎng)景下的穩(wěn)定性仍有限。騰訊則表示，混元 3D 的訓(xùn)練成本相當(dāng)于兩套大語(yǔ)言模型。

三維動(dòng)態(tài)數(shù)據(jù)難以獲取。大多數(shù)團(tuán)隊(duì)依賴合成或引擎生成，但能否無縫遷移到現(xiàn)實(shí)，仍是未知數(shù)。OpenAI Robotics 的研究就發(fā)現(xiàn)，虛擬環(huán)境里的表現(xiàn)往往無法直接映射到真實(shí)機(jī)器人。

當(dāng)前產(chǎn)品多為演示或?qū)嶒?yàn)性。Matrix Game 2.0 能生成任務(wù)和角色，但仍遠(yuǎn)未形成規(guī)模化用戶市場(chǎng)。自動(dòng)駕駛仿真仍需真實(shí)道路補(bǔ)充。機(jī)器人在虛擬環(huán)境學(xué)到的技能，遷移成功率有限。

這些不確定性，決定了世界模型是一場(chǎng)高投入、長(zhǎng)周期的豪賭。研發(fā)一個(gè)中等規(guī)模世界模型，每年投入可能高達(dá)數(shù)億美元。但對(duì)大廠而言，風(fēng)險(xiǎn)在于不下注。若未來十年，機(jī)器人、自動(dòng)駕駛、虛擬世界確實(shí)以世界模型為基礎(chǔ)，那么提前缺席意味著失去定義入口的機(jī)會(huì)。

因此我們看到，谷歌、昆侖萬(wàn)維、騰訊幾乎在同一時(shí)間亮相。這未必意味著立刻能帶來收入，但已經(jīng)成為它們戰(zhàn)略敘事的一部分。

在行業(yè)中，世界模型也頻繁被提到。英偉達(dá) CEO 黃仁勛在今年演講中說：“世界模型是 AI 下一步的核心，不僅要理解語(yǔ)言，還要理解世界。”中國(guó)工程院院士張亞勤去年在論壇上也指出，世界模型可能成為連接虛擬與現(xiàn)實(shí)的關(guān)鍵技術(shù)之一。

未來幾年，其余廠商是否會(huì)加入競(jìng)爭(zhēng)仍待觀察。但可以確認(rèn)的是，世界模型已經(jīng)從研究概念，進(jìn)入大廠的資源清單。

高算力成本、數(shù)據(jù)難題、應(yīng)用落地的不確定性，決定了它短期內(nèi)不會(huì)成為“下一個(gè) ChatGPT”。但也正因如此，它成了大廠不能缺席的方向。

這是一場(chǎng)長(zhǎng)期博弈：結(jié)果如何，取決于技術(shù)和市場(chǎng)的共同演化。無論它是否會(huì)成為未來的關(guān)鍵基礎(chǔ)設(shè)施，大廠們已經(jīng)在下注。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.