斯坦福具身智能大佬看好的世界模型，竟出自英偉達(dá)Cosmos？

2026-02-15 12:02:37　來源: 機(jī)器人前瞻

北京舉報

分享至

讓機(jī)器人成為能主動想象、理解、行動的智能體。

作者 |許麗思

編輯 |漠影

前陣子，特斯拉釋放重磅消息，Optimus 3即將亮相，它將是一款通用人形機(jī)器人，也是特斯拉第一款走向量產(chǎn)的機(jī)器人，將在今年年底前啟動生產(chǎn)。同時，Optimus已經(jīng)在特斯拉工廠執(zhí)行一些簡單任務(wù)。

機(jī)器人行業(yè)的敘事，正從會跑會跳的技術(shù)演示轉(zhuǎn)向能落地干活的使用能力，距離走進(jìn)人類生活似乎越來越近了。不過，在demo和規(guī)模化落地之間，還需要邁過安全、可靠性與功能成熟度等門檻。

在這道門檻前，數(shù)據(jù)問題變得更尖銳。以特斯拉Optimus的研發(fā)為例，早期團(tuán)隊(duì)曾采用動作捕捉服和遠(yuǎn)程操作方案，但在去年開始探索其他訓(xùn)練方式。

這種困境并非個例，行業(yè)普遍面臨真實(shí)機(jī)器人數(shù)據(jù)昂貴、稀缺且強(qiáng)依賴硬件形態(tài)，進(jìn)而導(dǎo)致訓(xùn)練與評估難以規(guī)模化復(fù)制、場景泛化能力有限。

此前，英偉達(dá)打造了“三臺計(jì)算機(jī)”解決方案：DGX系列提供強(qiáng)勁算力支撐，Omniverse平臺與Cosmos世界基礎(chǔ)模型平臺高效生產(chǎn)仿真數(shù)據(jù)，AGX作為邊端完成部署和驗(yàn)證，三者協(xié)同形成完整閉環(huán)，為物理AI開發(fā)提供全鏈條支持。

其中，Cosmos的角色，在于成為物理AI破解數(shù)據(jù)難題的關(guān)鍵工具。它能夠輕松生產(chǎn)大量符合物理規(guī)律的逼真合成數(shù)據(jù)，解決真實(shí)世界數(shù)據(jù)稀缺、模型測試風(fēng)險高等挑戰(zhàn)，讓機(jī)器人在虛擬環(huán)境中先試錯、再實(shí)戰(zhàn)。

同時，開發(fā)者還可通過微調(diào) Cosmos WFM構(gòu)建自定義模型，大幅降低物理AI開發(fā)門檻。

01.

輕松生成大量逼真合成數(shù)據(jù)，

讓機(jī)器人更能適配真實(shí)場景挑戰(zhàn)

與只需要處理單一模態(tài)數(shù)據(jù)的傳統(tǒng)AI不同，物理AI需要支撐機(jī)器人在真實(shí)場景中完成復(fù)雜任務(wù)，比如工廠抓取零部件時的準(zhǔn)確受力反饋、戶外場景移動時的復(fù)雜地形應(yīng)對與行動策略調(diào)整等，對數(shù)據(jù)的真實(shí)性、多樣性、規(guī)模化需求極高。

物理AI模型的開發(fā)成本高且需要大量真實(shí)數(shù)據(jù)和測試，而Cosmos世界基礎(chǔ)模型使開發(fā)者能夠輕松生成大量符合物理規(guī)律的逼真合成數(shù)據(jù)，以用于訓(xùn)練和評估其現(xiàn)有的模型。

具體來說，Cosmos世界基礎(chǔ)模型包括了三大部分：Cosmos Predict、Cosmos Transfer和Cosmos Reason。

Cosmos Predict讓機(jī)器人擁有一種堪稱提前看結(jié)局的能力，能夠預(yù)測動態(tài)環(huán)境的未來狀態(tài)。Cosmos Predict 2.5已將多種預(yù)測能力整合到單一模型中，實(shí)現(xiàn)了在單幀輸入條件下快速生成30秒預(yù)測視頻。

它為機(jī)器人復(fù)雜任務(wù)規(guī)劃提供了強(qiáng)大支撐，開發(fā)者可基于此對模型進(jìn)行后期訓(xùn)練，將視頻預(yù)測能力轉(zhuǎn)化為策略建模所需的動作生成能力。

比如，在機(jī)器人執(zhí)行精密裝配任務(wù)前，先通過Cosmos Predict模擬不同操作路徑的結(jié)果，選擇最優(yōu)方案，從而讓機(jī)器人在實(shí)戰(zhàn)中更精準(zhǔn)、更安全，大幅減少試錯成本與操作風(fēng)險。

Cosmos Transfer通過ControlNet架構(gòu)，能基于輸入數(shù)據(jù)生成高保真世界場景，改變光照、天氣、物體材質(zhì)等條件，生成同一場景的無數(shù)種可能。最新的Cosmos Transfer 2.5能夠生成更高質(zhì)量、逼真的數(shù)據(jù)，且大小僅為Cosmos Transfer 1的三分之一。

對機(jī)器人來說，它可以在虛擬環(huán)境中體驗(yàn)千變?nèi)f化的現(xiàn)實(shí)世界。無需依賴海量真實(shí)場景數(shù)據(jù)采集，就能有效提升機(jī)器人對不同場景的泛化能力，降低適配多場景應(yīng)用的開發(fā)成本，加速規(guī)模化落地進(jìn)程。

Cosmos Reason則是一個完全可定制的多模態(tài)AI推理模型，專為理解運(yùn)動、物體交互和時空關(guān)系而構(gòu)建。它讓機(jī)器人能夠理解空間、時間和物理特性，還能給Cosmos Predict生成多樣化、逼真的提示，并使用基于文本的控件從視頻中篩選高質(zhì)量的合成數(shù)據(jù)。

當(dāng)機(jī)器人擁有了像人類一樣推理的能力，它就不再只是執(zhí)行預(yù)設(shè)指令的工具，而是能理解物理世界規(guī)律、進(jìn)行有意識決策的智能體，提升了在復(fù)雜未知場景中的自主應(yīng)對能力，打破規(guī)模化落地的場景適配局限。

除了這些基礎(chǔ)模型，Cosmos還包括由NVIDIA Cosmos Curate提供支持的數(shù)據(jù)處理和管理工作流，使開發(fā)者能夠在NVIDIA HopperGPU上僅用40天處理2000萬小時的數(shù)據(jù)，在NVIDIA BlackwellGPU上只需14天就能處理2000萬小時的數(shù)據(jù)。

Cosmos還配備一套視頻和圖像tokenizer，可以將視頻轉(zhuǎn)換為不同視頻壓縮比的標(biāo)記，用于訓(xùn)練各種Transformer模型。與現(xiàn)在先進(jìn)的tokenizer相比，Cosmos tokenizer的總壓縮率高出8倍，處理速度快12倍，讓訓(xùn)練成本大幅降低。

02.

基于Cosmos開發(fā)的WOW：

讓機(jī)器人看懂、理解并行動于世界

去年，北京人形機(jī)器人創(chuàng)新中心（以下簡稱“北京人形”）發(fā)布具身世界模型WoW，備受學(xué)術(shù)界、產(chǎn)業(yè)界關(guān)注。

不僅Huggingface官方留言“Excellent work”催更開源，斯坦福具身智能大佬、PI創(chuàng)始人Chelsea Finn還在與清華合作文章中引用了WoW技術(shù)報告。

值得一提的是，WoW正是北京人形研發(fā)團(tuán)隊(duì)以Cosmos為基座，結(jié)合自身在機(jī)器人交互數(shù)據(jù)、算法優(yōu)化等方面的積累打造而成，可以說是Cosmos在具身智能領(lǐng)域的最佳實(shí)踐之一，充分驗(yàn)證了Cosmos平臺的靈活性與擴(kuò)展性。

WOW是一個能讓機(jī)器人真正看見、理解并行動于世界的世界模型，提出了一個全新的框架，將世界生成、動作預(yù)測、視覺理解和自我反思融合為一個統(tǒng)一系統(tǒng)，使得AI不再只是看視頻或生成圖像，而能通過交互學(xué)習(xí)世界的物理規(guī)律，并在真實(shí)環(huán)境中自主操作。

模型怎么樣才能夠像人類一樣，通過實(shí)踐不斷進(jìn)步，越來越聰明？WoW給出了答案：其提出的SOPHIA框架，把大語言模型與擴(kuò)散Transformer結(jié)合起來，在語言引導(dǎo)下生成物理上合理的未來，讓AI形成"生成預(yù)測-批評-修正"的閉環(huán)，使得模型在執(zhí)行任務(wù)時能不斷優(yōu)化。

▲SOPHIA框架讓AI生成結(jié)果后自我評估、給出反饋，并通過Refiner Agent改進(jìn)提示詞或推理鏈

WOW中還有一個基于Diffusion Transformer架構(gòu)的世界生成引擎，它能夠根據(jù)環(huán)境狀態(tài)與智能體當(dāng)前觀測，預(yù)測未來場景、推演物理演化、還原動態(tài)因果鏈。

光有視覺“想象”還不夠，WoW還能實(shí)現(xiàn)視頻生成和機(jī)器人動作執(zhí)行的閉環(huán)。只要給定連續(xù)兩幀預(yù)測視頻，FM-IDM逆動力學(xué)模型就能夠計(jì)算出機(jī)器人末端執(zhí)行器的動作變化量，將想象的視頻預(yù)測轉(zhuǎn)化為可執(zhí)行動作，讓AI的想象真正落地。

▲FM-IDM讓模型實(shí)現(xiàn)從視頻到行動的閉環(huán)

在泛化能力上，WoW表現(xiàn)突出：無需微調(diào)，即可在UR5、Franka、AgileX等不同機(jī)器人平臺上執(zhí)行任務(wù)，甚至能操作從未見過的物體，比如定制文化衫、氣球等柔性物體等，展現(xiàn)出強(qiáng)大的物理規(guī)律抽象能力。

總而言之，基于Cosmos，Wow實(shí)現(xiàn)了“想象世界-理解物理-生成視頻-執(zhí)行動作-再學(xué)習(xí)”的完整閉環(huán)，推動AI擁有直覺物理的能力，加快通用機(jī)器人的規(guī)模化落地與泛化。

03.

結(jié)語：擁有對物理世界的想象力，

AI加快成為真正的具身智能體

Cosmos及開發(fā)者基于其構(gòu)建的模型，讓機(jī)器人不再只是物理世界的被動觀察者，而是成為能主動想象、理解、行動的智能體，讓人看到了AI真正成為具身智能體的未來。

隨著機(jī)器人能像人類一樣通過互動學(xué)習(xí)物理規(guī)律，而不是依賴海量數(shù)據(jù)“死記硬背”，具身智能的終極目標(biāo)，讓AI真正理解世界、在現(xiàn)實(shí)世界中行動就不再是遙不可及的未來。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.