文|富充
編輯|蘇建勛
四天前,“大曉機器人”的小紅書發(fā)了一條視頻,標題是:曉剛老師養(yǎng)了十只狗。
視頻中,大曉機器人董事長,也是商湯科技的聯(lián)合創(chuàng)始人王曉剛,站在十個不同形態(tài)的機器狗后面,他沒有拿遙控器,手一揮,說著“任務已下發(fā),出發(fā)”。
機器狗們聞聲而動:有的去路面尋找車輛違停,拍照并回傳;有的去城市禁飛區(qū)域排查違規(guī)無人機信號,且在找到操作者后發(fā)出語音警告。
“過去的一條狗,可能要兩三個人工作人員‘伺候’。未來,一個人在遠端控制室,就能管理一支隊伍。” 王曉剛描述到。
在12月18日“大曉機器人”的發(fā)布會上,王曉剛也給出了大曉機器狗的落地場景:可以作為機器狗“城管”進行街面巡查,目前就正在與徐匯公安探討這份城市治理的新方案。

△出發(fā)執(zhí)行任務的四足狗“汪汪隊”,來自不同本體品牌,背上統(tǒng)一搭載大曉具身超級大腦模組A1,圖源:企業(yè)提供
王曉剛把“讓狗突然能干活”的功勞,指向此次兩項新發(fā)布:
一是具身超級大腦模組A1,相當于一個聰明的AI大腦,可以搭載于宇樹、智元、云深處等不同品牌的本體。裝入A1模組之后,原本只有運動能力的機器狗,也具備了“空間智能”和“自主決策”能力。
而驅(qū)動這個大腦的核心,是本次的另一個發(fā)布——“開悟”世界模型3.0。簡單來說,世界模型就是在AI模型中建立了物理世界的運行規(guī)律。有了它,就像是把與世界交互的能力放進機器人大腦。
這樣一來,機器人可以更快學會物理世界中的不同任務,還能適應未去過的新環(huán)境。就像是學會了“開門”這件事后,無論是家中的入戶門,還是初次探店的餐廳大門,都可以打開。
除此之外,世界模型還能應用在不同機器人身上。四足狗、雙足人形等等多樣構(gòu)型的本體,都可以通過世界模型,具備理解世界、對后續(xù)狀態(tài)進行預測的能力。
不過,世界模型并非一個憑空而來的概念。它的興起,直指過去一年具身智能主流技術(shù)VLA模型所遇到的本質(zhì)瓶頸:
VLA更像一個“超級模仿者”,靠海量“畫面—指令—動作”配對數(shù)據(jù),讓機器人學習特定技能;但它很難真正理解物理規(guī)律,所以換個環(huán)境、換個對象,成功率就會下降。
因此,VLA需要堆大量數(shù)據(jù),讓模型“看過”不同的案例,才能完成越來越多的任務。但當前的數(shù)據(jù)量卻難以為繼:自動駕駛可輕易積累數(shù)百萬小時行車數(shù)據(jù),而具身智能還需要工作人員遙控機器人采集數(shù)據(jù),至今仍困在10萬小時的量級。
世界模型則讓機器人的大腦可以從“死記硬背例題”轉(zhuǎn)向“掌握通用公式”,從而大幅降低對特定場景、海量真機數(shù)據(jù)的依賴。
發(fā)布會現(xiàn)場,《智能涌現(xiàn)》試用了“開悟”世界模型3.0:只需要輸入一段文字描述,然后選擇相機機位、不同機器人本體等信息,世界模型就會生成以這款機器人為第一視角的動作畫面。
這些生成的畫面與動作決策,可以教會機器人大腦與物理世界交互的方法,在背后指揮機器人完成每一次行動。

△現(xiàn)場試用中,“開悟”世界模型3.0可以根據(jù)使用者在右側(cè)輸入的空間、動作文字描述,生成畫面,圖源:作者拍攝
正因如此,世界模型成為近期大熱的技術(shù)趨勢。包括特斯拉在內(nèi),近期的技術(shù)分享中,越來越多智能駕駛和具身智能公司展示了世界模型的布局進展。
但王曉剛也強調(diào),世界模型真要做到有效,必須有下游驗證的閉環(huán)。
他回憶起,2024年11月,自己就曾主導發(fā)布過智能駕駛世界模型,但彼時行業(yè)對這項技術(shù)的態(tài)度是“不太信”。
原因是,包括英偉達Cosmos世界模型在內(nèi),當時不少公司把世界模型當“數(shù)據(jù)生成器”。雖然可以在實驗室里生成一堆看起來成立的場景畫面,但缺少下游真實落地驗證,沒人能回答“這些數(shù)據(jù)到底好不好用”,很難建立信任。
王曉剛的解法,是把推出的智能駕駛世界模型放進自身的止駕算法業(yè)務里。例如與上汽智己的合作中,這項能力被用于攻克“過環(huán)島”、“大車加塞”等高風險博弈場景。
過去采集這類數(shù)據(jù)危險又貴,甚至得協(xié)調(diào)“演員車”上路復現(xiàn)。商湯則可以先在世界模型里規(guī)模化生成大量場景畫面與解決策略后,再用上汽智己的實車對世界模型的決策進行檢驗、校準,讓模型能力在真實反饋里越練越準。
同樣的方法論搬到具身智能上,大曉選擇用“機器狗上街”做商業(yè)化第一站:四足狗硬件更成熟、進入場景的商業(yè)化路徑更短,能在任務執(zhí)行中驗證世界模型的能力,在真實場景里持續(xù)迭代。
王曉剛也給出了大曉的商業(yè)化路線圖:先用四足在道路世界跑起來,探索四足還未充分開拓的增量市場;2—3年后,通過輪式雙臂機器人將業(yè)務延展到無人物流倉;再往后,則考慮雙足人形與更復雜的家庭場景。
在這個過程中,大曉并非從頭開始。商湯過去11年的積累,給大曉機器人的商業(yè)落地帶來可復用的資源。
比如商湯旗下“方舟”視覺平臺已在城市中落地大量事件檢測應用,這讓大曉有可能快速切入安防、巡檢等場景;此外,商湯在海外市場的布局,也為大曉機器人未來賣到其他國家提供了現(xiàn)成的通道。
近期,《智能涌現(xiàn)》對王曉剛進行了專訪,聊了聊他對世界模型的判斷,以及大曉的技術(shù)細節(jié)。以下對話經(jīng)作者整理。
![]()
△大曉機器人董事長王曉剛,圖片:企業(yè)提供
賽道升級:VLA到世界模型
智能涌現(xiàn):從VLA到世界模型的“升級”,你認為這是同一個技術(shù)方向的逐漸演變,還是一個很大的轉(zhuǎn)折?
王曉剛:這條線是一脈相承的。我把世界模型、端到端、強化學習看成同一條技術(shù)鏈路在不同階段的延伸。
從自動駕駛到具身智能,核心都是讓模型理解并預測真實世界的演化,再把這種能力用于決策與控制。
行業(yè)的變化在于,大家開始把“模型能不能在物理世界里閉環(huán)生效”當成第一性問題,而不只是做幾個演示動作。
你也能看到像特斯拉近期披露的一些細節(jié)里,世界模型被用作仿真器,這就是技術(shù)發(fā)展一路走到今天的結(jié)果。
智能涌現(xiàn):你說去年11月就主導發(fā)布過世界模型,但當時大家“不相信”世界模型。后來商湯用上汽智己的智駕業(yè)務做了驗證,具體驗證了什么?
王曉剛:上汽智己會挑高風險、高復雜度場景來驗證我們世界模型的能力,比如過環(huán)島、大車加塞這類博弈問題。
過去在這些危險場景要采集真實數(shù)據(jù),危險、成本高,甚至需要找演員去制造場景。但用了世界模型后,能生成更多這類場景的數(shù)據(jù)與策略,幫助智能駕駛提升相應任務的處理能力。
智能涌現(xiàn):世界模型解決了哪些VLA的短板問題?
王曉剛:VLA更偏短序動作、技能的學習,通常不承載復雜的物理規(guī)律注入與長鏈推理。因缺少對物理世界的結(jié)構(gòu)化理解,也容易“會做一些看起來對但無效的動作”。
世界模型的目標更大,它學會了環(huán)境與交互的規(guī)律,支持預測、推理、規(guī)劃,并能在不同任務、場景中形成泛化。
比如VLA學會開一個白色的冰箱門以后,換成了黑色的冰箱它可能就不認識了。世界模型可以理解冰箱門是怎么被打開的,那換了一個房間、換了一臺外觀很不同的冰箱,它依然知道這里面的物理規(guī)律。
我們還希望把世界模型盡可能放端側(cè),這樣也可以提升機器人從思考到執(zhí)行的同步效率。
智能涌現(xiàn):你為什么強調(diào)“世界模型要與強化學習結(jié)合”?
王曉剛:強化學習擅長在可反復試錯的環(huán)境里找策略,但現(xiàn)實世界試錯成本太高,所以可以把一部分試錯與推演搬到世界模型里做,再把策略遷回真機。
智能涌現(xiàn):Sora這種生成式世界模型,和大曉推出的具身世界模型,之間的區(qū)別是什么?
王曉剛:Sora是一個出色的視頻生成器,但它本質(zhì)上是一個“黑盒”。它生成的視頻可能看起來很真實、酷炫,但模型內(nèi)部并不理解視頻里物體之間的物理關(guān)系和因果規(guī)律。
Sora沒法把場景里的物體拆成可交互、可替換的對象去編輯。比如畫面里瓶子、桌子和周圍環(huán)境粘在一起,都是一整塊“背景”,你不能把瓶子單獨拿出來、換位置,再讓它和其他動態(tài)對象發(fā)生真實交互。
具身世界模型要解決的是另一類問題:它不是為了生成一段好看的視頻,而是為了讓機器人能在真實世界里推理、規(guī)劃、做決策。
比如桌子上有一堆積木,你讓世界模型控制機器人把它們以最快速度搭成“ACE” 三個字母的形狀。這個任務里,機器人得先理解每塊積木的位置、形狀、可移動性,推演出一個最優(yōu)的移動序列:先動哪塊、后動哪塊,用什么抓取方式,才能用最少步驟完成。
智能涌現(xiàn):所以大曉推出的世界模型,有哪些能力可以幫助具身智能更好地執(zhí)行任務?
王曉剛:所以我們做的具身世界模型要包括三塊多模塊能力:
第一是多模態(tài)理解,去理解世界本身,不僅是視頻的內(nèi)容,還包括相機位姿、3D 軌跡、力學屬性等更深層的東西;
第二是多模態(tài)生成,要能生成可訓練的數(shù)據(jù)和場景,比如在一個生成的世界畫面里換背景、換本體、換機械臂;
第三是多模態(tài)預測,比如我下達指令是“拿起手機”,但它要能預測用左手和右手會有不一樣的動作軌跡。
而且,我們的平臺允許用戶選擇不同機器人本體。因為你最終是要讓機器人“去干活”的——你在生成仿真數(shù)據(jù)、構(gòu)建訓練場景時,要對應到具體本體,才能把世界模型真正接進下游訓練閉環(huán)里。
智能涌現(xiàn):你如何判斷一個世界模型好不好?
王曉剛:行業(yè)有一些Benchmark,但我更看重影響力和應用解決問題的能力。
單看榜單不夠,要看能不能跟機器人系統(tǒng)結(jié)合、在真實問題里被大量使用、持續(xù)迭代。我們也會把世界模型開源,讓大家用起來。用得多、能解決問題,本身就是一種更硬的評價體系。

△搭載大曉模組的機器狗可以識別路口紅燈,實現(xiàn)自主導航、避障,圖片:企業(yè)提供
世界模型的數(shù)據(jù)方法論
智能涌現(xiàn):“開悟”世界模型3.0包含一個怎樣的架構(gòu)?訓練數(shù)據(jù)從哪里來?
王曉剛:我們把架構(gòu)拆成三個層次,不同的層次采集不同的數(shù)據(jù)
1)最底層是對這個世界的描述。比如為什么是蘋果熟了會掉下來,這里面它的物理規(guī)律是什么。這些關(guān)于世界物理規(guī)律的描述都是文本的。
2)第二個層次是人類行為,即人如何與這個物理世界交互。要讓模型理解機器人跟物理世界交互的時候,位姿是怎么變的;施加的力是什么樣的;觸覺是怎樣的等等。
這是以人為主體進行的數(shù)據(jù)采集,比如讓人頭戴攝像機,拍攝第一視角的視頻;或者人戴上數(shù)采手套去捕捉手部動作;周圍也有攝像頭進行第三視角的拍攝。從不同的視角把人與世界交互的動作記錄下來。
3)第三個層次真機動作。具體而言,有些本體是十幾個自由度,也有幾十個自由度的本體,它們所看到的世界是不一樣因此。因此,也要再配合采集不同本體的真機數(shù)據(jù)。
智能涌現(xiàn):為什么你們強調(diào)主要的數(shù)據(jù)要“以人為中心”采集,而不是“以機器為中心”?
王曉剛:以機器人為中心會帶來一個問題:不同構(gòu)型本體的數(shù)據(jù)難以跨本體復用,而且人操作機器人做動作、采數(shù)據(jù)效率非常低。
但人自己做動作的數(shù)據(jù)更容易規(guī)模化采集。所以我們先采人的數(shù)據(jù),訓練一個有物理常識的大腦,再遷到不同機器人上。
智能涌現(xiàn):有了世界模型以后,對真機數(shù)據(jù)的需求似乎可以減少?到底還需要多少真機數(shù)據(jù)?
王曉剛:截止到現(xiàn)在,自動駕駛里真實數(shù)據(jù)精挑數(shù)據(jù)能做到數(shù)百萬小時,而機器人真機采集數(shù)據(jù)往往只有1萬到10萬小時。
但如果先用人體和環(huán)境數(shù)據(jù)做大盤,再用少量真機數(shù)據(jù)校準,真機部分可以從萬小時級別進一步往下壓。很多情況下不必額外大規(guī)模采,只要把現(xiàn)有真機數(shù)據(jù)放進去即可。
智能涌現(xiàn):物理規(guī)律那么多,世界模型中如何全部覆蓋這么多的知識?
王曉剛:物理規(guī)律不可能無條件窮盡,所以世界模型一定有場景邊界。比如做自動駕駛不關(guān)心家庭內(nèi)的場景,做家庭場景的不關(guān)心海里蘋果怎么漂。
大曉的做法是先從身邊道路開始做起,中期做無人物流倉,未來再擴到家庭,逐步擴大邊界。

△大曉機器狗在識別違停車輛,圖片:企業(yè)提供
從街上的四足狗先跑通商業(yè)化
智能涌現(xiàn):大曉這次發(fā)布的“大腦模組”是什么?包含什么?
王曉剛:模組可以理解為一個盒子:集成傳感器、通信、計算等能力,用來把世界模型能力裝到本體上。
模組也包括全景相機,這可以提升視野,檢測很多周圍世界里的事件。
智能涌現(xiàn):為什么先選機器狗的形態(tài)承載這個模組,而不是直接研發(fā)人形?
王曉剛:機器狗的技術(shù)更成熟,穩(wěn)定性更高,我們希望用它先進入真實場景跑起來。
智能涌現(xiàn):大曉要做像蘋果的軟硬一體,還是更開放的生態(tài)?
王曉剛:我們會做軟硬一體。但和蘋果不同之處在于,蘋果的軟件和硬件都只給自己用,我們會選擇性自研關(guān)鍵部分,也需要生態(tài)合作伙伴。
具體而言,自己能做好的就做,借助生態(tài)更快的部分就去合作。關(guān)鍵是最終交付的是可用的產(chǎn)品方案,把成本降下來,把穩(wěn)定性和安全性提上去。
智能涌現(xiàn):大曉未來的商業(yè)計劃,更偏向把世界模型賣給本體廠商,還是直接面對場景客戶?
王曉剛:我們會希望直接進入場景。
一來,場景客戶這邊我們更熟,商湯在城市、文旅等場景做了多年,知道客戶需求是什么樣的。二來,很多本體廠商時間短,也不一定愿意投入資源進場景。
所以我們更有條件直接打場景,并利用既有資源把進入場景的成本攤薄。
![]()
△通過輪式雙臂機器人將業(yè)務延展到無人物流倉是大曉的未來商業(yè)規(guī)劃,目前正與合作本體廠商進行該場景訓練,圖片:企業(yè)提供
智能涌現(xiàn):大曉和具身本體公司之間,既可以合作又可能存在競爭,怎么協(xié)調(diào)?
王曉剛:當下最大的問題還不是競爭,因為場景還沒完全打開。
我們在策略上以場景為導向,優(yōu)先找增量:不去搶別人已經(jīng)穩(wěn)定跑通的存量,比如電力巡檢等。找到場景后,本體廠商反而愿意配合,因為他們過去不敢投入產(chǎn)能,本質(zhì)也是不確定場景與訂單量。
智能涌現(xiàn):大曉主要To B還是To C?
王曉剛:先做to B。
To C市場的量確實巨大,但正因如此,它對產(chǎn)品的可靠性、安全性和耐久性有著極其苛刻的要求。
這不是說技術(shù)原理上做不到,而是整個產(chǎn)業(yè)鏈在沒有明確的大規(guī)模應用場景驅(qū)動前,不愿意也沒有動力去投入巨大的成本來攻克這些工程和質(zhì)量難關(guān)。
所以,我們的策略是先通過To B場景,來驅(qū)動整個產(chǎn)業(yè)鏈的成熟。在智慧城市、園區(qū)管理、文旅導覽等這些對自主移動能力有迫切需求的領(lǐng)域,機器狗作為一個可管理的“數(shù)字員工”,它的價值是明確的,并且能夠容忍一個逐步迭代和優(yōu)化的過程。
智能涌現(xiàn):會考慮做出海嗎?
王曉剛:會。更像跟著體系走,我們在東南亞、中東等有海外資源和團隊,可以順勢推進。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.