網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

湯曉鷗學(xué)生創(chuàng)業(yè)做機(jī)器人，不押注VLA，要走李飛飛的世界模型路線

2025-12-26 18:20:56　來(lái)源: 搜狐科技

北京舉報(bào)

分享至

搜狐科技《超級(jí)瓦力——對(duì)話具身智能50人》欄目第14期，對(duì)話大曉機(jī)器人CEO王曉剛。

現(xiàn)有技術(shù)路線存在缺陷，包括VLA模型，它不太理解真實(shí)的物理世界和物理規(guī)律。
很多公司在做本體，但真正缺乏的是理解世界的大腦、能解決實(shí)際問(wèn)題的產(chǎn)品。
明年國(guó)內(nèi)將出現(xiàn)大量即時(shí)零售倉(cāng)儲(chǔ)應(yīng)用場(chǎng)景，這類場(chǎng)景需要7×24小時(shí)服務(wù)，機(jī)器人能夠充分發(fā)揮優(yōu)勢(shì)

出品｜搜狐科技

作者｜常博碩

編輯｜楊錦

2025年，具身智能無(wú)疑是最擁擠也最焦慮的賽道之一。

在這個(gè)賽博世界里，人形機(jī)器人價(jià)格已經(jīng)被壓縮至萬(wàn)元以內(nèi)，看似繁榮的背后，技術(shù)路線的分歧也愈發(fā)尖銳。

VLA、端到端、強(qiáng)化學(xué)習(xí)、世界模型……各種名詞被頻繁提及，卻很少有人真正回答一個(gè)問(wèn)題：機(jī)器人究竟該如何真正“理解”這個(gè)世界?

就在這個(gè)背景下，商湯科技聯(lián)合創(chuàng)始人王曉剛，選擇以一種新的方式，加入競(jìng)爭(zhēng)。

2025年12月，商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事王曉剛出任大曉機(jī)器人董事長(zhǎng)。

大曉的切入點(diǎn)顯得異常克制：不涌入擁擠的本體賽道，不押注VLA，不追逐短期演示效果，而是將全部籌碼，押在一個(gè)被反復(fù)提及卻逐漸成為行業(yè)共識(shí)的方向上——世界模型。

“VLA是以機(jī)器為中心的范式，它并不需要真正理解物理世界。”王曉剛在多次采訪中反復(fù)強(qiáng)調(diào)這一判斷。

在他看來(lái)，當(dāng)下主流具身方案的核心問(wèn)題并不在算力或者參數(shù)規(guī)模，而是研究范式本身的起點(diǎn)就存在偏差。

過(guò)去兩年，隨著大語(yǔ)言模型和多模態(tài)模型的突破，行業(yè)普遍期待把“會(huì)說(shuō)話的大腦”直接裝進(jìn)機(jī)器人身體里。VLA模型正是這一思路的典型產(chǎn)物。

輸入語(yǔ)言、視覺(jué)信號(hào)，輸出動(dòng)作序列，仿佛機(jī)器人只要模仿得足夠多，就能獲得通用能力。但在王曉剛看來(lái)，這種路徑天然受困于本體結(jié)構(gòu)和數(shù)據(jù)效率，難以支撐真正的長(zhǎng)時(shí)序、復(fù)雜任務(wù)，更談不上跨場(chǎng)景泛化。

相比之下，大曉選擇了一條更“底層”的路線。

以人為中心的環(huán)境式采集、開(kāi)悟世界模型，再加上具身交互，三層架構(gòu)共同構(gòu)成了大曉具身技術(shù)體系的核心。

在具身智能尚未形成技術(shù)收斂的當(dāng)下，大曉的入局，或許并不意味著終極答案已經(jīng)出現(xiàn)，但它至少清晰地提出了一個(gè)問(wèn)題和新的解法：

當(dāng)機(jī)器人真正走向物理世界，究竟是“會(huì)做動(dòng)作”更重要，還是“理解世界”更重要？

而這個(gè)問(wèn)題，很可能決定下一階段具身智能競(jìng)爭(zhēng)的方向。

帶著對(duì)行業(yè)的困惑與技術(shù)路線選擇的疑問(wèn)，搜狐科技等媒體與王曉剛進(jìn)行了一場(chǎng)深入的對(duì)話。

以下為搜狐科技等媒體與大曉機(jī)器人董事長(zhǎng)王曉剛的采訪實(shí)錄（經(jīng)編輯）

大曉到底做什么？

媒體：想問(wèn)一下大曉機(jī)器人的名字是如何確定的，以及這些名字背后有著怎樣的意義？

王曉剛：它取自大程名字里的一個(gè)字，也用了我名字中的一個(gè)字。我和陶大程（大曉首席科學(xué)家，澳大利亞科學(xué)院院士、新加坡南洋理工大學(xué)杰出教授）本身都是湯曉鷗教授的學(xué)生。

媒體：大曉機(jī)器人主要側(cè)重于機(jī)器人本體還是大腦？如果側(cè)重大腦，技術(shù)路線是世界模型、VLA還是端到端？

王曉剛：大曉機(jī)器人在產(chǎn)品化落地方面，輸出的是軟硬一體的方案。

當(dāng)前我們能夠看到現(xiàn)有技術(shù)路線的明顯缺陷，包括VLA模型，是以機(jī)器為中心的，通過(guò)輸入指令、圖像和視頻，直接輸出動(dòng)作，它不太需要去理解真實(shí)的物理世界和物理規(guī)律。

簡(jiǎn)單粗暴地使用端到端或VLA，并不能解決具身智能對(duì)“大腦”的期望。

媒體：ACE技術(shù)范式具體意味著什么，又能實(shí)現(xiàn)怎樣的效果？

王曉剛：我們提出的世界模型分為三部分。一是多模態(tài)的理解，包含圖像、視頻、相機(jī)位置、3D軌跡，還有力學(xué)元素、觸覺(jué)等一系列內(nèi)容。

其次，理解物理世界后，需要生成長(zhǎng)時(shí)動(dòng)靜態(tài)交互場(chǎng)景，這些交互行為需具備物理規(guī)律和因果思維鏈，并形成長(zhǎng)時(shí)間記憶。

三是預(yù)測(cè)功能，根據(jù)所選機(jī)器人本體、觀察到的圖像及視頻狀態(tài)，可預(yù)測(cè)機(jī)器人后續(xù)動(dòng)作。這種“理解-合成-預(yù)測(cè)”的融合能力，正是世界模型的核心。

媒體：大曉機(jī)器人在硬件方面，包括傳感器、電機(jī)、減速器、控制器等，是與哪些企業(yè)合作？

王曉剛：我們投資的企業(yè)中，鈦虎、鹿明等都會(huì)有合作關(guān)系，它們與硬件相關(guān)。在傳感器方面，我們與影石Insta360合作，將全景相機(jī)的能力賦予到機(jī)器人上，這是一個(gè)關(guān)鍵的零部件亮點(diǎn)。

為何現(xiàn)在入局？

媒體：商湯科技將具身智能業(yè)務(wù)剝離出來(lái)成為一個(gè)獨(dú)立的公司，是出于哪些方面的考量？

王曉剛：商湯過(guò)去更多聚焦于ToB軟件業(yè)務(wù)，近年來(lái)隨著大模型的發(fā)展，我們布局了大裝置和基礎(chǔ)設(shè)施，但在端側(cè)的軟硬協(xié)同整體產(chǎn)品方面仍有空白。機(jī)器人的出現(xiàn)提供了一個(gè)良好契機(jī)，讓我們有機(jī)會(huì)實(shí)現(xiàn)軟硬件整合。

媒體：您認(rèn)為目前具身智能這個(gè)行業(yè)的頭部卡位已經(jīng)完成了嗎？新創(chuàng)業(yè)公司的機(jī)會(huì)點(diǎn)在哪？

王曉剛：我認(rèn)為頭部卡位還沒(méi)有完成，這個(gè)領(lǐng)域還遠(yuǎn)未成熟，目前行業(yè)技術(shù)路線存在明顯缺陷。比如特斯拉和Figure AI都放棄了以真機(jī)為主的技術(shù)路線，轉(zhuǎn)向以視覺(jué)為主的技術(shù)路線。但視覺(jué)為主的技術(shù)路線并非終極方案，所以我們提出了“以人為中心”的ACE研究范式。

第二點(diǎn)看場(chǎng)景落地，目前能夠成規(guī)模量產(chǎn)的機(jī)器人場(chǎng)景，要么是提供情緒價(jià)值的表演性質(zhì)產(chǎn)品，要么是作為科研平臺(tái)存在，尚未出現(xiàn)能大幅提升生產(chǎn)力的規(guī)模化應(yīng)用。

第三點(diǎn)是產(chǎn)業(yè)鏈層面，機(jī)器人行業(yè)的產(chǎn)業(yè)鏈分工尚未完善，成本依然很高。因此，我認(rèn)為整個(gè)機(jī)器人產(chǎn)業(yè)的格局遠(yuǎn)遠(yuǎn)沒(méi)有確定下來(lái)。

媒體：現(xiàn)在具身智能賽道競(jìng)爭(zhēng)非常激烈，人形機(jī)器人價(jià)格已降到萬(wàn)元以內(nèi)。商湯在這個(gè)節(jié)點(diǎn)加入具身智能賽道，背后的契機(jī)是什么？大曉的核心競(jìng)爭(zhēng)力體現(xiàn)在哪里？

王曉剛：第一點(diǎn)是我們看到了一個(gè)與以往不同的新研究范式，也就是以人為中心的ACE研究范式。

如果一直沿著原有的范式前進(jìn)，追趕或超越會(huì)非常困難，只有在這種革命性變化出現(xiàn)時(shí)，我們才有機(jī)會(huì)實(shí)現(xiàn)突破。

第二點(diǎn)是產(chǎn)業(yè)落地。商湯過(guò)去十幾年積累了幾千家客戶，覆蓋眾多行業(yè)方向，，當(dāng)我們進(jìn)入這個(gè)領(lǐng)域時(shí)，能夠快速實(shí)現(xiàn)規(guī)模化的場(chǎng)景落地，讓機(jī)器人的價(jià)值成倍放大。

媒體：對(duì)于大曉機(jī)器人來(lái)說(shuō)，有沒(méi)有明確的短期或長(zhǎng)期目標(biāo)？或者說(shuō)，想要在行業(yè)內(nèi)達(dá)到一個(gè)什么樣的位置？

王曉剛：短期的話，除了提供情緒價(jià)值的表演類機(jī)器人外，我們認(rèn)為能夠規(guī)模化落地的，是搭載了導(dǎo)航能力與各類AI應(yīng)用能力的四足機(jī)器狗。

中期看好工業(yè)場(chǎng)景與商業(yè)服務(wù)場(chǎng)景，其中會(huì)優(yōu)先選擇閃購(gòu)倉(cāng)、前置倉(cāng)這類商業(yè)服務(wù)場(chǎng)景。明年國(guó)內(nèi)將出現(xiàn)大量前置倉(cāng)與閃購(gòu)倉(cāng)，這類場(chǎng)景需要大量人力支持7×24小時(shí)服務(wù)，機(jī)器人能夠充分發(fā)揮在這類環(huán)境中的優(yōu)勢(shì)。

更遠(yuǎn)期的目標(biāo)則指向五年后的家庭場(chǎng)景，但這更多涉及前沿技術(shù)的探索。

為什么不押注 VLA

媒體：以人為中心收集環(huán)境的數(shù)據(jù)優(yōu)化世界模型的路徑，涉及到無(wú)窮無(wú)盡的場(chǎng)景、動(dòng)作，它是可以去窮舉的嗎？

王曉剛：基于VLA訓(xùn)練出來(lái)的模型，會(huì)被受困于它的本體。世界模型采取了可能是更本質(zhì)的方式，能覆蓋更多的場(chǎng)景。關(guān)鍵是你這套范式是不是一個(gè)能夠很容易拓展的，有一千個(gè)人、一萬(wàn)個(gè)人在用這種方式采集數(shù)據(jù)，能夠產(chǎn)生回流。

媒體：所以這是我們開(kāi)源最本質(zhì)的原因是嗎？

王曉剛：對(duì)，一旦開(kāi)源以后別人可以給你各種反饋，給你提供各種場(chǎng)景。這也是中國(guó)和其他的國(guó)家在人工智能發(fā)展路徑上一個(gè)很差異化的點(diǎn)。

媒體：未來(lái)機(jī)器人能夠做的事情會(huì)有哪些關(guān)鍵的變化？

王曉剛：在世界模型的加持下，對(duì)于泛化性世界模型應(yīng)該有突破機(jī)會(huì)。像前置倉(cāng)的場(chǎng)景，有上萬(wàn)的SKU，零售場(chǎng)景用VLA很難把這個(gè)規(guī)模達(dá)到上萬(wàn)種不同的類別，但是在新的范式下是有可能做到這一點(diǎn)的。

運(yùn)營(yíng)編輯 |曹倩審核｜孟莎莎

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.