![]()
![]()
搜狐科技《超級(jí)瓦力——對(duì)話具身智能50人》欄目第14期,對(duì)話大曉機(jī)器人CEO王曉剛。
![]()
現(xiàn)有技術(shù)路線存在缺陷,包括VLA模型,它不太理解真實(shí)的物理世界和物理規(guī)律。
很多公司在做本體,但真正缺乏的是理解世界的大腦、能解決實(shí)際問(wèn)題的產(chǎn)品。
明年國(guó)內(nèi)將出現(xiàn)大量即時(shí)零售倉(cāng)儲(chǔ)應(yīng)用場(chǎng)景,這類場(chǎng)景需要7×24小時(shí)服務(wù),機(jī)器人能夠充分發(fā)揮優(yōu)勢(shì)
出品|搜狐科技
作者|常博碩
編輯|楊 錦
2025年,具身智能無(wú)疑是最擁擠也最焦慮的賽道之一。
在這個(gè)賽博世界里,人形機(jī)器人價(jià)格已經(jīng)被壓縮至萬(wàn)元以內(nèi),看似繁榮的背后,技術(shù)路線的分歧也愈發(fā)尖銳。
VLA、端到端、強(qiáng)化學(xué)習(xí)、世界模型……各種名詞被頻繁提及,卻很少有人真正回答一個(gè)問(wèn)題:機(jī)器人究竟該如何真正“理解”這個(gè)世界?
就在這個(gè)背景下,商湯科技聯(lián)合創(chuàng)始人王曉剛,選擇以一種新的方式,加入競(jìng)爭(zhēng)。
2025年12月,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事王曉剛出任大曉機(jī)器人董事長(zhǎng)。
大曉的切入點(diǎn)顯得異常克制:不涌入擁擠的本體賽道,不押注VLA,不追逐短期演示效果,而是將全部籌碼,押在一個(gè)被反復(fù)提及卻逐漸成為行業(yè)共識(shí)的方向上——世界模型。
“VLA是以機(jī)器為中心的范式,它并不需要真正理解物理世界。”王曉剛在多次采訪中反復(fù)強(qiáng)調(diào)這一判斷。
在他看來(lái),當(dāng)下主流具身方案的核心問(wèn)題并不在算力或者參數(shù)規(guī)模,而是研究范式本身的起點(diǎn)就存在偏差。
過(guò)去兩年,隨著大語(yǔ)言模型和多模態(tài)模型的突破,行業(yè)普遍期待把“會(huì)說(shuō)話的大腦”直接裝進(jìn)機(jī)器人身體里。VLA模型正是這一思路的典型產(chǎn)物。
輸入語(yǔ)言、視覺(jué)信號(hào),輸出動(dòng)作序列,仿佛機(jī)器人只要模仿得足夠多,就能獲得通用能力。但在王曉剛看來(lái),這種路徑天然受困于本體結(jié)構(gòu)和數(shù)據(jù)效率,難以支撐真正的長(zhǎng)時(shí)序、復(fù)雜任務(wù),更談不上跨場(chǎng)景泛化。
相比之下,大曉選擇了一條更“底層”的路線。
以人為中心的環(huán)境式采集、開(kāi)悟世界模型,再加上具身交互,三層架構(gòu)共同構(gòu)成了大曉具身技術(shù)體系的核心。
在具身智能尚未形成技術(shù)收斂的當(dāng)下,大曉的入局,或許并不意味著終極答案已經(jīng)出現(xiàn),但它至少清晰地提出了一個(gè)問(wèn)題和新的解法:
當(dāng)機(jī)器人真正走向物理世界,究竟是“會(huì)做動(dòng)作”更重要,還是“理解世界”更重要?
而這個(gè)問(wèn)題,很可能決定下一階段具身智能競(jìng)爭(zhēng)的方向。
帶著對(duì)行業(yè)的困惑與技術(shù)路線選擇的疑問(wèn),搜狐科技等媒體與王曉剛進(jìn)行了一場(chǎng)深入的對(duì)話。
以下為搜狐科技等媒體與大曉機(jī)器人董事長(zhǎng)王曉剛的采訪實(shí)錄(經(jīng)編輯)
![]()
大曉到底做什么?
媒體:想問(wèn)一下大曉機(jī)器人的名字是如何確定的,以及這些名字背后有著怎樣的意義?
王曉剛:它取自大程名字里的一個(gè)字,也用了我名字中的一個(gè)字。我和陶大程(大曉首席科學(xué)家,澳大利亞科學(xué)院院士、新加坡南洋理工大學(xué)杰出教授)本身都是湯曉鷗教授的學(xué)生。
媒體:大曉機(jī)器人主要側(cè)重于機(jī)器人本體還是大腦?如果側(cè)重大腦,技術(shù)路線是世界模型、VLA還是端到端?
王曉剛:大曉機(jī)器人在產(chǎn)品化落地方面,輸出的是軟硬一體的方案。
當(dāng)前我們能夠看到現(xiàn)有技術(shù)路線的明顯缺陷,包括VLA模型,是以機(jī)器為中心的,通過(guò)輸入指令、圖像和視頻,直接輸出動(dòng)作,它不太需要去理解真實(shí)的物理世界和物理規(guī)律。
簡(jiǎn)單粗暴地使用端到端或VLA,并不能解決具身智能對(duì)“大腦”的期望。
媒體:ACE技術(shù)范式具體意味著什么,又能實(shí)現(xiàn)怎樣的效果?
王曉剛:我們提出的世界模型分為三部分。一是多模態(tài)的理解,包含圖像、視頻、相機(jī)位置、3D軌跡,還有力學(xué)元素、觸覺(jué)等一系列內(nèi)容。
其次,理解物理世界后,需要生成長(zhǎng)時(shí)動(dòng)靜態(tài)交互場(chǎng)景,這些交互行為需具備物理規(guī)律和因果思維鏈,并形成長(zhǎng)時(shí)間記憶。
三是預(yù)測(cè)功能,根據(jù)所選機(jī)器人本體、觀察到的圖像及視頻狀態(tài),可預(yù)測(cè)機(jī)器人后續(xù)動(dòng)作。這種“理解-合成-預(yù)測(cè)”的融合能力,正是世界模型的核心。
媒體:大曉機(jī)器人在硬件方面,包括傳感器、電機(jī)、減速器、控制器等,是與哪些企業(yè)合作?
王曉剛:我們投資的企業(yè)中,鈦虎、鹿明等都會(huì)有合作關(guān)系,它們與硬件相關(guān)。在傳感器方面,我們與影石Insta360合作,將全景相機(jī)的能力賦予到機(jī)器人上,這是一個(gè)關(guān)鍵的零部件亮點(diǎn)。
![]()
為何現(xiàn)在入局?
媒體:商湯科技將具身智能業(yè)務(wù)剝離出來(lái)成為一個(gè)獨(dú)立的公司,是出于哪些方面的考量?
王曉剛:商湯過(guò)去更多聚焦于ToB軟件業(yè)務(wù),近年來(lái)隨著大模型的發(fā)展,我們布局了大裝置和基礎(chǔ)設(shè)施,但在端側(cè)的軟硬協(xié)同整體產(chǎn)品方面仍有空白。機(jī)器人的出現(xiàn)提供了一個(gè)良好契機(jī),讓我們有機(jī)會(huì)實(shí)現(xiàn)軟硬件整合。
媒體:您認(rèn)為目前具身智能這個(gè)行業(yè)的頭部卡位已經(jīng)完成了嗎?新創(chuàng)業(yè)公司的機(jī)會(huì)點(diǎn)在哪?
王曉剛:我認(rèn)為頭部卡位還沒(méi)有完成,這個(gè)領(lǐng)域還遠(yuǎn)未成熟,目前行業(yè)技術(shù)路線存在明顯缺陷。比如特斯拉和Figure AI都放棄了以真機(jī)為主的技術(shù)路線,轉(zhuǎn)向以視覺(jué)為主的技術(shù)路線。但視覺(jué)為主的技術(shù)路線并非終極方案,所以我們提出了“以人為中心”的ACE研究范式。
第二點(diǎn)看場(chǎng)景落地,目前能夠成規(guī)模量產(chǎn)的機(jī)器人場(chǎng)景,要么是提供情緒價(jià)值的表演性質(zhì)產(chǎn)品,要么是作為科研平臺(tái)存在,尚未出現(xiàn)能大幅提升生產(chǎn)力的規(guī)模化應(yīng)用。
第三點(diǎn)是產(chǎn)業(yè)鏈層面,機(jī)器人行業(yè)的產(chǎn)業(yè)鏈分工尚未完善,成本依然很高。因此,我認(rèn)為整個(gè)機(jī)器人產(chǎn)業(yè)的格局遠(yuǎn)遠(yuǎn)沒(méi)有確定下來(lái)。
媒體:現(xiàn)在具身智能賽道競(jìng)爭(zhēng)非常激烈,人形機(jī)器人價(jià)格已降到萬(wàn)元以內(nèi)。商湯在這個(gè)節(jié)點(diǎn)加入具身智能賽道,背后的契機(jī)是什么?大曉的核心競(jìng)爭(zhēng)力體現(xiàn)在哪里?
王曉剛:第一點(diǎn)是我們看到了一個(gè)與以往不同的新研究范式,也就是以人為中心的ACE研究范式。
如果一直沿著原有的范式前進(jìn),追趕或超越會(huì)非常困難,只有在這種革命性變化出現(xiàn)時(shí),我們才有機(jī)會(huì)實(shí)現(xiàn)突破。
第二點(diǎn)是產(chǎn)業(yè)落地。商湯過(guò)去十幾年積累了幾千家客戶,覆蓋眾多行業(yè)方向,,當(dāng)我們進(jìn)入這個(gè)領(lǐng)域時(shí),能夠快速實(shí)現(xiàn)規(guī)模化的場(chǎng)景落地,讓機(jī)器人的價(jià)值成倍放大。
媒體:對(duì)于大曉機(jī)器人來(lái)說(shuō),有沒(méi)有明確的短期或長(zhǎng)期目標(biāo)?或者說(shuō),想要在行業(yè)內(nèi)達(dá)到一個(gè)什么樣的位置?
王曉剛:短期的話,除了提供情緒價(jià)值的表演類機(jī)器人外,我們認(rèn)為能夠規(guī)模化落地的,是搭載了導(dǎo)航能力與各類AI應(yīng)用能力的四足機(jī)器狗。
中期看好工業(yè)場(chǎng)景與商業(yè)服務(wù)場(chǎng)景,其中會(huì)優(yōu)先選擇閃購(gòu)倉(cāng)、前置倉(cāng)這類商業(yè)服務(wù)場(chǎng)景。明年國(guó)內(nèi)將出現(xiàn)大量前置倉(cāng)與閃購(gòu)倉(cāng),這類場(chǎng)景需要大量人力支持7×24小時(shí)服務(wù),機(jī)器人能夠充分發(fā)揮在這類環(huán)境中的優(yōu)勢(shì)。
更遠(yuǎn)期的目標(biāo)則指向五年后的家庭場(chǎng)景,但這更多涉及前沿技術(shù)的探索。
![]()
為什么不押注 VLA
媒體:以人為中心收集環(huán)境的數(shù)據(jù)優(yōu)化世界模型的路徑,涉及到無(wú)窮無(wú)盡的場(chǎng)景、動(dòng)作,它是可以去窮舉的嗎?
王曉剛:基于VLA訓(xùn)練出來(lái)的模型,會(huì)被受困于它的本體。世界模型采取了可能是更本質(zhì)的方式,能覆蓋更多的場(chǎng)景。關(guān)鍵是你這套范式是不是一個(gè)能夠很容易拓展的,有一千個(gè)人、一萬(wàn)個(gè)人在用這種方式采集數(shù)據(jù),能夠產(chǎn)生回流。
媒體:所以這是我們開(kāi)源最本質(zhì)的原因是嗎?
王曉剛:對(duì),一旦開(kāi)源以后別人可以給你各種反饋,給你提供各種場(chǎng)景。這也是中國(guó)和其他的國(guó)家在人工智能發(fā)展路徑上一個(gè)很差異化的點(diǎn)。
媒體:未來(lái)機(jī)器人能夠做的事情會(huì)有哪些關(guān)鍵的變化?
王曉剛:在世界模型的加持下,對(duì)于泛化性世界模型應(yīng)該有突破機(jī)會(huì)。像前置倉(cāng)的場(chǎng)景,有上萬(wàn)的SKU,零售場(chǎng)景用VLA很難把這個(gè)規(guī)模達(dá)到上萬(wàn)種不同的類別,但是在新的范式下是有可能做到這一點(diǎn)的。
![]()
![]()
運(yùn)營(yíng)編輯 |曹倩審核|孟莎莎
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.