![]()
![]()
搜狐科技《超級瓦力——對話具身智能50人》欄目第14期,對話大曉機器人CEO王曉剛。
![]()
現有技術路線存在缺陷,包括VLA模型,它不太理解真實的物理世界和物理規律。
很多公司在做本體,但真正缺乏的是理解世界的大腦、能解決實際問題的產品。
明年國內將出現大量即時零售倉儲應用場景,這類場景需要7×24小時服務,機器人能夠充分發揮優勢
出品|搜狐科技
作者|常博碩
編輯|楊 錦
2025年,具身智能無疑是最擁擠也最焦慮的賽道之一。
在這個賽博世界里,人形機器人價格已經被壓縮至萬元以內,看似繁榮的背后,技術路線的分歧也愈發尖銳。
VLA、端到端、強化學習、世界模型……各種名詞被頻繁提及,卻很少有人真正回答一個問題:機器人究竟該如何真正“理解”這個世界?
就在這個背景下,商湯科技聯合創始人王曉剛,選擇以一種新的方式,加入競爭。
2025年12月,商湯科技聯合創始人、執行董事王曉剛出任大曉機器人董事長。
大曉的切入點顯得異常克制:不涌入擁擠的本體賽道,不押注VLA,不追逐短期演示效果,而是將全部籌碼,押在一個被反復提及卻逐漸成為行業共識的方向上——世界模型。
“VLA是以機器為中心的范式,它并不需要真正理解物理世界。”王曉剛在多次采訪中反復強調這一判斷。
在他看來,當下主流具身方案的核心問題并不在算力或者參數規模,而是研究范式本身的起點就存在偏差。
過去兩年,隨著大語言模型和多模態模型的突破,行業普遍期待把“會說話的大腦”直接裝進機器人身體里。VLA模型正是這一思路的典型產物。
輸入語言、視覺信號,輸出動作序列,仿佛機器人只要模仿得足夠多,就能獲得通用能力。但在王曉剛看來,這種路徑天然受困于本體結構和數據效率,難以支撐真正的長時序、復雜任務,更談不上跨場景泛化。
相比之下,大曉選擇了一條更“底層”的路線。
以人為中心的環境式采集、開悟世界模型,再加上具身交互,三層架構共同構成了大曉具身技術體系的核心。
在具身智能尚未形成技術收斂的當下,大曉的入局,或許并不意味著終極答案已經出現,但它至少清晰地提出了一個問題和新的解法:
當機器人真正走向物理世界,究竟是“會做動作”更重要,還是“理解世界”更重要?
而這個問題,很可能決定下一階段具身智能競爭的方向。
帶著對行業的困惑與技術路線選擇的疑問,搜狐科技等媒體與王曉剛進行了一場深入的對話。
以下為搜狐科技等媒體與大曉機器人董事長王曉剛的采訪實錄(經編輯)
![]()
大曉到底做什么?
媒體:想問一下大曉機器人的名字是如何確定的,以及這些名字背后有著怎樣的意義?
王曉剛:它取自大程名字里的一個字,也用了我名字中的一個字。我和陶大程(大曉首席科學家,澳大利亞科學院院士、新加坡南洋理工大學杰出教授)本身都是湯曉鷗教授的學生。
媒體:大曉機器人主要側重于機器人本體還是大腦?如果側重大腦,技術路線是世界模型、VLA還是端到端?
王曉剛:大曉機器人在產品化落地方面,輸出的是軟硬一體的方案。
當前我們能夠看到現有技術路線的明顯缺陷,包括VLA模型,是以機器為中心的,通過輸入指令、圖像和視頻,直接輸出動作,它不太需要去理解真實的物理世界和物理規律。
簡單粗暴地使用端到端或VLA,并不能解決具身智能對“大腦”的期望。
媒體:ACE技術范式具體意味著什么,又能實現怎樣的效果?
王曉剛:我們提出的世界模型分為三部分。一是多模態的理解,包含圖像、視頻、相機位置、3D軌跡,還有力學元素、觸覺等一系列內容。
其次,理解物理世界后,需要生成長時動靜態交互場景,這些交互行為需具備物理規律和因果思維鏈,并形成長時間記憶。
三是預測功能,根據所選機器人本體、觀察到的圖像及視頻狀態,可預測機器人后續動作。這種“理解-合成-預測”的融合能力,正是世界模型的核心。
媒體:大曉機器人在硬件方面,包括傳感器、電機、減速器、控制器等,是與哪些企業合作?
王曉剛:我們投資的企業中,鈦虎、鹿明等都會有合作關系,它們與硬件相關。在傳感器方面,我們與影石Insta360合作,將全景相機的能力賦予到機器人上,這是一個關鍵的零部件亮點。
![]()
為何現在入局?
媒體:商湯科技將具身智能業務剝離出來成為一個獨立的公司,是出于哪些方面的考量?
王曉剛:商湯過去更多聚焦于ToB軟件業務,近年來隨著大模型的發展,我們布局了大裝置和基礎設施,但在端側的軟硬協同整體產品方面仍有空白。機器人的出現提供了一個良好契機,讓我們有機會實現軟硬件整合。
媒體:您認為目前具身智能這個行業的頭部卡位已經完成了嗎?新創業公司的機會點在哪?
王曉剛:我認為頭部卡位還沒有完成,這個領域還遠未成熟,目前行業技術路線存在明顯缺陷。比如特斯拉和Figure AI都放棄了以真機為主的技術路線,轉向以視覺為主的技術路線。但視覺為主的技術路線并非終極方案,所以我們提出了“以人為中心”的ACE研究范式。
第二點看場景落地,目前能夠成規模量產的機器人場景,要么是提供情緒價值的表演性質產品,要么是作為科研平臺存在,尚未出現能大幅提升生產力的規模化應用。
第三點是產業鏈層面,機器人行業的產業鏈分工尚未完善,成本依然很高。因此,我認為整個機器人產業的格局遠遠沒有確定下來。
媒體:現在具身智能賽道競爭非常激烈,人形機器人價格已降到萬元以內。商湯在這個節點加入具身智能賽道,背后的契機是什么?大曉的核心競爭力體現在哪里?
王曉剛:第一點是我們看到了一個與以往不同的新研究范式,也就是以人為中心的ACE研究范式。
如果一直沿著原有的范式前進,追趕或超越會非常困難,只有在這種革命性變化出現時,我們才有機會實現突破。
第二點是產業落地。商湯過去十幾年積累了幾千家客戶,覆蓋眾多行業方向,,當我們進入這個領域時,能夠快速實現規模化的場景落地,讓機器人的價值成倍放大。
媒體:對于大曉機器人來說,有沒有明確的短期或長期目標?或者說,想要在行業內達到一個什么樣的位置?
王曉剛:短期的話,除了提供情緒價值的表演類機器人外,我們認為能夠規模化落地的,是搭載了導航能力與各類AI應用能力的四足機器狗。
中期看好工業場景與商業服務場景,其中會優先選擇閃購倉、前置倉這類商業服務場景。明年國內將出現大量前置倉與閃購倉,這類場景需要大量人力支持7×24小時服務,機器人能夠充分發揮在這類環境中的優勢。
更遠期的目標則指向五年后的家庭場景,但這更多涉及前沿技術的探索。
![]()
為什么不押注 VLA
媒體:以人為中心收集環境的數據優化世界模型的路徑,涉及到無窮無盡的場景、動作,它是可以去窮舉的嗎?
王曉剛:基于VLA訓練出來的模型,會被受困于它的本體。世界模型采取了可能是更本質的方式,能覆蓋更多的場景。關鍵是你這套范式是不是一個能夠很容易拓展的,有一千個人、一萬個人在用這種方式采集數據,能夠產生回流。
媒體:所以這是我們開源最本質的原因是嗎?
王曉剛:對,一旦開源以后別人可以給你各種反饋,給你提供各種場景。這也是中國和其他的國家在人工智能發展路徑上一個很差異化的點。
媒體:未來機器人能夠做的事情會有哪些關鍵的變化?
王曉剛:在世界模型的加持下,對于泛化性世界模型應該有突破機會。像前置倉的場景,有上萬的SKU,零售場景用VLA很難把這個規模達到上萬種不同的類別,但是在新的范式下是有可能做到這一點的。
![]()
![]()
運營編輯 |曹倩審核|孟莎莎
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.