過去一年,具身智能領域反復被問到一個問題:它到底只是多模態模型的一個應用,還是一種全新的基礎模型?
對此,自變量機器人創始人兼CEO王潛表示:
- 具身智能模型是物理世界的基礎模型,獨立于、平行于語言模型、多模態模型等虛擬世界的模型。
這一判斷背后,首先是對物理世界與虛擬世界本質差異的重新認識。
語言模型和多模態模型所面對的,是高度可復現、低隨機性的符號世界;而機器人所處的物理世界,則充滿連續性、隨機性、不完全可觀測性以及大量與力、接觸和時序強相關的過程。
沿用以語言和視覺為中心建立起來的建模范式,本身就存在結構性的錯位。
也正因為如此,自變量機器人在實踐中選擇了一條更長期的路線:不把具身智能當作應用層問題,而是從模型架構、數據范式、推理方式乃至硬件形態上,系統性地重做一套“物理世界的智能底座”。
![]()
為了完整體現王潛的思考,在不改變原意的基礎上,量子位對演講內容進行了編輯整理,希望能給你帶來更多啟發。
MEET2026智能未來大會是由量子位主辦的行業峰會,近30位產業代表與會討論。線下參會觀眾近1500人,線上直播觀眾350萬+,獲得了主流媒體的廣泛關注與報道。
核心觀點梳理
- 最近具身智能領域有一個爭論:具身智能究竟應被視為應用,還是應當被定位為獨立的基礎模型?我們非常明確地認為,具身智能模型獨立或平行于虛擬世界中的語言、多模態模型,是一種專門面向物理世界的基礎模型。
- 物理世界的特性與虛擬世界差異巨大,尤其是物理事件存在高度隨機性。
- 現有的模型架構、訓練方法和數據能力,很難對高度隨機性的現象做出充分準確的刻畫。
- 如果以未來十年為尺度,具身智能基礎模型甚至有可能反過來吞噬現有多模態模型的生存空間。
- 要構建一個統一的基礎模型,它自然應是完全端到端的。這一點在當下某種程度上已經成為行業共識。
以下為王潛演講全文:
具身智能模型是平行于語言模型的獨立基礎模型
大家好,最近具身智能領域存在一個爭論:究竟要把具身智能看成是一個AI應用,還是一個獨立的基礎模型?
很多人會疑惑,今天所有的具身智能模型仍然是在一個多模態模型的基礎上加上Action的部分,做后訓練的微調,少部分有預訓練,也只涉及到視覺,沒有涉及到語言。
這種情況下,是不是能稱之為是一個獨立、專門服務于物理世界的基礎模型?可能有些爭議。
作為一線從業者,我們還是非常明確地認為,我們在做的具身智能模型的確就是一個完全獨立于或者平行于虛擬世界中的語言模型、多模態模型的另外一個專門為物理世界使用的基礎模型。
這件事情真的這么重要嗎?它的確非常重要。
我們在實際使用過程中,確實碰到了以往的架構所解決不了的問題。
另外,當視角轉變過來,將具身智能看作是一個獨立的基礎模型時。我們會發現對于模型架構、數據、包括后續產品的商業化,整個視角都會發生巨大的變化。
這也是今天雖然還是使用多模態的模型去做backbone,在其上做后訓練,做微調,我們仍然還是很堅定地認為在做的是一個基礎模型的最核心原因。
為什么需要一個單獨的基礎模型
為什么我們需要一個單獨的基礎模型,原因非常簡單:
物理世界的特性和虛擬世界差異太大了,在物理世界中最常見的一個問題就是隨機性,用相同的角度、相同的力度推一個相同的杯子,可能十次會停在十個不同的地方。
這在虛擬世界幾乎是不會發生的,如果內存狀態一樣,跑十次代碼,十次基本是相同的結果。
![]()
當然不排除有什么宇宙射線把它的比特翻轉,這個情況是極少數發生的。
所有物理世界發生的事情都具有高度隨機的特性。現有的模型架構、訓練方法、數據,很難精確描述高度隨機性的現象。
盡管今天所有的具身模型還是建立在語言和多模態模型,或者視覺模型的基礎上,但語言和視覺本質上并不是特別好的一個用來描述動作、描述物理過程的工具。
一個非常明顯的現象是,語言只能描述一些長序列的事情,比如發生時間在10秒鐘以上的事情,如果描述一些精細的操作,如怎么炒菜還是不太現實的。
![]()
圖像比語言精度好很多,但同樣會面臨很多問題,比如工具使用、遮擋。
大量涉及力的過程、接觸的過程,沒有辦法靠語言和圖像去做。
這就提出了一個根本性的問題:現有的模型是建立在語言和視覺模型的基礎上,這樣到底對不對?
很明顯是不正確的。實際上我們需要某種意義上完全另起爐灶,把它重新訓練成一個專門供物理世界使用的基礎模型。
![]()
剛才我提到的這些,本質上都是一個問題,即物理世界的復雜性本質上不同于虛擬世界,所被壓縮出來的世界的結構和虛擬世界有很大不同。
多模態模型的未來
當轉變這一思路后,會給模型架構帶來很多不一樣的視角和觀點。
其中一個非常重要,在感知和決策的層面上,之前都是沿用在虛擬世界中學習的結構。
這會帶來一個實質性的問題,也是在今天多模態領域存在的一個實質性問題,就是人類在物理世界中學習和感知的方式和在虛擬世界中完全不同。
![]()
在虛擬世界中學習,比如怎么樣判定一只狗是一只狗,而不是一只貓,需要在一萬張圖片里抽取出共同的Feature,看到一個新的圖片時將這個Feature去匹配,這是統計學習到今天最常用的范式。
實際上,我們在日常生活中碰到一只狗,不是這么去學的,也不需要一萬張狗的圖片,只需要看到一只狗,讓它轉一圈,在這個過程中,便獲得了一個帶有因果性、時序信息的連續觀察流。
同時,因為有空間位置信息,大致上能夠感受得到狗的三維結構。
除此之外,我們還可以主動和狗互動,比如和它握握手,進而獲得了一個和觀察策略相關的觀察結果,叫做Interactive Perception,過程叫做Active Perception。
在這個過程中,其實和在虛擬世界的學習方式產生了大量根本性的不同,這應該是多模態模型未來重要的發展方向。
如果還是堅持之前靜態的、固定的數據的學習方式,是做不到像人類一樣高效率,實現節省數據和算力的學習結果。
如果以十年為周期,具身智能的基礎模型很可能會反過來吞噬現有的多模態模型的生存空間。
當前模型架構的trade off
既然要做統一的基礎模型,自然是完全端到端,這在今天已經逐漸達成共識。那沒有形成共識的是什么?
要做快慢系統,是因為統一模型的推理速度會變得比較慢。
我個人的看法是,這是在目前的模型架構下所采用的一種Trade off(權衡)的形式。
要根本解決模型的問題,還是需要把它當成另外一個完全不同于已有模型,專門需要考慮端側部署和推理,在設計時就要考慮這些問題的模型,這也是自變量探索的結果。
剛才這個視頻,在這種高度復雜的任務上,自變量已經很好地實現了非常快的速度,而且這個速度是要超過人類當時給它做訓練,收集數據時的速度。
![]()
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
完全1倍速記錄,比遙操作的速度快很多,同時能維持非常好的準確率和最終效果,這個任務難度也非常高。
另外一個問題就是機器人本體泛化問題,某種意義上也是因為還在沿用過往的模型架構做機器人。
這個視頻是自變量實現的非常典型的跨本體泛化任務,我們從夾爪的模型上遷移到高自由度靈巧手上,15個主動自由度,一共20個自由度的高自由度靈巧手,只用了非常少量的樣本,這說明模型本質上已經學會了一些基礎的物理規律,物體的基本屬性,一些基本的動作模式。
![]()
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
這一模型可能在當時的時間點上是最領先的,也可能是唯一一個用端到端的VLA模型驅動高自由度靈巧手的例子。
![]()
另外我們希望具身模型不止是生成動作去控制機器人,還期望它是一個世界模型,這樣就可以用生成出來的未來世界的狀態做各種各樣的事情,也希望它是Spatial intelligence,這樣就可以利用三維結構。
也希望它仍然延續了VLA的語言能力,實際上自變量今天做的就是把所有的能力都放在同一個模型上,讓它擁有語言能力、世界模型的能力,視頻生成的能力、三維重現的能力。
在這基礎上,今天的一些爭論點可能并不是十分合理,很多人認為VLA和世界模型是不是互相替代的關系,或者是兩個不同的技術分支。
在剛才的架構里,這些只是同一個模型不同的輸出而已,是在同一個物理世界基礎模型的框架下所做的不同努力,這就是一定要把具身智能模型單獨分離出來,作為一個新的范式最重要的原因之一。
順便打打廣告,自變量自研的WALL-OSS,也是目前領先的開源物理世界基礎模型,具備VLA模型控制機器人的能力。
![]()
同時也具備非常好的泛化和智能跟隨的能力,同時能夠做Subtask的區分,從而構建長序列的思維鏈,解決非常復雜和長序列的問題。
具身智能的Scaling Law
剛才提到了改變視角對于模型架構的變化,另一方面,改變視角對于數據的看法也更本質。
過去在大模型領域,Scaling Law是核心考慮的事情,其中數據的Scaling Law普遍被稱為在機器人上最困難的事。
雖然都是要做更多、更好的數據,是否需要用虛擬數據、合成數據,還是要在真實數據里挖掘一些動作等,還是可以有更好的方法實現。
受限于時間,自變量也做了大量工作,我們認為現實世界的數據應該是最主要的來源。
我們從以往的大模型的學習中獲得了一個重要的insight,就是訓練還是要分階段,所以數據也是要分階段的,需要有預訓練的數據,也需要有后訓練的數據。
更重要的,我們發現了第三個Scaling Law,在后訓練之后還可以在推理時做拓展,在推理時用CoT的方式、用其他推理的拓展方式,讓模型表現變得更加好。
![]()
剛才有其他嘉賓提到了這個范式天然非常適合于具身智能、機器人。
我們在物理世界中是一個持續學習的過程,不會把所有的數據上傳到云上,形成一個完全的批次,反過來再下載到端側上,我們還是希望端側上每收集到的一個新數據能夠實時更新,在整個生命歷程里都能夠有體驗學習的過程。
這應該是一個本質上優于以往集中式批次式訓練的方法,當然這帶來了很多額外的難度。
在體系架構上,在System上,在硬件上都會有相應的調整。但如果不把具身智能看作是一個獨立的基礎模型,獨立的發展方向,一定還是會受制于以往在其他模態的模型里面所碰到的一些問題。
讓AI來定義硬件
一個全新的學習范式,自然需要改造在物理世界中的硬件載體,在具身智能中非常核心的一點是,一定要讓AI定義硬件,而不是先去制造一個完美的硬件,然后再在上面做AI的模型。
自變量堅持軟硬一體同步發展,目前已經實現了兩款全自研的輪式底盤人形機器人,以及高自由度的靈巧手,現在也已經開始向市場銷售。
最后想說一件事情,大家普遍意義上還是有點低估了具身智能的發展和影響,普遍還是認為在AI領域語言、數學、代碼這些領域要比具身智能有本質的重要性。
但這一觀點有一個隱藏的Hypothesis,以前都會說有一個所謂的奇點,超過這個奇點時,一個很聰明的AGI能夠發明一個更聰明的AGI,所以人類被徹底拋在后面。
但這個假設今天是不對的,我們怎么樣發明一個真正聰明的AGI,甚至超越人類的ASI,是需要更多的算力,更多的芯片,更多的電力,更多的能源,更多的數據,所有這些東西都是從物理世界中來的。
怎么樣在物理世界中獲取更多的資源,其實在第一次工業革命時就有一個概念:所謂的機器制造機器,一臺能夠制造十臺,十臺制造一百臺。
![]()
這樣有一個指數級的增長,但今天我們并沒有看到指數級增長發生在現實世界,模型在物理世界中并沒有帶來有虛擬世界這么巨大的影響,核心的一個卡點就是人手的勞動。
一切商品,一切服務都不能脫離人手的勞動這一步,這使得沒有任何一個東西可以100%的依靠機器自動的做出來,除了芯片。
如果具身智能實現的話,萬事萬物都可以走向類似于芯片摩爾定律的發展規律。
在這個過程中,自然而然帶來了更多的芯片,更多的電力,更多的數據,我們可以做一個更加聰明的ASI,從此走向一個真正意義上通用智能的未來。
我們還是認為具身智能具有本質性的重要性,同時也應該是一個獨立于、平行于已有的虛擬世界模型的另外一個物理世界基礎模型。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.