4 月21日自變量機器人舉行發布會,推出新一代機器人進家庭計劃。一個月后的機器人,將搭載新一代自研具身智能基礎模型WALL-B。這是全球首個基于世界統一模型架構(WorldUnifiedModel,WUM)的具身智能基礎模型,標志著具身基礎模型從VLA 架構向原生多模態融合架構的重大跨越。
![]()
自變量創始人兼CEO 王潛、聯合創始人兼CTO 王昊全面解讀了WALL-B 的技術架構、數據策略和訓練機制等,并宣布35天后搭載WALL-B的新一代機器人將首批入駐真實家庭,開啟機器人服務家庭生活的成長之旅。
家庭場景是具身智能真正的“考場”
“早上七點,鬧鐘響了。你從床上爬起來,走到客廳。拖鞋不知踢到哪里,廚房的碗還沒洗,孩子的書包扔在地上,貓打翻了一杯水。”王潛以這一日常描述開場,直觀揭示了家庭環境的本質——隨機、碎片、不斷變化。目前全球沒有任何一臺機器人可以在無遙控操作的情況下獨立完成上述場景中的綜合整理任務。
![]()
這一現狀與公眾的普遍認知形成反差。舞臺上的后空翻、跳街舞、寫毛筆字等機器人演示雖然視覺沖擊力強,但這些動作本質是預設軌跡的“命令行機器人”,每一個動作都經過預先編程或遙控操作。工廠中已經部署的工業機器人同樣不構成可比案例:工廠環境下,一個動作可以重復一萬次且每次條件相同;而在家庭中,一萬個動作每個可能只做一次,每次的環境條件都不一樣。
“硬件已經到位了——雙足、靈巧手、力控關節都很好。但大腦沒有跟上。當前機器人的核心瓶頸不在本體,而在智能。家庭環境中的每一秒都可能出現全新事件:貓何時跳上桌子、孩子把玩具扔在哪里、地毯的摩擦力與實驗室地板完全不同。現有技術無法處理這種隨機性和碎片化,機器人進入家庭也被視為“這個時代最難的技術問題之一”。
從WALL-A到WALL-B:VLA架構的局限與突破
自變量機器人從成立之初便聚焦于為機器人構建“大腦”,即端到端的具身智能基礎模型。2024 年底,公司發布基于 VLA(視覺-語言-動作)架構的第一代具身基礎模型WALL-A,25 年9 月,將同樣思路架構下的輕量化模型版本WALL-OSS 開源。
應用方面,自變量與58同城合作,將搭載WALL-AS模型的機器人送入真實家庭,與保潔阿姨協同作業,實現全球首次機器人進入家庭,并服務人類復雜的家居生活,這個也是首次機器人在C端復雜環境的大規模落地。
![]()
正是這些真實家庭的部署,讓團隊看到了VLA架構的“天花板”。王昊解釋道,VLA 架構本質上是三個獨立模塊的拼接:視覺模塊負責識別物體,語言模塊理解指令,動作模塊生成軌跡。
數據在這三個模塊之間逐級傳遞,每經過一次模塊邊界就會發生信息損耗和延遲。更根本的問題在于,VLA 模型只能模仿訓練數據中的軌跡,無法真正理解物理世界的規律。“它不理解杯子為什么會掉,不理解為什么盤子懸在桌邊需要推回去。它只是在重復見過的東西。”
WALL-B 正是對這一困局的回應。它不是WALL-A的下一個版本,而是一次從底層架構到訓練范式的全面重寫。
世界統一模型(WUM):從“VLA”到“統一整體”
WALL-B 真正區別于行業其他方案的核心,是其從VLA 到WUM 的架構革命。
該架構的設計思路類似于Apple Silicon的統一內存架構:在蘋果 M1 芯片之前的 Mac上,CPU、GPU、內存各自獨立,數據搬運產生的延遲和損耗成為性能瓶頸;蘋果通過統一內存架構讓所有處理單元共享同一塊內存,性能由此大幅提升。
在機器人領域,VLA 就類似于 M1 之前的筆記本電腦架構——視覺模塊、語言模塊、動作模塊各自為政,數據在模塊之間搬來搬去,每搬一次就丟一次信息。視覺學到的豐富信息,傳到動作模塊時只剩一個模糊的摘要。
![]()
WALL-B 采用的WUM的核心理念與之相同——將視覺、語言、動作、物理預測等所有能力,放在同一個網絡中從零開始聯合訓練、融為一體,消除模塊間的邊界和數據搬運損耗。
基于這一架構,WALL-B 實現了三項區別于行業現有模型的核心技術特征:
第一,原生多模態。WALL-B 從訓練第一天起,即對視覺、聽覺、語言、觸覺、動作等多模態數據進行同步標注與聯合訓練,實現“多模態進、多模態出”。這意味著模型不需要通過“傳話”的方式在不同模塊間轉譯信息——它看到杯子的同時就已經在準備伸手,感覺到重量的同時就已經在調整力度。
這種架構還首次賦予了模型一種被稱為“原生本體感”的能力:WALL-B 無需持續觀察自身全身或依賴大量外部傳感器,即可內在地感知自身的空間尺寸,如高度、寬度、手臂伸展范圍,并判斷能否通過某個空間或觸及某個物體。這是一種內生的空間感知能力,而非通過外部測量或建模獲得。王昊指出,這一點甚至許多動物都不具備。
第二,物理世界的“世界觀”。WALL-B 能夠感知并預測重力、慣性、摩擦力、速度等基本物理規律。在從未見過的場景中——例如一個盤子一半懸空在桌沿外——模型可以推斷出盤子掉落摔碎,從而采取預防動作。
這種對物理規律的理解為零樣本泛化提供了基礎。日常生活中,物理規律在不同環境中均保持一致,WALL-B 在任何一個它從未去過的家庭中,都能利用對基本物理常識的理解來應對新場景,不需要針對每個家庭重新訓練。
第三,與世界交互并自我進化。這是 WUM 架構區別于所有現有 VLA 模型的最根本特征。目前主流機器人在任務失敗后通常直接停止,返回錯誤信息,無法從失敗中學習。WALL-B的行為模式則完全不同:它在失敗后會調整策略再次嘗試,如果成功,則將這次成功的經驗直接更新到模型參數中。
這種機制使模型在真實環境中完成自我迭代,無需工程師重新訓練、無需人工注入新數據、無需返回實驗室。王昊將其類比為人類學習使用筷子的過程——筷子掉了無數次,但每一次失敗都在調整手上的控制,最終形成穩定的技能。WALL-B 克服了Transformer 架構難以進行長期內化記憶的問題,所有經驗以原生多模態記憶的方式,通過類似人腦記憶的機制實現自我更新。
數據策略:從“糖水”到“牛奶”
目前,行業內大多數訓練模型的數據來自實驗室:實驗室中的固定光照、固定物體位置、無干擾環境。王昊將這類實驗室數據比喻為“糖水數據”——干凈、可控、量大,但與真實世界差距顯著,尤其與家庭中隨時變化的自然光、隨意擺放的物品、孩子和寵物的隨機動作完全不同。用這類數據訓練出的模型,在真實環境中會迅速失效。
與之相對的,王昊比喻為“牛奶數據”,即真實家庭環境中采集的嘈雜、多變、充滿隨機性的數據,也是自變量選擇的數據道路。
![]()
為了獲取這類數據,自變量團隊進入了數百個志愿者的真實家庭進行模型訓練。每一戶家庭的布局、燈光、物品擺放和混亂程度各不相同。有的家庭地面散落著拖鞋、快遞箱、玩具和襪子;有的家庭中貓會突然跳上桌子;有的家庭廚房燈光偏暖色而客廳偏冷色。這些變量在實驗室中無法模擬,但卻是家庭環境中的日常,這些恰恰是模型必須學會應對的真實條件。
綜合來看,自變量的數據策略可總結為:實驗數據打底,真實場景提質。實驗室數據用于建立基本能力——識別常見物體、執行基礎動作;真實家庭數據用于讓模型學會在不確定環境中生存。真實隨機、不可預測的現實數據所驅動的數據飛輪,才是真正的壁壘。
35天后新一代機器人入駐真實家庭
機器人進入家庭的同時,隱私問題不容回避。王潛對此給出了自變量團隊明確的解決
方案:
視覺脫敏——機器人在設備端對原始圖像進行實時打碼處理,原始圖像不離開設備,機器人看到的已經是去除個人特征的場景數據;
透明授權——用戶主動按下同意鍵后方可開機,不存在“默認同意”,用戶不同意則不開機;
用途限定——絕不共享第三方,機器人只認一個主人,發現可疑指令立即鎖定。
“承諾是便宜的,用戶信任才是最貴的。”王潛明確表示。
![]()
在商業化落地方面,自變量的時間表也已經明確:35 天后,新一代搭載WALL-B,并根據家居環境進行硬件升級的新一代機器人將入駐首批用戶的家庭。
王潛指出,當前模型仍處于“實習生”階段,會犯錯,需要遠程協助,有時可能把拖鞋放到廚房、擦桌子擦到一半停下來“思考”。但其能夠實現 24 小時不間斷工作,且每工作一天都會因新數據的產生而變得更“聰明”。
從即日起,自變量開始招募首進家庭機器人的家長,用戶可通過官方渠道提交申請。
結尾
具身基礎模型的持續進步,是自變量成立以來一直追求的目標。為機器人打造一個能夠真正理解世界、并在真實世界中持續學習的機器人大腦,進入家庭服務人類每一天是自變量機器人的長久愿景。
![]()
“盡管進入家庭的機器人現在還很笨,走得很慢,經常犯錯。人類從嬰兒時期邁出的第一步也是如此。每一個偉大的旅程,都是從踉踉蹌蹌的第一步開始的。如今,機器人已經在最復雜的地方開始了它學習和進化的征程。”
模型一直在迭代,WALL-B 的具體細節及生態基座,將于4 月27日在深圳舉辦的首屆廣東省人工智能應用對接大會上全面亮相。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.