具身智能公司自變量4月21日發布世界統一模型WALL-B WorldUnified Model,WUM。
當天發布會上,自變量宣布推出全球首個基于世界統一模型架構的具身智能基礎模型WALL-B,并宣布35天后搭載該模型的新一代機器人將首批入駐真實家庭。
自變量創始人兼CEO王潛以日常場景開場:“拖鞋不知踢到哪里,廚房的碗還沒洗,孩子的書包扔在地上,貓打翻了一杯水。”這幅畫面揭示了家庭環境的隨機與碎片,目前全球沒有任何一臺機器人可以在無遙控操作的情況下獨立完成上述場景中的綜合整理任務。王潛表示,機器人進入家庭被視為這個時代最難的技術問題之一。
2024年底,公司發布基于VLA (Vision-Language-Action)架構的第一代具身基礎模型WALL-A,隨后,輕量化模型版本WALL-OSS開源。應用方面,自變量與58同城合作,將搭載WALL-AS模型的機器人送入真實家庭,與保潔阿姨協同作業,實現全球首次機器人在C端復雜環境的大規模落地。
正是這些真實家庭的部署,讓團隊看到了VLA架構的“天花板”。聯合創始人兼CTO王昊解釋道,VLA架構本質上是視覺(Vision)、語言(Language)、動作(Action)三個獨立模塊。數據每經一次模塊邊界就產生信息損耗和延遲。模型只能模仿軌跡,無法理解物理世界的規律。
WALL-B 正是對這一困局的回應。它不是WALL-A的下一個版本,而是一次從底層架構到訓練范式的全面重寫。
從“VLA”到“統一整體”
WALL-B真正區別于行業其他方案的核心,是從VLA到WUM的架構革命。
在機器人領域,VLA面臨困境。視覺、語言、動作模塊各自為政,數據搬運產生的延遲和損耗成為性能瓶頸。視覺學到的信息傳到動作模塊時,只剩下一個模糊的摘要。
WALL-B的WUM架構將視覺、語言、動作、物理預測等能力放在同一個網絡從零開始訓練,消除模塊間的邊界和數據搬運損耗。
王昊介紹,WALL-B具備三個核心技術特點,能夠讓機器人更適配家庭場景。一是原生多模態,模型不需要通過“傳話”的方式在不同模塊間轉譯信息,比如看到杯子的同時就能準備伸手;二是具備物理世界“世界觀”,能夠感知并預測重力、慣性、摩擦力、速度等基本物理規律,利用對基本物理常識的理解來應對新場景,不需要針對每個家庭重新訓練;三是與世界交互并自我進化,這種機制使模型在真實環境中完成自我迭代,無需工程師重新訓練,無需人工注入新數據,無需返回實驗室。
王昊將其類比為人類學習使用筷子的過程,筷子掉了無數次,但每一次失敗都在調整手上的控制,最終形成穩定的技能。WALL-B克服了Transformer 架構難以進行長期內化記憶的問題,所有經驗以原生多模態記憶的方式,通過類似人腦記憶的機制實現自我更新。
從“糖水”到“牛奶”
目前,行業內大多數訓練模型的數據來自實驗室中的固定、無干擾環境。王昊將這類實驗室數據比喻為“糖水數據”,在真實環境中會迅速失效。與之相對,自變量團隊將進入數百個志愿者的真實家庭采集的數據比喻為“牛奶數據”,嘈雜、多變、充滿隨機性。自變量的策略為實驗數據打底,真實場景提質,讓模型學會在不確定環境中生存。真實隨機、不可預測的現實數據所驅動的數據飛輪,才是真正的壁壘。
在商業化落地方面,自變量的時間表也已經明確。35天后,新一代搭載WALL-B,并根據家居環境進行硬件升級的新一代機器人將入駐首批用戶的家庭。針對隱私問題,自變量團隊明確給出承諾,機器視覺脫敏、用戶主動授權、用途限定不共享第三方。王潛指出,當前模型仍處于“實習生”階段,會犯錯,需要遠程協助,但其能夠實現24小時不間斷工作,且每工作一天都會因新數據的產生而變得更“聰明”。
即日起,自變量開始招募首進家庭機器人的家長,用戶可通過官方渠道提交申請。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.