![]()
作者 | 郭海惟
郵箱 | guohaiwei@pingwest.com
當十幾臺G1在舞臺“下腰”打醉拳的時候,你會覺得宇樹好像真的已經把表演這件事情卷到頭了。
真的很難想象,羊年還能有什么比馬年更能震撼人心的表演。哪怕是讓機器人在舞臺上跳芭蕾(一個比后空翻難無數倍的動作),難道就能給普通人比今天更強的視覺震撼了嗎?恐怕也很難說。
如果說今天具身存在一個“結構性”的矛盾,大概有就是“日益增長的姿態控制能力與硬件水平”和“落地場景不平衡、不充分”的發展之間的矛盾。前者帶來了人民對具身日益增長的期待,而后者則讓人民感到困惑。
對于很多人來說,機器人的“技能樹”好像點錯了——它明明該幫我們家務,卻代替我們詩詞歌賦、載歌載舞。
而這種技能樹錯配背后,其實有第二個“結構性”的矛盾:即“日益增長的AI智能訴求”與“智能泛化能力不平衡、不充分”的發展之間的矛盾。前者讓行業的所有從業者都對AGI的明天充滿光明信心,而后者則讓從業者感到現金流的貧窮。
而所謂一切場景與智能的問題,其實本質都是數據與智能的關系。
在具身領域尤其如此。
而具身的數據問題又可以分成兩種:
一個是數據規模帶來智能難以scaling;一個是現有智能情況下,樣本的學習和泛化能力。
多位具身行業資深人士曾對硅星人表示,具身數據問題屬于“可解”的,但解決方案本質大概率都會是“線性”的,可能會隨著投入的增加獲得更多的加速,但“指數型”爆炸的可能性不高。
究其原因,如果想要通過仿真數據實現高度的通用泛化,生產超高質量仿真數據背后的難度,可能反而高于具身大腦泛化的難度,有點“雞生蛋、蛋生雞”悖論的味道。而互聯網數據理論上可行,但不夠精準,“畫馬難畫骨”,對齊難度大。
目前行業里普遍構想的一個技術循環是:
數據采集→數據訓練模型→模型進入場景→場景生成數據→更好的數據→更強的模型→更多的場景和數據
這樣慢慢可以把數據轉起來,等數據多了,具身就可以進入GPT時刻了,盡管實際過程可能很緩慢。但即便如此,很多模型依然會卡死在第三步,導致數據飛輪遲遲無法轉起來。導致一些實際的技術循環其實是:
數據采集→數據訓練模型→泛化能力卡死在sim to real上→等待更多的數據
不過最近兩個月來,開始陸續有更多的團隊加入少樣本甚至零樣本的泛化能力的路線探索上來,通過不同的路徑去解決的智能突破和泛化能力的問題,堪比具身的馬年學術春晚:
χ0是香港科技大學團隊在2月10日正式發布的技術成果。
此前這個團隊在12月份的時候曾經拿χ0做了24個小時的“家務直播”,主要是抓取、疊、掛衣服,展現了很強大的柔性物體處理能力。
根據后來發布的技術報告顯示,χ0可以在很少樣本(20小時人類視頻)、低算力(8張A100)的情況下做出很好的泛化能力。而且根據他們自己的說法,相比于π0.5,χ0的成功率能提升250%。
正如如這篇論文的標題,“通過化解分布不一致性,實現資源受限下的魯棒操控”。
χ0展現的是柔性物體能力,但其實想要解決的是模型學習的魯棒性難題。而它的解決方案其實就是通過解決在不同模塊的數據分布對齊問題。
比如,過去訓練出來的模型內參數分布和環境反饋的分布是不同的,就會導致智能的魯棒性受損。而他們就希望在各個環節上找到這些分布差異,然后對齊它——他們最后選擇從訓練分布(Ptrain)、模型分布(Qmodel)以及部署分布(Ptest)三個角度出發,從而讓流程的各個不同階段都能實現高效對齊。
https://arxiv.org/pdf/2602.09021
LingBot-VA是螞蟻靈波在1月30日官宣的技術成果,官方將它稱為具身世界模型,首創了自回歸視頻-動作世界建模框架。也是第一個將世界模型直接控制真機操作的研究成果。
而在此之前,螞蟻靈波還發布了LingBot-World開源視頻生成世界模型,做到了將近 10 分鐘的無損穩定生成。
與χ0一樣,LingBot-VA展現了更好的魯棒性:
在 LIBERO 和 RoboTwin 等主流基準測試中,分別以 98.5% 和 92%+ 的成功率大幅領先π0.5等現有模型。在針對具身控制中常見的“長時漂移”難題,復雜任務成功率超過 98%。
同時也能實現較少樣本下的泛化能力:
一個場景僅需 30~50 條演示數據即可完成適配。
但與χ0不同的是,LingBot-VA團隊一開始就選擇了一個在語義層面具備較高魯棒性的自回歸世界模型策略。他們的邏輯有點像在模型內置了一個預測未來的大腦。本質就是用一段視頻去預測下一段視頻的狀態。而當模型知道下一段視頻流中的狀態時,便可以反推并解碼成具體的執行動作。
這樣一來,由于視頻與動作之間存在明確的時間和邏輯關系,便自然就構成了很明確的物理現實世界中的因果關系。所以這個技術成果被命名為:“面向機器人控制的因果世界建模”。
這套方案繞過了VLA常出現的表征糾纏問題,將動作、視頻預測、場景執行情況,直接形成了相互映射的關系。而且在視頻生成模型中,天然會具備一定的世界模型知識,因此獲得了更好的執行效果。
https://github.com/Robbyant/lingbot-va/blob/main/LingBot_VA_paper.pdf
DreamZero是英偉達團隊在2月份發布的技術論文,定位世界動作模型(WAM)。
DreamZero比LingBot-VA晚發了十天左右,但思路上與LingBot-VA同為世界模型落地真機的路線,因此在一些技術思路上也很相似。而且Lingbo-VAt搭配LingBot-World一起發布,而與DreamZero同期發布的還有DreamDojo的通用機器人世界模型。
這兩個團隊在技術審美和產品發布的邏輯節奏上如此相似,可以說目前在世界模型的探索上,分別都是東西半球的先行者,也相當程度上確認了這條技術路線的可行性。
他們都強調世界模型在運動控制中的作用,強調通過世界模型預測而非簡單堆砌數據的重要性,以及受益于世界模型的技術路線,DreamZero也呈現了較好的泛化性。
官方表示,DreamZero甚至在一些模型從來沒有見過的場景中,DreamZero也已經可以實現0樣本泛化。而為了著重強調這一點,他們甚至把自己的技術報告直接叫做,“世界動作模型就是0樣本泛化的策略”(World Action Models are Zero-shot Policies )
最核心區別在于,LingBot采用了自回歸為主干的策略,而DreamZero則采用了以擴散模型直接作為主干的策略。此外,作為各自模型未來的基礎設施,DreamDojo的核心是閉源的,而LingBot-World則是完全開源的。
https://dreamzero0.github.io/
1
押注“非線性”增長的物理世界
過去的具身技術路線正在受到越來越多的挑戰。
一方面,如本文開頭所說,LLM成功的路徑依賴讓具身產業長期患有數據饑渴癥。而數據規模短時間難以爆發式增長,就導致具身的智能缺乏像LLM那樣指數級增長的手段;
另一方面,其實以VLA為代表的技術路線,本身也在面臨更多的質疑。越來越多人開始質疑VLA是否可以很好的完成動作操控,是否有能力更好地泛化并突破Sim to real gap的魔咒。
而面對這種困局,不同的人想到的解決方案是不同的,也很難在短期達成共識。
以χ0這類研究更像是通過不斷升級過去的架構能力,從而在原有的路徑上解決問題;而LingBot-VA、DreamZero這樣的產品,則是尋求一種革命性的范式創新。
今天一個行業內逐步清晰的共識是:如果具身大腦的能力要擺脫數據貧血和泛化瓶頸的地心引力,從而復刻LLM的傳奇,那就必須有一些新的技術創新。要么,我們在數據層面上大幅突破;要么在架構上另辟蹊徑。
而像VA、DreamZero這樣的工作顯然是后者,而他們能給我們的啟事是:
如果要在具身復刻LLM的scaling law奇跡,它未必是要通過平移scaling law的方式實現的,也可能是借一個更好的架構來獲得原本在LLM就已經具備的知識能力。
螞蟻靈波首席科學家沈宇軍在接受采訪時表示:
LingBot-VA和LingBot-World的思考其實是“一套技術體系的不同側重”,雙方會耦合地非常深,底層的數據引擎、代碼框架和優化方法,都高度共通。
所以,沈宇軍的思路可能就是要繞過具身的scaling瓶頸,重新去審視和依托新的大模型能力,建設新的具身底層的智能基礎設施。
從這個角度來說,螞蟻靈波和英偉達可謂具身世界模型中“拓荒者”的角色,未來也不排除會有更多的像英偉達和螞蟻這樣的超級玩家加入。但隨著中美AI進展生態的不同,未來英偉達會逐漸形成自己的生態,而螞蟻靈波則會積極引領全球的開源世界模型生態。
但他們的目標都是一致的:
具身不一定就必須要按部就班,物理AI也值得一次爆炸式增長的嘗試。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.