衡宇 Jay 發自 凹非寺
量子位 | 公眾號 QbitAI
當下的具身智能賽道,已經卷成兩大技術流派的拉鋸戰。
純VLA模型Physical Intelligence π0.7擅長舉一反三,能適配陌生場景;世界模型派英偉達DreamZero主打「預判未來」,可零樣本適配新機器人。
但這兩種路線各有短板,行業遲遲沒有出現能跑通能落地、可規模化的統一方案。
面對行業僵局,具身智能頭部企業銀河通用創新推出1.6B參數的跨本體「隱式世界-動作基礎模型」LDA-1B。
LDA-1B走的是自研的WAM世界-動作融合路線。
目前,該工作成果成功登頂今年僅有210篇錄用的機器人頂會RSS,項目成果代碼已全面開源。
![]()
論文地址:https://arxiv.org/abs/2602.12215
項目鏈接:https://pku-epic.github.io/LDA/
代碼地址:https://github.com/jiangranlv/LDA-1B
LDA-1B模型首次在數據層面實現虛實共融、人機混合、質量參差、有無動作標簽的數據統一有效利用。
用不那么學術的話來說,這個模型在業界首次做到了「吃數據的時候不挑食」。
無論是虛擬仿真還是真實拍攝、人類視頻還是機器人記錄、高清畫面還是模糊影像、帶標注的教案還是沒標注的原始素材,統統可以混在一起訓練,并且都能被有效利用。
![]()
只需短短1個小時的后訓練,它就能實現跨具身本體的自適應。
換句話說,它可以快速 “學會” 操控各種不同形態的機器人身體。
過去這些數據源互相水土不服,只能分開處理;現在壁壘被LDA-1B打破,數據獲取與標注成本大幅降低,AI能從更廣泛、更便宜的來源中學習。
回顧GPT-2之于大語言模型的最重要意義,就是打破了高質量標注數據的依賴枷鎖,依靠海量異構數據實現持續Scaling。
反觀具身智能,一直受困于數據割裂難題,難以進階。
現在,LDA-1B打破該桎梏,解鎖了具身智能的「GPT-2時刻」。
全數據高效利用,告別數據浪費
結合官方實測視頻,足以直觀展現LDA-1B全方位領先的核心實力。
視頻開場,它就亮出三大典型場景落地潛力:
零售場景,它能利索地在貨架間穿梭,分揀物品;家庭場景,它能整齊疊好衣物;工業場景,它能輕松搬運碼放沉重的貨物。
![]()
多樣生活化、工業化場景的流暢實操,充分體現了LDA-1B模型的落地適配性。
表象之外,想要真正看懂差異化優勢,還要從主流模型的現有缺陷講起。
行業普遍認為,只要積累足夠豐富的專家操作樣本,模型就能自主習得完整的行動邏輯與操作能力。
但這套技術路線本身存在明顯局限,整體十分依賴高水準訓練數據。
高質量數據的獲取門檻一直居高不下,遠程操控采集和精細內容標注,再加上復雜的動作空間統一工作,都會持續拉高整體成本,也讓數據體量很難實現大范圍擴充。
就算借助仿真數據來補充訓練數據,虛擬環境和現實場景的天然差距,也會帶來明顯的落地適配問題。
除此之外,行業還長期浪費著海量閑置資源,純視覺的人類第一視角素材,含有大量干擾信息的粗糙運動記錄,以及不同機器人設備產出的差異化內容,都難以被傳統框架吸收學習。
這個LDA-1B做了一件行業沒人敢做的事——把別人眼里的「無用數據」全拿來訓練了。
LDA-1B出來之前,全行業其實都沒真正吃透所有具身數據。
為了打破這個桎梏,銀河通用構建了完整的數據基礎設施「銀河星數(AstraData)」,并在LDA-1B中實現對全類數據的統一完整運用。
![]()
圍繞這一體系,銀河通用構建了一個金字塔式自下而上的五層數據結構:
- 互聯網圖像/視頻/文本數據(底層):規模最大、成本最低,用于構建基礎感知與語義理解能力,但與具體動作執行相關性較弱;
- 人類行為數據(次底層):提供動作先驗與任務理解,將“視覺認知”連接到“行為語義”;
- 多本體合成仿真數據(中間層,銀河自研合成數據管線產出):以物理一致性為約束,大規模生成可控、多樣的機器人交互數據,實現從認知到執行的關鍵過渡;
- 真實遙操作數據(高層):提供高質量動作示范,但規模與采集效率受限;
- 真實機器人自主運行數據(頂層):來自真實部署環境的閉環數據,直接反映系統在現實世界中的運行表現,并持續驅動強化學習與系統優化。
此外,不同質量的數據也被分配不同的訓練角色,各司其職,物盡其用。
- 高質量專家軌跡:同時學習策略和動力學,定義什么是好的動作。
- 低質量/噪聲數據:只用于前向和逆向動力學。動作可能是錯的,但世界對動作的響應是真實的。一個人把杯子碰倒了,杯子倒下去的物理過程,不會因為「這個操作水平不行」就變得不真實。
- 無動作標注的人類視頻:用于視覺預測。沒有動作信號,但人類操作的時序結構和交互模式全都在畫面里。
在這一框架下,數據不再被簡單劃分為「有用或無用」,而是被系統性重組進統一的世界-動作模型之中。
這就是LDA-1B所說的「通用數據攝入范式」。
沒有垃圾數據,只有因訓練框架被「錯付」的數據。把對的數據放到對的訓練目標里,每一幀都有價值。
這一范式在LDA-1B中首次展現出清晰的規模化特征。
隨著訓練數據從5000小時擴展至30000小時,LDA?1B的動作預測誤差持續下降,呈現穩定的單調改善趨勢。
相比之下,僅采用策略學習的基線模型在引入低質量數據后性能明顯退化。
規模化實驗結果,給出了最有力的證明。
當所有有動作標注的數據耗盡后,繼續加入超過10000小時無動作標注的人類視頻,LDA?1B的性能依然能夠持續提升。
這一點,是傳統行為克隆(BC)及既有世界模型方法難以實現的。
![]()
具身智能的規模化發展,第一次不再被高質量專家數據的稀缺性所限制,海量高低質量、有無標簽的異構數據,都能成為模型能力持續增長的動力。
它標志著具身智能開始真正進入以數據驅動的規模化發展階段。
跳出二元局限,鑄就跨本體通用能力
LDA-1B走出了區別于純VLA、純世界模型的第三條技術路線。
純世界模型難落地成實際動作,純VLA模型不理解行為后果。
LDA-1B選擇在單一擴散模型框架內把兩者完美融合,同時在一個模型里學習四大核心能力:
![]()
- 策略學習:根據當前觀測直接生成動作,這是VLA的能力。
- 前向動力學:根據當前狀態和動作,預測下一時刻的視覺狀態,這是世界模型的能力。
- 逆向動力學:根據前后兩個狀態,反推中間執行了什么動作。
- 視覺預測:不需要動作輸入,直接預測未來的視覺軌跡。
四類能力協同優化,構建起「感知—決策—交互—反饋」的完整閉環。
模型不僅知道「該怎么做」,更能理解「這么做會改變什么」。
通過一個MM-DiT(多模態擴散Transformer)構建,將動作策略學習與世界建模統一建模。
![]()
不同于傳統的世界模型容易在燈光、紋理等像素級的細節上消耗過多算力,LDA-1B選擇在緊湊的DINO的潛空間(Latent Space)中建模動力學,將注意力完全放在物體的結構和動作的本質上。
這種抓大放小的策略,讓它在處理具體操控、靈巧操控以及長程操作等復雜任務時,表現遠超其它模型,性能提升高達48%。
為了探尋LDA-1B的有效性和實際效果,研究團隊進行了一系列實驗。
研究團隊申明,所有測試使用的機器人本體——包括搭載雙指夾爪或22自由度靈巧手的Galbot G1、搭載10自由度靈巧手的Unitree G1——都沒有在預訓練數據集中出現過,屬于嚴格的少樣本跨本體泛化。
實測里LDA-1B的表現一騎絕塵。
夾爪取放、物體交接,超高難度長程任務,秒殺GR00T-N1.6和π0.5。
面對未知位置、新物體、變化背景等分布外擾動,以及各類靈巧手操作,LDA-1B同樣全方位領先現有頂尖模型,執行與泛化能力拉滿。
![]()
從鍋里翻撿牛排盛到盤子里,再撒點黑胡椒粉這種事,對搭載LDA-1B模型的機器人來說,真·小菜一碟。
比如精準預判「推動掃帚會帶動紙團位移」的物理邏輯,這也是其攻克長程任務、靈巧操作難題的核心關鍵。
團隊在實驗過程中,驗證了一個行業反直覺結論:
在下游任務微調中加入包含大量失敗和不穩定操作的遙操作數據,π0.5性能下降,LDA-1B性能反而提升10%。
不管是曾經被定義為「低質量」的數據,還是那些「不可用」的數據,現在統統都可以被LDA吃干榨盡。
整體而言,LDA-1B完成了模型能力與硬件適配的全域歸一,突破單一技術路線、單一機器人本體的能力局限,實現多場景、多硬件、多任務的通用化作業能力。
全鏈路閉環,開啟具身規模化時代
復盤行業兩大主流路線的底層缺陷,不難發現,兩者的天花板很明顯。
純VLA路線無法脫離專家數據掣肘,難以規模化;傳統世界模型受像素空間制約,參數擴容無法帶來有效增益。
而LDA-1B依托WAM統一框架,憑借DINO結構化表征、四任務協同訓練、全量數據分工復用三大核心革新,補齊了具身智能規模化進化的全部條件,構建起可持續自我迭代的底層范式。
不同于行業傳統的「數據篩選」模式,LDA-1B建立的「數據組織」范式,讓海量異構數據持續為模型進化賦能,成功復刻大模型的Scaling增長邏輯,讓機器人真正擁有自主學習、持續進化的通用智能能力。
在產業落地層面,LDA-1B是銀河通用銀河星腦全人形通用基礎模型體系的關鍵閉環,它嵌入在「銀河星腦(AstraBrain)」的完整技術體系之中:
從「銀河星數」所構建的數據基礎設施,到跨本體的世界-動作基礎模型,再到面向真實場景的持續部署與反饋學習閉環,為實體場景規模化落地筑牢技術根基。
依托成熟完備的技術管線,銀河通用將工廠工業、家庭起居作為核心落地主戰場,針對性打磨適配兩類高頻剛需場景的通用具身能力。
在工廠場景,模型可適配復雜工業產線環境,完成柔性搬運、精密操作、巡檢運維、流程輔助等多元化作業,適配多品類工廠非標化需求,降低產線智能化改造成本,助力工業自動化提質增效。
在家庭場景,可深度適配居家復雜動態環境,覆蓋全屋家務打理、老人兒童陪護、居家安全巡檢、生活化便民操作等日常需求,打破家庭服務機器人功能單一、環境適配差的行業痛點,真正落地普惠型家庭智能服務。
在此兩大核心場景之外,同步延伸至零售等細分領域,形成主次分明、重點突出的落地布局,推動具身智能從實驗室演示技術,升級為可落地、可復用、可創造價值的生產力基礎設施。
生態層面,銀河通用秉持開放共建理念,已開源基于公開數據訓練的LDA-1B模型版本。
打破行業封閉迭代壁壘,為全球具身智能研究提供通用、高效的技術底座,加速全行業技術躍遷。
從技術模型、數據資源到產業生態,LDA-1B完成了全維度的全域歸一,構建起技術可迭代、數據可循環、產業可落地的完整閉環,牢牢坐穩國內具身智能賽道的技術與估值龍頭地位。
技術與產業的雙重突破,讓這家公司獲得了資本市場的高度認可。
截至2026年4月,銀河通用已是國內估值最高的未上市具身智能企業,估值超200億元。
而LDA-1B的問世,再度夯實了企業的核心技術壁壘與行業領先的產業價值。
歸根結底,LDA-1B的價值早已超越榜單跑分的淺層競爭。
它解答了具身智能領域最本質的命題:
依托WAM世界-動作統一框架,機器人是否可以復刻LLM的規模化邏輯,從海量異構數據中持續認知世界、迭代進化?
就這個問題,LDA-1B用自身給出了肯定的答案。
從GPT大模型的文本智能,到LDA-1B的機器人具身智能,統一建模、全量數據驅動的規模化邏輯一脈相承。
銀河通用將這套成熟的AI進化范式落地機器人領域,正式拉開了具身智能規模化、通用化、產業化的全新序幕。
One More Thing
去年3月,銀河通用就率先提出并實踐了將World Model(世界模型)與Action Model(動作模型)統一的框架WAM(World-Action Model)。
感興趣的小伙伴可以跳轉論文《DyWA: Dynamics-adaptive World Action Model》。
該論文在全球范圍內首次對WAM的概念進行結構化定義,并在接觸動力學復雜的任務實現了成功的驗證。
DyWA創新性引入動態自適應機制,突破了傳統操控模型泛化弱、動態適配不足的痛點,為具身智能與非抓取操控研究提供全新思路,學術價值突出。
在產業端,該模型顯著提升機器人復雜場景作業能力,降低落地適配成本,有效賦能服務機器人、柔性工業操作等場景,加速通用具身智能技術落地與產業化進程。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.