編輯|Panda
在數(shù)字世界里,AI 智能體正通過 MoltBook 這樣社交網(wǎng)絡(luò)進(jìn)行語義協(xié)商并協(xié)同進(jìn)化,而在物理世界中,具身智能也迎來了一次里程碑式的進(jìn)展。
在原力靈機(jī)的實(shí)驗(yàn)室里,一臺(tái)由 Hugging Face 開源的、3D 打印出來的 SO-101 機(jī)器臂正靈巧地將外形各異的物品放入指定的盒子中。這個(gè)動(dòng)作看似簡單,實(shí)則包含了極高頻的視覺反饋、力度感知以及對復(fù)雜物理環(huán)境的直覺判斷。
![]()
實(shí)際上,這種從「計(jì)算」到「直覺」的跨越,并非源于針對這個(gè)特定硬件的繁瑣調(diào)優(yōu),而是受益于一套標(biāo)準(zhǔn)化的底層基建。
在 2 月 10 日的技術(shù)開發(fā)日上,原力靈機(jī)正式發(fā)布了開源具身原生框架 Dexbotic 2.0,并宣布了其與清華大學(xué)和無問芯穹支持的強(qiáng)化學(xué)習(xí)框架 RLinf 的戰(zhàn)略合作
![]()
原力靈機(jī)合伙人汪天才將 Dexbotic 2.0 與 RLinf 的深度結(jié)合定義為具身智能行業(yè)的「PyTorch 時(shí)刻」。正如 PyTorch 通過標(biāo)準(zhǔn)化的張量計(jì)算與自動(dòng)微分機(jī)制釋放了深度學(xué)習(xí)的生產(chǎn)力,Dexbotic 2.0 與 RLinf 的聯(lián)手試圖在具身智能這個(gè)碎片化嚴(yán)重的賽道上,建立一套通用的底座和基礎(chǔ)設(shè)施。
伴隨這一框架升級(jí)和戰(zhàn)略合作一同亮相的,還有全球首個(gè)具身原生大模型 DM0以及具身應(yīng)用量產(chǎn)工作流 DFOL
![]()
這一整套全鏈路布局宣告了一個(gè)極具沖擊力的斷言。正如原力靈機(jī) CEO 唐文斌在現(xiàn)場所說:「2026 年不是具身智能的元年,而是具身原生的元年。」這意味著具身智能正在告別「大模型外掛一雙機(jī)械手」的初級(jí)階段,正式進(jìn)入感知、決策與控制高度協(xié)同的「具身原生」時(shí)代。
從端到端自動(dòng)駕駛算法 PETR 的核心作者,到如今投身物理 AGI 的弄潮兒,汪天才如何理解具身智能的進(jìn)化路徑?Dexbotic 2.0 又將如何改變開發(fā)者與機(jī)器人的交互方式?且隨我們的這篇專訪報(bào)道一起,洞見基于具身原生的物理 AGI 的未來。
![]()
汪天才,原力靈機(jī)合伙人,原曠視科技高級(jí)研究員,在 CVPR、ICCV 、TPAMI 等國際頂會(huì)、頂刊累計(jì)發(fā)表論文 30 余篇,是端到端自動(dòng)駕駛知名算法 PETR、通用端到端多目標(biāo)追蹤算法 MOTR 核心作者;截至目前,谷歌學(xué)術(shù)論文累積引用量 6000 以上
定義「具身原生」
物理 AGI 的進(jìn)化邏輯
當(dāng)今的多模態(tài)大模型已非常強(qiáng)大,掌握了編寫代碼和視覺推理等諸多能力,甚至有的還能根據(jù)手繪的草稿創(chuàng)建出完整的應(yīng)用。然而,一旦進(jìn)入物理世界,接入物理機(jī)器作為肢體后,這些強(qiáng)大的高智商模型卻常表現(xiàn)得非常笨拙,甚至?xí)寵C(jī)器人做出一些蠢笨乃至危險(xiǎn)的行為。也因此,現(xiàn)在的智能機(jī)器人往往是人類遙控的,難以自主地生活在真實(shí)世界的場景中。
原因不難理解,在這種「大模型大腦+機(jī)器肢體」的邏輯下,必然存在數(shù)字模型與物理世界的失配問題;此時(shí),AI 智能體更像是被困于數(shù)字世界的旁觀者,而不是物理世界的真正參與者。
要讓具身智能真正完成這樣的轉(zhuǎn)變,成為物理世界的真正參與者,我們需要的是「具身原生」。
![]()
「具身原生(Embodied Native)」是由原力靈機(jī)首次提出的具身智能概念,其核心在于構(gòu)建感知、決策與執(zhí)行的高度閉環(huán)。更具體來說,具身原生包含數(shù)據(jù)原生、訓(xùn)練原生和框架原生:
- 數(shù)據(jù)原生:強(qiáng)調(diào)使用真實(shí)世界全要素?cái)?shù)據(jù)與具身多模態(tài)數(shù)據(jù)。模型需要從 0 開始學(xué)習(xí)物理世界的交互邏輯,而非單純繼承互聯(lián)網(wǎng)數(shù)據(jù)的預(yù)訓(xùn)練成果。
- 訓(xùn)練原生:旨在讓模型能夠理解、影響并預(yù)測物理世界。模型在設(shè)計(jì)之初就立足于真實(shí)環(huán)境,使用真實(shí)世界的效果作為評價(jià)標(biāo)準(zhǔn),其獎(jiǎng)勵(lì)(Reward)機(jī)制直接源自真機(jī)的運(yùn)行反饋。
- 框架原生:為模型提供底層的支撐能力,包括對多模態(tài)數(shù)據(jù)的深度支持、強(qiáng)大的記憶能力以及通用的動(dòng)作(Action)執(zhí)行能力。
同時(shí),原力靈機(jī)還指出,「具身智能正在把智能從對世界的表征與解釋推向對世界的介入與改變。」這就意味著模型必須走進(jìn)復(fù)雜的物理空間,去承擔(dān)真實(shí)的因果責(zé)任。
在虛擬的聊天框里,回復(fù)錯(cuò)誤或許只是一行文字的偏差。但在現(xiàn)實(shí)世界中,模型的一次微小判斷失誤就可能引發(fā)碰撞、損壞或不可逆的硬件后果。具身原生框架 Dexbotic 2.0 的提出,正是為了應(yīng)對物理世界的高熵與不確定性。
對于為何將此時(shí)定義為「具身智能的 PyTorch 時(shí)刻」,汪天才有著清晰的行業(yè)洞察:當(dāng)前的機(jī)器人研發(fā)正處于高度碎片化的狀態(tài),開發(fā)者們往往需要耗費(fèi)大量精力在數(shù)據(jù)格式適配、仿真器連接等底層工程上。而隨著 Dexbotic 2.0 的到來及其與 RLinf 的深度結(jié)合,這些繁瑣的碎片化工作可能都將成為過去時(shí)。他明確表示:Dexbotic 2.0 的定位是「具身算法研發(fā)的 Infra」
也就是說,原力靈機(jī)希望 Dexbotic 2.0 能像 PyTorch 一樣,成為一個(gè)開放、統(tǒng)一、可擴(kuò)展的基礎(chǔ)設(shè)施。汪天才認(rèn)為,這就像將行業(yè)內(nèi)各種混亂的接口統(tǒng)一為 Type-C 標(biāo)準(zhǔn)。
原力靈機(jī)進(jìn)一步強(qiáng)調(diào),具身 Infra 直接決定了具身模型的迭代效率。在過去碎片化的環(huán)境下,開發(fā)者往往有超過一半的精力被迫消耗在適配不同的硬件接口、數(shù)據(jù)格式以及仿真環(huán)境上,這就像是在泥濘的土路上試圖跑出法拉利的速度。Dexbotic 2.0 的價(jià)值,正是通過標(biāo)準(zhǔn)化的基建將開發(fā)者從這些繁瑣的底層工程中解放出來,大大降低了試錯(cuò)成本,讓模型迭代的飛輪能夠以最小的摩擦力高速轉(zhuǎn)動(dòng)。
![]()
這種基礎(chǔ)設(shè)施的標(biāo)準(zhǔn)化,是物理 AGI 實(shí)現(xiàn)規(guī)模化增長的前提。只有當(dāng)?shù)讓涌蚣茏兊么_定且易用,開發(fā)者才能將精力集中在「算法與模型創(chuàng)新」這一核心目標(biāo)上,推動(dòng)具身智能從簡單的展示品向真正的生產(chǎn)力工具進(jìn)化。正如汪天才說的那樣:「我們其實(shí)聚焦的就是降低用戶的開發(fā)門檻,讓開發(fā)者可以只聚焦到他想去做的事情。」
此外,汪天才還補(bǔ)充道,具身原生不僅關(guān)乎算法架構(gòu),還涉及多模態(tài)傳感的深度融合。例如觸覺與六維力信息,這些感知維度的引入會(huì)直接影響模型對于整個(gè)物理世界的建模能力。汪天才總結(jié)道:「這些信息都是非常非常重要的,它會(huì)影響你對于整個(gè)世界的建模。」這種全方位的原生設(shè)計(jì),構(gòu)成了通往物理 AGI 的核心基石。
Dexbotic 2.0
基于模塊化的端到端具身原生框架
在具身智能開發(fā)者的工具箱里,長期存在著一種「既要又要」的焦慮:一方面,大家渴望模塊化帶來的靈活性,希望像換鏡頭一樣隨時(shí)升級(jí)感知模型或控制算法;另一方面,為了追求極致的反應(yīng)速度和決策精度,行業(yè)又在集體涌向「端到端」范式。
Dexbotic 2.0 的出現(xiàn),正是為了終結(jié)這種在模塊化與端到端之間的長期搖擺。它在架構(gòu)上維持了高度解耦的模塊化設(shè)計(jì),但底層的數(shù)據(jù)流卻是純正的端到端邏輯。
![]()
汪天才在采訪中明確指出:「無論是記憶模塊的設(shè)計(jì),還是整體系統(tǒng)架構(gòu),我們都刻意避免采用類似 RAG 這樣的顯式檢索機(jī)制。在我看來,那并不代表真正的智能。真正的智能應(yīng)當(dāng)發(fā)生在隱式空間中,更接近人腦的工作方式,模型不需要顯示地打印出思考過程。」
可以說,Dexbotic 2.0 的使命就是讓智能體直接從感知輸入跨越到動(dòng)作輸出,實(shí)現(xiàn)感知、決策與執(zhí)行的深度耦合
技術(shù)理念:對端到端范式的信仰與堅(jiān)持
事實(shí)上,汪天才對于端到端范式的堅(jiān)持堪稱信仰,他也在采訪回顧了自己職業(yè)生涯中的這份堅(jiān)持:「從 2020 年開始相關(guān)研究時(shí),我們最早做的是 MOTR,一個(gè)通用的多目標(biāo)追蹤算法。它并不局限于特定場景或賽道,而是面向更一般的問題設(shè)定。事實(shí)上,從那個(gè)階段起,我們在認(rèn)知上就已經(jīng)非常堅(jiān)定地認(rèn)同端到端這一范式,這也是當(dāng)初選擇做 MOTR 的根本原因。從 MOTR 到 PETR(一個(gè)端到端自動(dòng)駕駛算法),再到后續(xù)在具身智能和大模型方向上的探索,本質(zhì)上始終是一條端到端的方法論路徑。當(dāng)前的多模態(tài)大模型同樣是端到端的,這進(jìn)一步強(qiáng)化了我們最初的判斷。」
![]()
MOTR 與 PETR 架構(gòu)示意圖
2020 年,當(dāng)時(shí)還在曠視科技的汪天才等人推出 MOTR 時(shí),端到端多目標(biāo)追蹤仍屬非主流路線,該團(tuán)隊(duì)在投稿與學(xué)術(shù)交流中面臨較高的認(rèn)知與說服成本,需要持續(xù)挑戰(zhàn)以 ReID、IoU matching 等手工設(shè)計(jì)為主的既有范式。這甚至導(dǎo)致了一個(gè)非常有趣但又有些苦澀的經(jīng)歷:「MOTR 比 PETR 早將近兩年完成,但這兩篇論文最終幾乎是同時(shí)被接收的。」
一個(gè)重要原因在于,到 PETR 階段,整體的說服成本已經(jīng)明顯降低。汪天才解釋說:「當(dāng)時(shí)特斯拉已經(jīng)在 2021 年年中發(fā)布了其 BEV 方案,我們的 PETR 工作是在 2021 年底推出的,是國內(nèi)最早一批能夠在理念上對標(biāo)特斯拉、同時(shí)又采用不同技術(shù)路徑的方案之一。在已有特斯拉工作的前提下,端到端 BEV 路線的合理性更容易被理解和接受。再加上 PETR 是開源工作的,因此并未像 MOTR 那樣經(jīng)歷極高的認(rèn)知阻力。」
「也正是從 MOTR 到 PETR 的這一過程,進(jìn)一步堅(jiān)定了我們持續(xù)推進(jìn)端到端方法論的信念。」這位已經(jīng)擁有超 6000 引用的研究者總結(jié)道,「后續(xù)我們開展了大量預(yù)研工作,例如 MemoryVLA,我更傾向于將其視為過去兩三年 StreamPETR 工作在方法論上的自然延續(xù)。區(qū)別僅在于應(yīng)用場景,一個(gè)面向自動(dòng)駕駛,一個(gè)面向具身智能,但其背后的思想是通用的。」
![]()
MemoryVLA 架構(gòu)示意圖
汪天才在采訪中也透露了他從純模型研究轉(zhuǎn)向具身智能的底層邏輯。他坦言,在數(shù)字世界單純依靠模型是無法實(shí)現(xiàn)真正閉環(huán)的,「大模型一定要跟智能硬件結(jié)合」。這種對「閉環(huán)」的追求,正是他當(dāng)初堅(jiān)定選擇具身這一賽道的根本原因。
現(xiàn)如今,Dexbotic 2.0 繼續(xù)延續(xù)著汪天才在端到端范式上的堅(jiān)持,并在架構(gòu)層面上將其重塑為一套兼具模塊化靈活性與端到端高性能的「具身原生」系統(tǒng),其包含五大核心特性。
![]()
框架原生:服務(wù)于端到端的模塊化
雖然追求端到端的整體表現(xiàn),但 Dexbotic 2.0 在架構(gòu)上選擇了高度解耦的模塊化設(shè)計(jì)。它將系統(tǒng)拆分為三個(gè)可以自由組合的模塊,汪天才將其比作是機(jī)器人的「樂高系統(tǒng)」。
![]()
- Vision Encoder(視覺編碼):負(fù)責(zé)將攝像頭畫面編碼成特征,已適配 CLIP、sigLIP、PE 等多種模型。
- LLM(認(rèn)知規(guī)劃):作為核心大腦,統(tǒng)一接收視覺特征與文字指令,支持 Qwen、StepFun 或 PaliGemma 等不同規(guī)模的模型。
- Action Expert(動(dòng)作專家):將意圖轉(zhuǎn)化為物理軌跡,支持 Diffusion、Flow Matching 或 Autoregression 等多種生成路徑。
對于這種看似矛盾的設(shè)計(jì),汪天才解釋道:「通過這種解耦設(shè)計(jì),同一套系統(tǒng)可以在感知、認(rèn)知和控制三個(gè)層面獨(dú)立升級(jí)。雖然模塊可以獨(dú)立迭代,但它們最終在訓(xùn)練中會(huì)形成一個(gè)整體。」如此一來,可讓模型直接學(xué)習(xí)從 728×728 高清視覺輸入到毫米級(jí)動(dòng)作執(zhí)行的映射關(guān)系。在這種范式下,視覺模塊提取的不再是抽象的物體標(biāo)簽,而是與后續(xù)動(dòng)作執(zhí)行密切相關(guān)的物理特征。
這種靈活性保證了端到端模型在訓(xùn)練時(shí),每一個(gè)環(huán)節(jié)都能使用最前沿或最可靠(看開發(fā)者的具體需求)的算法組件,從而提升整體的「智能密度」。
框架原生:操作與導(dǎo)航的統(tǒng)一
在真實(shí)的物理任務(wù)中,機(jī)器人必須先走到目標(biāo)前才能開始干活。這就要求框架必須同時(shí)具備「操作(Manipulation)」與「導(dǎo)航(Navigation)」的能力。
![]()
Dexbotic 2.0 在一個(gè)框架下實(shí)現(xiàn)了VLA(視覺-語言-動(dòng)作)VLN(視覺-語言-導(dǎo)航)的統(tǒng)一。它集成了 Pi0.5、MemoryVLA、OpenVLA-OFT 以及原力靈機(jī)自研的 DM0 等多種 VLA 方案。同時(shí),在導(dǎo)航層面支持 NAVILA,用于將語言目標(biāo)與視覺觀測對齊。這種融合是為了實(shí)現(xiàn)「能說清、能看準(zhǔn)、能做對」的目標(biāo),并為 2026 年的「全身控制(Whole-body Control)」奠定技術(shù)基礎(chǔ)。
汪天才對此評論說:「我們沒有必要去區(qū)分到底是具身還是自動(dòng)駕駛,又或是所謂的多模態(tài)大模型 —— 大家的目標(biāo)應(yīng)該是一致的:最終你要訓(xùn)出一個(gè)具身大模型。」
數(shù)據(jù)原生:多源數(shù)據(jù)混訓(xùn)
在具身原生的邏輯下,模型需要像人類一樣同時(shí)學(xué)習(xí)理解世界與動(dòng)手操作。Dexbotic 2.0 支持多模態(tài)數(shù)據(jù)與具身數(shù)據(jù)的 Co-training。這意味著系統(tǒng)使用同一套訓(xùn)練過程,讓視覺語言模型在接收互聯(lián)網(wǎng)圖文與視頻數(shù)據(jù)時(shí),學(xué)習(xí)場景描述、任務(wù)拆解以及指令與畫面中對象位置的精確對應(yīng)。在此基礎(chǔ)上接入動(dòng)作專家,將這些語義理解結(jié)果轉(zhuǎn)化為抓取、移動(dòng)、放置等連續(xù)控制的動(dòng)作序列。
![]()
這種混合訓(xùn)練模式讓訓(xùn)練數(shù)據(jù)不僅包含互聯(lián)網(wǎng)通用常識(shí),也包含機(jī)器人實(shí)操的具身軌跡。兩類數(shù)據(jù)共同優(yōu)化,使模型既具備通用語義理解能力,又具備可落地的操作技能,真正做到「能說清、能看準(zhǔn)、能做對」。下圖展示了 Dexbotic 2.0 孵化的具身大模型 DM0 混訓(xùn)過程所使用的數(shù)據(jù)示例。
![]()
汪天才指出,這種多源混合訓(xùn)練甚至可以將自動(dòng)駕駛數(shù)據(jù)與互聯(lián)網(wǎng)智能體數(shù)據(jù)一并納入,通過這種方式顯著提升模型在各個(gè)領(lǐng)域的泛化性能與智能密度。「這也是我們具身原生框架的 feature 之一。」他舉了個(gè)具體的例子,「就像訓(xùn)練一個(gè)人一樣,我更期望這個(gè)人既能識(shí)別出這是一杯咖啡,也能輸出對應(yīng)的連續(xù)動(dòng)作。我們要把比如說兩張椅子之間的空間關(guān)系,以及生活中的很多常識(shí),都包含到整個(gè)具身模型的訓(xùn)練中。」
訓(xùn)練原生:全流程標(biāo)準(zhǔn)化
目前,具身智能領(lǐng)域正面臨著嚴(yán)重的研發(fā)碎片化挑戰(zhàn)。由于不同仿真環(huán)境與硬件本體的接口各異,開發(fā)者往往需要耗費(fèi)大量精力在數(shù)據(jù)格式適配、仿真器連接等底層工程上。這種高度零散的現(xiàn)狀就像是早期數(shù)碼產(chǎn)品混亂的充電接口,極大抬高了入行門檻。

為了終結(jié)這種「作坊式」的開發(fā)模式,Dexbotic 2.0 建立了從數(shù)據(jù)采集、訓(xùn)練管線到仿真評測的標(biāo)準(zhǔn)化全流程。在數(shù)據(jù)層面,框架推出了 Dexdata 數(shù)據(jù)格式,將龐雜的具身數(shù)據(jù)統(tǒng)一存儲(chǔ)為標(biāo)準(zhǔn)化的 video 與 jsonl 標(biāo)注文件。在仿真?zhèn)?/strong>,系統(tǒng)深度適配了 SimplerEnv、ManiSkill2、RoboTwin 2.0 以及 Libero 等多種主流仿真器,確保算法能在統(tǒng)一環(huán)境下進(jìn)行性能對比。此外,Dexbotic 2.0 還提供了將各類環(huán)境數(shù)據(jù)自動(dòng)轉(zhuǎn)換為 Dexdata 標(biāo)準(zhǔn)格式的工具鏈,確保了不同算法能在同一套環(huán)境下進(jìn)行公平的性能對比。而在開源硬件方面,Dexbotic 2.0 更是直接支持了 SO-101 與 DOS-W1 等平臺(tái),從而實(shí)現(xiàn)了從標(biāo)準(zhǔn)數(shù)據(jù)到標(biāo)準(zhǔn)評測、再到真實(shí)機(jī)器人部署的一體化開發(fā)路徑。
不僅如此,針對行業(yè)內(nèi)真機(jī)評測「對比不公平」的痛點(diǎn),原力靈機(jī)此前已經(jīng)聯(lián)合 Hugging Face 推出了被稱為「具身智能 ImageNet」的真機(jī)評測基準(zhǔn) RoboChallenge。詳情可參閱我們之前的報(bào)道《具身智能迎來 ImageNet 時(shí)刻:RoboChallenge 開放首個(gè)大規(guī)模真機(jī)基準(zhǔn)測試集》。
汪天才指出,過去許多研究者通過針對單一任務(wù)進(jìn)行「定向優(yōu)化」(Hack)來刷高分?jǐn)?shù),這種「高分低能」的現(xiàn)象在具身領(lǐng)域尤為突出。RoboChallenge 的初衷便是通過統(tǒng)一的真機(jī)評價(jià)標(biāo)準(zhǔn),排除變量干擾,真正檢驗(yàn)基模的泛化能力。汪天才在采訪中提到:「如果你的模型基模真的強(qiáng),在榜單上一定會(huì)有所體現(xiàn),它不存在那種被 Hack 出來的強(qiáng)大。」
通過將數(shù)據(jù)處理、訓(xùn)練管線與仿真評測標(biāo)準(zhǔn)化,并與 RoboChallenge 這一真機(jī)標(biāo)準(zhǔn)相結(jié)合,Dexbotic 2.0 可幫助開發(fā)者跳出底層工程的泥潭。當(dāng)這些基礎(chǔ)設(shè)施變得確定,開發(fā)者才能真正專注于提升模型對物理世界的理解深度。
訓(xùn)練原生:模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的統(tǒng)一
單純依靠模仿學(xué)習(xí)(SFT)往往難以應(yīng)對物理世界的高熵與極端場景。汪天才也在采訪中特別強(qiáng)調(diào)了基礎(chǔ)模型的重要性:「你的基模首先要夠強(qiáng),才能在一些更復(fù)雜的任務(wù)中有成功率。比如說,可能對于某個(gè)任務(wù),我第一次去做強(qiáng)化學(xué)習(xí),可能基模只有 30% 成功率。但它經(jīng)過比如 3 ~ 4 輪的強(qiáng)化學(xué)習(xí),可能就能升到 80%。但是如果基模不強(qiáng),一開始的成功率是 0,也很難通過強(qiáng)化學(xué)習(xí)提升。」
Dexbotic 2.0 通過統(tǒng)一框架打通了從 VLA 策略初始化到強(qiáng)化學(xué)習(xí)(RL)后訓(xùn)練的閉環(huán)流程。系統(tǒng)首先通過 VLA 在海量多模態(tài)數(shù)據(jù)上學(xué)習(xí)通用語義、任務(wù)分解與動(dòng)作先驗(yàn),再借助強(qiáng)化學(xué)習(xí)在交互環(huán)境中進(jìn)行持續(xù)試錯(cuò)與優(yōu)化。這種演進(jìn)路徑旨在實(shí)現(xiàn)更高的任務(wù)成功率、更強(qiáng)的魯棒性以及跨任務(wù)的泛化能力。
為了實(shí)現(xiàn)這一目標(biāo),Dexbotic 2.0 集成了SimpleVLA-RL工具,并與由清華大學(xué)、無問芯穹支持的強(qiáng)化學(xué)習(xí)框架 RLinf 達(dá)成深度戰(zhàn)略合作。在這種分工中,Dexbotic 2.0 負(fù)責(zé)構(gòu)建高質(zhì)量的初始策略與數(shù)據(jù)體系,RLinf 則負(fù)責(zé)大規(guī)模 RL 后訓(xùn)練與工程化加速。
![]()
這種「預(yù)訓(xùn)練+強(qiáng)化學(xué)習(xí)」的組合模式,賦予了機(jī)器人應(yīng)對動(dòng)態(tài)環(huán)境的直覺反應(yīng)。汪天才認(rèn)為,這種全流程標(biāo)準(zhǔn)化的基礎(chǔ)設(shè)施解決了以往真機(jī)強(qiáng)化學(xué)習(xí)效率極低的痛點(diǎn),為未來實(shí)現(xiàn)幾十臺(tái)甚至上百臺(tái)機(jī)器人的大規(guī)模自我演進(jìn)奠定了基礎(chǔ)。
從框架孵化到全鏈路落地
DM0 與 DFOL 的進(jìn)階路徑
在原力靈機(jī)的技術(shù)版圖中,Dexbotic 2.0 并非一個(gè)靜態(tài)的工具箱,它在公司內(nèi)部扮演著底層「母機(jī)」的角色。通過這一框架的滋養(yǎng),原力靈機(jī)成功孵化出并開源了高性能的具身原生大模型 DM0,并以此為基礎(chǔ),進(jìn)一步延伸出了面向?qū)嶋H作業(yè)場景的具身原生應(yīng)用量產(chǎn)工作流 DFOL。這種「框架孵化模型、模型驅(qū)動(dòng)應(yīng)用」的遞進(jìn)邏輯,構(gòu)成了公司完整的技術(shù)閉環(huán)。
DM0:追求「智能密度」的大腦
作為首個(gè)核心大模型成果,DM0 團(tuán)隊(duì)將研發(fā)重點(diǎn)放在了物理空間中的「智能密度」上 ——DM0 也是當(dāng)今智能密度最高的具身大模型。值得一提的是,DM0 是原力靈機(jī)聯(lián)合階躍星辰共同訓(xùn)練的,除了深度融合多模態(tài)互聯(lián)網(wǎng)信息外,還涵蓋了駕駛行為、機(jī)器人操作等具身特有數(shù)據(jù)。
![]()
- 技術(shù)報(bào)告:DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
- 報(bào)告地址:https://dexmal.com/DM0_Tech_Report.pdf
汪天才提到,我們往往低估了一個(gè)模型可以學(xué)習(xí)到的知識(shí)范圍,成功率和步驟分兩項(xiàng)指標(biāo)大幅領(lǐng)先的 DM0 證明了小模型也能具備極強(qiáng)的泛化能力。
![]()
在 RoboChallenge 真機(jī)評測中,DM0 獲得單任務(wù)與多任務(wù)雙項(xiàng)第一,目前位居榜單全球第一。同時(shí),憑借 2.4B 參數(shù)的體量和 62.0% 的單機(jī)成功率,DM0 也是當(dāng)今智能密度最高的具身大模型。
DM0 采用 2.4B 參數(shù)的輕量化設(shè)計(jì),支持三視角 728×728 高分辨率輸入,能夠?qū)崿F(xiàn)跨 8 種機(jī)型的泛化,推理延遲僅為 60 ms 左右。
![]()
為了讓模型學(xué)習(xí)操作的通用邏輯,DM0 引入了「空間推理思維鏈(Spatial CoT)」機(jī)制。在處理類似「對桌面商品掃碼計(jì)價(jià)」的模糊指令時(shí),模型會(huì)先進(jìn)行子任務(wù)預(yù)測與規(guī)劃,接著完成物體識(shí)別與精確定位,再生成 2D 軌跡,最終映射為可執(zhí)行的 3D 動(dòng)作。這種思維鏈將環(huán)境感知、任務(wù)理解、運(yùn)動(dòng)規(guī)劃與精細(xì)執(zhí)行串成了閉環(huán)。
![]()
DM0 模型架構(gòu)示意圖,其由一個(gè) VLM 主干和一個(gè)基于流匹配(Flow Matching)的動(dòng)作專家組成。VLM 處理多模態(tài)輸入并生成具身推理表征,動(dòng)作專家再利用這些表征生成連續(xù)的機(jī)器人動(dòng)作。
![]()
DM0 操作原力靈機(jī)首款開源硬件產(chǎn)品 DOS-W1 執(zhí)行掃碼計(jì)價(jià)任務(wù)(使用了真機(jī)強(qiáng)化學(xué)習(xí))
DFOL:解鎖具身應(yīng)用量產(chǎn)工作流
當(dāng) DM0 具備了強(qiáng)大的物理推理能力后,原力靈機(jī)又進(jìn)一步推出了具身應(yīng)用量產(chǎn)工作流 DFOL(Distributed Field Online Learning)。這一方案通過「硬件通用 + 模型智能」的模式,打破非標(biāo)自動(dòng)化與人工的邊界。
DFOL 的關(guān)鍵創(chuàng)新在于構(gòu)建了完整的數(shù)據(jù)回流機(jī)制。
![]()
在真實(shí)工作環(huán)境中,現(xiàn)場產(chǎn)生的訓(xùn)練片段(episode)與負(fù)樣本塊(negative chunk)會(huì)實(shí)時(shí)回傳至云端,形成「云端訓(xùn)練 - 現(xiàn)場執(zhí)行 - 數(shù)據(jù)回流 - 模型更新」的持續(xù)進(jìn)化閉環(huán)。這使得機(jī)器人系統(tǒng)能夠在實(shí)際作業(yè)中不斷自我改進(jìn),實(shí)現(xiàn)從「展品」向「產(chǎn)品」的跨越,即以「一個(gè)標(biāo)準(zhǔn)化的、可預(yù)測的方式來完成具身智能的批量落地」。目前,利用該數(shù)據(jù)回流機(jī)制,DFOL 能讓新任務(wù)在兩天內(nèi)達(dá)到量產(chǎn)標(biāo)準(zhǔn)。
![]()
經(jīng)過 DFOL 方案之后的 DM0 操作 DOS-W1 分揀回收料,學(xué)習(xí)時(shí)長 48 小時(shí),來自華勤技術(shù)
此外,為了驗(yàn)證商業(yè)價(jià)值,原力靈機(jī)還構(gòu)建了評估落地的三大硬性指標(biāo):成功率、動(dòng)作質(zhì)量與節(jié)拍。這三者被總結(jié)為商業(yè)價(jià)值的「鐵三角」,可作為行業(yè)內(nèi)評估機(jī)器人真實(shí)場景應(yīng)用的重要參考。
![]()
生態(tài)共建
開源協(xié)作下的加速進(jìn)化
在原力靈機(jī)的邏輯里,真正的「PyTorch 時(shí)刻」不僅關(guān)乎技術(shù)底座的強(qiáng)大,更關(guān)乎開發(fā)者生態(tài)的繁榮。為了讓 Dexbotic 2.0 能夠真正觸達(dá)每一位具身開發(fā)者,原力靈機(jī)宣布與由清華大學(xué)、無問芯穹支持的強(qiáng)化學(xué)習(xí)框架 RLinf 達(dá)成深度戰(zhàn)略合作
![]()
關(guān)于為何堅(jiān)定地選擇開源路徑,汪天才在采訪中表達(dá)了極具開放性的心態(tài)。他認(rèn)為具身智能仍處于非常早期的賽道,需要大家一起「添磚加瓦」。在他看來,具身智能領(lǐng)域很難由單一公司或團(tuán)隊(duì)顛覆,引入外部的貢獻(xiàn)來增加賽道的勢能和加速度是更有必要的做法。他指出:「我們更相信開源生態(tài),開源生態(tài)的一個(gè)好處是大家都可以彼此分享經(jīng)驗(yàn),尤其是具身這樣一個(gè)非常早期的賽道。」
在這次三方合作中,各方分工明確,像是一場精密配合的接力賽。Dexbotic 2.0 專注于 VLA 預(yù)訓(xùn)練與監(jiān)督微調(diào)(SFT),負(fù)責(zé)構(gòu)建高質(zhì)量的初始策略與數(shù)據(jù)體系,為機(jī)器人提供具備常識(shí)的「大腦原型」。RLinf 則負(fù)責(zé)大規(guī)模 RL 后訓(xùn)練與工程化加速,通過在交互環(huán)境中進(jìn)行海量的試錯(cuò)與對齊,提升策略在復(fù)雜、極端場景下的魯棒性。
汪天才將這種合作評價(jià)為一種「握手」。他表示:「沒有必要重復(fù)造輪子。我們兩邊其實(shí)可以做一個(gè)握手,然后就能把這件事情搞定 —— 各自關(guān)注更聚焦的那一部分。」這種分工可實(shí)現(xiàn)研發(fā)效率的最大化,讓具身智能的 Infra 拼圖變得更完整。
在 2 月 10 日的技術(shù)開發(fā)日上,原力靈機(jī)公布了與 RLinf 的「Dexbotic & RLinf 融合研發(fā)計(jì)劃」,預(yù)計(jì)將在今年 5 月支持大規(guī)模真機(jī)強(qiáng)化學(xué)習(xí),并在 6 月發(fā)布深度耦合的通用具身框架。
![]()
此外,正如前文所述,原力靈機(jī)選擇開源 Dexbotic 2.0 及其標(biāo)準(zhǔn)化的 Dexdata 數(shù)據(jù)格式,還可以推動(dòng)行業(yè)標(biāo)準(zhǔn)的統(tǒng)一。
目前,Dexbotic 已匯聚起橫跨學(xué)術(shù)與產(chǎn)業(yè)的全球化社區(qū),用戶包括清華大學(xué)、北京大學(xué)、普林斯頓大學(xué)、帝國理工學(xué)院等頂尖學(xué)府,以及騰訊、通義千問、北京具身智能機(jī)器人創(chuàng)新中心等行業(yè)力量。這種廣泛的信任投票證明了開源協(xié)作路徑的價(jià)值。通過打造具身智能領(lǐng)域的 PyTorch,原力靈機(jī)正攜手合作伙伴降低開發(fā)門檻,讓開發(fā)者能專注于算法創(chuàng)新與場景突破,共同讓具身智能從實(shí)驗(yàn)室走向生產(chǎn)線。
![]()
邁向物理 AGI 的進(jìn)化之路
汪天才在采訪最后分享了他對未來的洞察。在視覺、聽覺之外,他特別強(qiáng)調(diào)了觸覺與六維力的重要性,這些感官構(gòu)成了具身原生的一部分,會(huì)直接影響對物理世界的建模能力。除此之外,他還透露了關(guān)于「聽覺與語音交互」的規(guī)劃,未來計(jì)劃聯(lián)合階躍星辰等合作伙伴開發(fā)全模態(tài)模型,讓機(jī)器人具備類似人類的聽覺輸入能力,進(jìn)一步補(bǔ)全「具身原生」的形態(tài)。
汪天才對于具身智能的「進(jìn)化」有著更深層的思考。他認(rèn)為,未來的機(jī)器人不應(yīng)當(dāng)只是冷冰冰的執(zhí)行機(jī)器,而應(yīng)當(dāng)具備感知疼痛、理解空間并能通過直覺做出反應(yīng)的能力 —— 正如原力靈機(jī)的英文名Dexmal暗示的那樣:成為像「靈巧的動(dòng)物」(Dexterous Animal)一樣的智能生命。這種進(jìn)化不僅體現(xiàn)在算法架構(gòu)上,更在于多模態(tài)傳感信息的深度融合。作為這一進(jìn)化邏輯的技術(shù)底座,Dexbotic 2.0 憑借其標(biāo)準(zhǔn)化的基礎(chǔ)設(shè)施屬性,成功銜接了模塊化與端到端范式,致力于降低整個(gè)行業(yè)的研發(fā)門檻。
事實(shí)上,這種進(jìn)化還在加速!從去年 10 月發(fā)布 Dexbotic 1.0 到如今 2.0 的推出,僅僅過去了三個(gè)多月。汪天才判斷,具身智能的發(fā)展正在顯著加速,這種高頻迭代將成為常態(tài)。這種前文提到的「Dexbotic & RLinf 融合研發(fā)計(jì)劃」也能看出。汪天才表示:「現(xiàn)在行業(yè)的迭代速度非常快,幾乎每周都有新發(fā)布,就像大模型領(lǐng)域按天進(jìn)化的節(jié)奏一樣。」
具身智能的 PyTorch 時(shí)刻正在到來,那 ChatGPT 時(shí)刻還遠(yuǎn)嗎?對此,汪天才有著更貼近現(xiàn)實(shí)的愿景:「首先一定要有個(gè)本體,并且本體的外形讓人覺得沒有威脅感,讓人覺得安全。它在生活中能夠幫我處理一些簡單的事物,比如倒茶、擦擦桌子、跟我一塊出去遛彎、聊聊天。就這樣,像一個(gè)助手。我并不期望它能幫我換燈泡等高難度的事情,我沒有那么高期待。」
對于從 CV 或 NLP 領(lǐng)域跨行進(jìn)入具身領(lǐng)域的年輕研究者,汪天才建議要相信長期主義:「你要能夠沉下心來去學(xué)習(xí)具身領(lǐng)域的各種知識(shí),除了算法,還要有系統(tǒng)和硬件知識(shí)。你可能需要一到兩年的時(shí)間先去做積累。」
隨著開源生態(tài)的擴(kuò)大,智能正在以前所未有的速度介入并改變真實(shí)的物理世界。原力靈機(jī)通過這一整套布局,已經(jīng)為物理 AGI 勾勒出了一幅清晰的藍(lán)圖。
文中視頻鏈接:https://mp.weixin.qq.com/s/8lCZm0X2pl-4BggzGovU2Q
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.