網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

登頂多項權(quán)威基準(zhǔn)測試，這家公司將他們的具身智能模型開源

2026-03-27 20:42:21　來源: 果殼

北京舉報

分享至

機器人正在我們的日常中頻繁出沒。送外賣、做咖啡、接商演……但不出意外，它們在提供服務(wù)的同時，也會隨機“贈送”笑料。

酒店里送餐的機器人坐電梯為了站中間，不惜碾過乘客的腳；做咖啡時，只管拉花，不顧杯子里的咖啡灑沒了多少；機器人足球賽上，兩方“隊伍”在傳球和射門之間，選擇疊羅漢式摔倒。

你肯定有過疑問，為什么有些時候機器人行云流水，有些時候卻笨拙得不可理喻？

事實是，在一些論文和公開實驗中，機器人操作精細或復(fù)雜的任務(wù)時成功率并不高。即便簡單如“抓取”，也會受制于幾何多樣性和復(fù)雜的物理環(huán)境，成功率“五五開”。

最近，在最新的 SimplerEnv 基準(zhǔn)測試中，一家中國的具身智能企業(yè)“深度機智”研發(fā)的具身智能模型跑出了 80.2% 的平均成功率，超越了“行業(yè)標(biāo)桿” Pi0.5 （ 57.1%），達到行業(yè) SOTA。模型能力突破的關(guān)鍵是這家公司在單單“模仿動作”之外，為具身智能找到另外一條通往“通用性”的道路。

機器人“認死理”

要是你在電梯里被“橫沖直撞”的機器人踩到腳，不免脫口而出，真是典型的“一根筋”！作為人類，挺容易理解這個詞。它通常指不善變通，認死理，一條道跑到黑。放到機器人的語境下，它有一個專業(yè)表達，“泛化”。機器人泛化程度的高低決定了它如何應(yīng)對從未見過的那些情況。

莫拉維克悖論，人工智能領(lǐng)域公認的一個觀察，經(jīng)過數(shù)億年的自然選擇，人類的大腦發(fā)育出了一套極其高效的物理引擎和模式識別系統(tǒng)（比如行走、感知、常識判斷），這些功能被固化在了大腦最古老的區(qū)域。而我們稱之為推理、邏輯、抽象的那些刻意思考過程，其實依賴大量無意識的感知預(yù)設(shè)。

為了讓機器人直接跳過“本能進化”這一漫長的演化過程。人類要么搭建“高精度版《模擬人生》”——1：1還原物理定律的虛擬世界，讓機器人在里面進行千萬次的強化學(xué)習(xí)。要么穿上傳感設(shè)備，讓機器人像“提線木偶”般模擬出每一個動作。一大把機器人因此有了不錯的運動控制，尤其在下肢。

但是“速成”的機器人其實如還未開智的人類孩童一般，往往將死記硬背誤以為真的懂了。本質(zhì)上還是因為機器人學(xué)到的是統(tǒng)計相關(guān)性，而非物理因果性。機器人是個“熟練工”，可它出不出洋相取決于之前人類“教沒教過”，要是題目超綱，那可就是人類的不懂事兒了。

你得先把人類看不上的常識裝進機器人的大腦

人類孩童在成長過程中會逐漸編織好一張致密的常識網(wǎng)絡(luò)。然而，機器人每一次與物理世界的接觸，都要重新建構(gòu)一條統(tǒng)計學(xué)邏輯鏈。

打個比方，機器人很像一個討巧的“考試型”學(xué)生。它一般在上場前得臨陣磨槍一番。真正阻礙它成為“全科通才”的原因是，訓(xùn)練數(shù)據(jù)的稀缺和匱乏。

目前訓(xùn)練機器人，主要靠仿真和遙操作真機采集兩種方式得來的數(shù)據(jù)。但是它們各自面臨困境。仿真環(huán)境的物理引擎往往過于“潔癖”，難以完美復(fù)刻現(xiàn)實中復(fù)雜的摩擦力、物體的形變或是光影的亂跳。用于訓(xùn)練真實場景里的機器人，仿真數(shù)據(jù)得做合格篩選。真機采集固然真實，卻面臨擴展性瓶頸，每一秒人類操作員的示范都意味著實打?qū)嵉臋C械投入和損耗。

于是從去年起，國內(nèi)外的一些公司開始探討其他數(shù)據(jù)采集策略。

今年2月英偉達發(fā)布構(gòu)建了名為 DreamDojo-HV（Human Videos）的數(shù)據(jù)集，包含44711小時的第一人稱視角視頻。特斯拉在去年 5 月也稱正在把 Optimus 的訓(xùn)練從傳統(tǒng)的動作捕捉和遙操作轉(zhuǎn)向純視覺的視頻學(xué)習(xí)，當(dāng)前也聚焦在第一視角。深度機智也在去年發(fā)布論文成果，他們構(gòu)建了人類第一視角視頻的數(shù)據(jù)集，并在此基礎(chǔ)上訓(xùn)練了一個具身大腦，PhysBrain。

深度機智數(shù)采設(shè)備

國內(nèi)外的團隊目標(biāo)大致相同，訓(xùn)練機器人“學(xué)會”如人類一般對物理世界進行理解和交互，以此獲得物理智能和泛化能力的提升。

在語言智能領(lǐng)域，Scaling Laws 已經(jīng)是一個被廣泛接受的共識。但是在機器人領(lǐng)域，這一規(guī)律一直未能建立。直到去年 11 月，Generalist AI（由前 DeepMind 高級研究員創(chuàng)辦）基于27萬小時人類操作真實物理世界任務(wù)的視頻做預(yù)訓(xùn)練，在其機器人基礎(chǔ)模型 GEN-0 身上觀察到了可量化的 Scaling Law（擴展定律）。

圖源 Generalist AI

從時間點上來看，甚至先于 Generalist AI 證明具身智能的 Scaling Law 更早，深度機智就篤定，人類數(shù)據(jù)在數(shù)據(jù)采集上最有可能規(guī)模化，“第一視角之下“同時蘊含最為直觀的物理直覺。

深度機智成立于去年5月，由北京中關(guān)村學(xué)院、中關(guān)村人工智能研究院共同孵化。創(chuàng)始人陳凱作為北京中關(guān)村學(xué)院導(dǎo)師，中關(guān)村人工智能研究院研究員，曾任微軟亞洲研究院首席研究員，一直深耕在人工智能前沿研究。

陳凱與公司 CEO 張翼博同為中科大少年班學(xué)院校友，也是大學(xué)室友。張翼博是AI for Science領(lǐng)域?qū)＜遥湟蛔餮芯砍晒籒ature子刊錄用，并被中科院首頁報道，在基礎(chǔ)科學(xué)與人工智能交叉領(lǐng)域有著深厚積累。

2024年，由于智能眼鏡等AI硬件的密集入場，讓陳凱敏銳捕捉到人類第一視角數(shù)據(jù)將迎來爆發(fā)，于是下場創(chuàng)業(yè)。

今天無論是英偉達、特斯拉，F(xiàn)igure AI 這些耳熟能詳?shù)拿郑蛘邍鴥?nèi)外的新起之秀，越來越多押注到“用人類數(shù)據(jù)去增強模型的物理直覺”這條數(shù)據(jù)策略。這驗證了深度機智的判斷正確。

如何將物理常識提取，結(jié)構(gòu)成機器能讀懂的形式？“數(shù)據(jù)標(biāo)注”是深度機智自研的數(shù)據(jù)處理管線中最為關(guān)鍵的一環(huán)。例如一個拿蘋果的動作會被拆解成時間關(guān)系、空間關(guān)系、物體屬性、力學(xué)信息、目的推理、動作總結(jié)、軌跡描述這些7個維度。

那么模型因此“理解”物理世界了嗎？

他們觀察到了一個有意思的現(xiàn)象，在一個胡蘿卜抓取任務(wù)中自發(fā)“涌現(xiàn)”出變通與糾錯的能力。（在微調(diào)數(shù)據(jù)全是夾取成功案例的情況下），機械臂在觸碰到胡蘿卜時，自發(fā)了“推”的動作，試圖把胡蘿卜推進盤子，推了兩次，但嘗試無果，最后還是通過夾取完成了任務(wù)。

“預(yù)編程都搞不出這種靈活性”，陳凱說道。

頭腦發(fā)達，四肢才不簡單

這兩年的機器人，但凡外形能看出來像個人，你會發(fā)現(xiàn)它們下肢的運動表現(xiàn)遠遠好于上肢”。但是無論機器人是進工廠還是養(yǎng)老院，它們必須依靠上肢勞作——我們生活的日常環(huán)境，至少是現(xiàn)在，都是為了“人”設(shè)計。

“機器人必須像人嗎？”關(guān)于這個疑問有林林總總的討論。“不必要”，答案來自構(gòu)型千奇百怪的機器“人”，它們針對特定場景任務(wù)的效率提升被開發(fā)出來。陳凱認為，當(dāng)機器人大腦（也就是基座模型）足夠聰明之后，任何長尾狀況便能靠它自身的泛化能力去解決。至少，這為還在“循序漸進”一個個解鎖任務(wù)的機器人，提供了另一個“進化思路”。

在今天的中關(guān)村論壇上，深度機智將其新訓(xùn)練出的基座模型 PhysBrain 開源。行業(yè)做法只是開源模型，但是此次深度機智也將數(shù)據(jù)集一并開源，并公布了模型架構(gòu)和訓(xùn)練方法。

傳統(tǒng) VLA 訓(xùn)練有個問題，具體任務(wù)微調(diào)會導(dǎo)致模型通用性變差。當(dāng)基座模型不夠聰明，而又過于追求某個任務(wù)的成功率，調(diào)整神經(jīng)元權(quán)重會導(dǎo)致壞結(jié)果，模型的特征表示從“理解物理世界”坍縮到了“記憶這幾個動作序列”。深度機智設(shè)計了全新 TwinBrainVLA “雙腦融合” 架構(gòu)，用大白話說就是，左（理解世界）右（感知和執(zhí)行）腦各干各的，必要時再通個氣兒。

自動駕駛“抬頭”錯以為黃燈是月亮，機器人一看到毛茸茸就以為是軟的。也就是說，如果數(shù)據(jù)中存在一些“非本質(zhì)”的規(guī)律，機器人會迅速將其視為真理，跳過理解物理規(guī)律和操作邏輯。這也稱為，“視覺捷徑”。

視覺捷徑不僅讓機器人更迷糊，也更“偷懶”了。一旦把它常見的藍杯子換成紅的，就不“認識”杯子了。還有，機器人經(jīng)常跳過語言指令，過于依靠視覺畫面做動作，可一旦視覺畫面嘈雜起來，它可能會將無關(guān)像素的移動與自己的任務(wù)關(guān)聯(lián)起來。

因此他們同時在模型訓(xùn)練中創(chuàng)新性加入 LangForce 策略，打破“視覺捷徑”，模型不是“偷懶”不聽指令嗎？LangForce 將聽話和不聽話的結(jié)果對比展示出來，并強制模型“聽指令”后才執(zhí)行。

以 PhysBrain 為基座、TwinBrainVLA 為架構(gòu)、LangForce 為策略，PhysBrain 1.0 模型僅用千小時公開的人類數(shù)據(jù)就在最新的 SimplerEnv 測試中，跑出了 80.2% 的平均成功率，超越了行業(yè)標(biāo)桿 Pi0.5 （ 57.1%），達到行業(yè)SOTA。而傳統(tǒng) VLA 想要達到如此性能跨越需要用數(shù)萬小時真機數(shù)據(jù)的堆砌。同時在 RoboCasa 等國際權(quán)威測試中也登頂。

深度機智也首次對外展示了一臺全尺寸工業(yè)級擬人體機器人Prime。因為一開始對具身智能“通用性”的判斷和篤定，手部具備20個自由度，能實現(xiàn)毫米級精細化操作。

如果這兩年你參觀過大大小小的機器人展會，不免嘲笑過那些“累癱了”（續(xù)航和散熱跟不上高頻率的動作幅度）的硅基生物。

值得一提的是，團隊設(shè)計 Prime 時在關(guān)鍵的關(guān)節(jié)處引入了工業(yè)機型常用的自鎖設(shè)計，讓機器人實現(xiàn)不通電站立。好處是降低功耗，拉長機器人真正作業(yè)的時間。

圖說，機器人實際作業(yè)時，高負載下的姿態(tài)保持往往比動態(tài)運動更具挑戰(zhàn)，因為通電產(chǎn)生扭矩以抵消重力負載時，電能并未轉(zhuǎn)化為機械動能，而是幾乎全部轉(zhuǎn)化為熱能，耗電同時更會導(dǎo)致電機過熱，造成系統(tǒng)失穩(wěn)

在擁有了擬人的大腦和身軀之后，這下好了，就連人類假裝上班這一招兒，也是被它們學(xué)去了。

作者：馬文

編輯：普通醬

配圖無特殊說明都來自深度機智

點個“小愛心”吧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.