<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      具身大模型:先對齊評測,再對齊世界

      0
      分享至

      過去兩年,我們見過太多絲滑的機器人Demo,除了跳舞、打球等動作秀,還有端茶倒水、疊衣服、做飯等日常任務(wù)。

      但這些視頻的共同特點是,發(fā)布完論文或視頻,就銷聲匿跡,你永遠不知道,它在現(xiàn)實中到底是什么樣。

      這就是具身智能現(xiàn)在的核心矛盾:網(wǎng)上炒得火熱,但還停留在“視頻時代”。

      最近,隨著宇樹科技IPO持續(xù)升溫,這個問題也越來越受到重視。特別是宇樹在招股書中提到,擬募資 42 億人民幣,其中半數(shù)資金砸向“智能機器人模型研發(fā)項目”,也就是俗稱的具身模型。

      宇樹的成功,本質(zhì)上是硬件工程能力的勝利。成本控制、運動控制、量產(chǎn)能力,這些都已經(jīng)被驗證。

      但行業(yè)已經(jīng)進入一個階段,市場真正想要的,是另一件事:誰能做出通用的具身模型?



      01.

      具身模型“關(guān)公戰(zhàn)秦瓊”

      如果你熟悉 AI 相關(guān)的最新研究,就會發(fā)現(xiàn)每隔一段時間,就會有來自公司或高校的研究團隊,號稱在具身模型、VLA(視覺-語言-動作模型)上取得了突破。

      它們在 Isaac Gym 或 ManiSkill 等仿真環(huán)境里,在一些任務(wù)上,展現(xiàn)出了驚人的成功率,達到 90% 甚至是 95%。模型在虛擬實驗室里動作優(yōu)雅、邏輯無瑕,好像具身智能的 ChatGPT 時刻已經(jīng)不遠了。

      這些研究當(dāng)然很有價值,但它們有一個根本性問題:仿真環(huán)境與真實世界之間存在巨大的現(xiàn)實差距(Sim2Real Gap)。

      在仿真環(huán)境中,物體材質(zhì)、摩擦系數(shù)、傳感器噪聲、物體擺放方式等,都是可控的,而現(xiàn)實世界是不可控的。



      這也是為什么,很多模型在論文里 SOTA,一上真機就崩。這種現(xiàn)象在機器人領(lǐng)域非常普遍,也是具身智能遲遲無法大規(guī)模落地的重要原因之一。

      Demo 視頻越來越多,論文越來越多,但大家很難真正比較不同模型之間的能力差異,就像是“關(guān)公戰(zhàn)秦瓊”。

      問題不在模型數(shù)量,而在缺乏 Benchmark。

      02.

      RoboChallenge:具身智能的評測基礎(chǔ)

      行業(yè)迫切需要一個類似 ImageNet、GLUE、Arena 這樣的真實世界統(tǒng)一評測標(biāo)準(zhǔn),讓不同模型可以在同一環(huán)境下進行橫向比較。

      正是在這樣的背景下,RoboChallenge出現(xiàn)了。

      RoboChallenge 由原力靈機與 Hugging Face 聯(lián)合發(fā)起,被認為是全球首個大規(guī)模、多任務(wù)的真實機器人評測基準(zhǔn)平臺。



      與傳統(tǒng)機器人競賽不同,RoboChallenge 的核心思想是建立一個類似大語言模型 LMSYS Arena 的評測體系:

      • 統(tǒng)一機器人硬件(UR5、Franka、ALOHA 等)
      • 統(tǒng)一任務(wù)
      • 統(tǒng)一評測指標(biāo)
      • 模型遠程提交
      • 在真實機器人上執(zhí)行
      • 公開排行榜
      • 可復(fù)現(xiàn)結(jié)果

      研究人員即使沒有機器人,也可以通過遠程調(diào)用真實機器人測試算法,這大幅降低了具身智能研究的門檻。

      這解決了一個核心問題:不同模型可以橫向比較,模型好不好,直接上機跑。

      更關(guān)鍵的是,RoboChallenge不僅給分數(shù),還給失敗軌跡。這點極其重要,因為傳統(tǒng)的機器人競賽,通常只關(guān)注最終的成功率,但對于具身模型來說,知道怎么失敗的,更有價值。開發(fā)者可以通過分析失敗環(huán)節(jié),來進行針對性的微調(diào)和優(yōu)化。

      RoboChallenge 的目標(biāo)不是做一次比賽,而是建立一個長期的評測基礎(chǔ)設(shè)施,推動具身智能從實驗室智能,走向現(xiàn)實世界智能。

      截至目前:RoboChallenge 已執(zhí)行超過4萬次真機測試,單日提交達到181次,就像是機器人的工業(yè)級測試流水線。

      03.

      具身智能的殘酷真相

      RoboChallenge 在2025年下半年才推出,但已經(jīng)暴露出了當(dāng)前具身模型的很多問題和真相。

      RoboChallenge 包括名為 Table30 桌面操作基準(zhǔn)測試集,其中有 30 個精心設(shè)計的日常情境任務(wù)(一般競賽或評測的任務(wù)僅有 3-5 個),例如整理物品、抓取物體、插線、擺放物品等。

      從表面上看,這些任務(wù)似乎只是簡單的桌面操作,但從能力結(jié)構(gòu)來看,這類任務(wù)實際上覆蓋了具身智能最核心的能力組合:視覺理解、語言理解、任務(wù)規(guī)劃、精細操作、長時序決策、泛化能力等等。

      換句話說,Table30 是在測試具身模型是否具備通用操作能力。



      RoboChallenge 前不久發(fā)布了年度報告。結(jié)論概括來說:

      • 榜首模型成功率約 50%。
      • 模型在基礎(chǔ)抓取任務(wù)上的成功率比較高,但在精細操作和長任務(wù)鏈任務(wù)上,成功率明顯下降,比如“制作三明治”這個任務(wù)還沒有模型能完成。

      這說明什么?我們距離“通用操作智能”,還差很遠。

      有了客觀的評測體系,才能真正衡量模型的水平。

      04.

      具身智能不缺模型,缺排行榜

      如果回顧人工智能過去十幾年的發(fā)展,會發(fā)現(xiàn)一個非常清晰的規(guī)律:幾乎所有重大技術(shù)突破,都伴隨著公開基準(zhǔn)測試與排行榜競爭。例如:

      • ImageNet 推動了深度學(xué)習(xí)視覺模型的發(fā)展
      • GLUE / SuperGLUE 推動了 NLP 模型發(fā)展
      • LMSYS Arena 推動了大語言模型競爭

      公開 Benchmark 的作用不僅僅是比較模型性能,更重要的是,它能統(tǒng)一技術(shù)目標(biāo)、提供可復(fù)現(xiàn)的評測方法、加速技術(shù)路線收斂、吸引更多研究者參與。

      具身智能領(lǐng)域長期沒有類似大語言模型領(lǐng)域的 benchmark,因此技術(shù)路線非常分散,很多團隊做的是 Demo,而不是可復(fù)現(xiàn)系統(tǒng)。

      RoboChallenge 的意義,可能正是在這里。

      很多人討論具身智能時,往往只關(guān)注模型本身,但實際上,具身智能是一個典型的系統(tǒng)工程,其進步也要依靠完整的基礎(chǔ)設(shè)施。

      除了算力、算法、數(shù)據(jù)、硬件等環(huán)節(jié),評測體系是連接模型與應(yīng)用的關(guān)鍵環(huán)節(jié)。如果沒有統(tǒng)一評測體系,就無法判斷模型是否真的進步,也無法形成行業(yè)共識。

      從這個角度看,具身智能行業(yè)目前最缺的反而不是模型,而是一個公正的排行榜。

      在今年的 AI 國際頂會 CVPR 上,還將舉行 RoboChallenge CVPR 2026 機器人比賽。到時,Table30 V2 的預(yù)覽版也將上線發(fā)布。



      Table V2會從任務(wù)升級、評測升級到系統(tǒng)升級三個維度深度重構(gòu),也會對具身模型進行了全方位的極限壓測。

      如果你正在做具身智能、VLA、機器人控制,不要只做Demo,只做視頻,應(yīng)該去參與打榜比賽。

      未來幾年,具身智能領(lǐng)域真正的技術(shù)突破,很可能會首先體現(xiàn)在 RoboChallenge 的排行榜上。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      4.7萬億!馬斯克打破人類財富紀錄:他一個人的錢抵得過160個國家

      4.7萬億!馬斯克打破人類財富紀錄:他一個人的錢抵得過160個國家

      通鑒史智
      2026-03-15 11:45:00
      《逐玉》慶功宴暴咖位,張凌赫靠邊站,大佬成陪襯,C位毋庸置疑

      《逐玉》慶功宴暴咖位,張凌赫靠邊站,大佬成陪襯,C位毋庸置疑

      洲洲影視娛評
      2026-04-14 15:14:27
      鄭麗文:絕不放棄武力保臺,洪秀柱怒懟:兩岸和平,豈能不統(tǒng)一?

      鄭麗文:絕不放棄武力保臺,洪秀柱怒懟:兩岸和平,豈能不統(tǒng)一?

      安夢入天下
      2026-04-12 17:01:16
      海軍的正確用法,我只展示一次

      海軍的正確用法,我只展示一次

      求實處
      2026-04-13 19:35:03
      985大學(xué)原校長逝世!系該校改革開放后唯一的女性校長

      985大學(xué)原校長逝世!系該校改革開放后唯一的女性校長

      雙一流高校
      2026-04-15 00:10:02
      有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      夜深愛雜談
      2026-02-18 20:55:58
      46歲黃金配角趙達官宣結(jié)婚!娶小十幾歲1米8美女總裁,殷桃成過去

      46歲黃金配角趙達官宣結(jié)婚!娶小十幾歲1米8美女總裁,殷桃成過去

      子芫伴你成長
      2026-04-12 23:39:34
      四年終于等來這刻,基輔遇襲第4天,俄烏握手言和,普京下令停火

      四年終于等來這刻,基輔遇襲第4天,俄烏握手言和,普京下令停火

      小蘭聊歷史
      2026-04-14 12:27:25
      色情露骨!聲稱“可手搓讓自己滿意的大尺度視頻”“日入5位數(shù)”!央視曝光

      色情露骨!聲稱“可手搓讓自己滿意的大尺度視頻”“日入5位數(shù)”!央視曝光

      南方都市報
      2026-04-13 11:11:51
      南波明花(熟女的魅力擋不住)

      南波明花(熟女的魅力擋不住)

      藍色海洋009
      2026-04-05 10:36:35
      油價暴跌!92、95號汽油立降420元/噸,4月21日再迎大調(diào)整!

      油價暴跌!92、95號汽油立降420元/噸,4月21日再迎大調(diào)整!

      沙雕小琳琳
      2026-04-14 10:39:24
      湖北農(nóng)民被蛇群“追殺”5年,死后墳?zāi)棺兂缮邏灒?dāng)年做了啥?

      湖北農(nóng)民被蛇群“追殺”5年,死后墳?zāi)棺兂缮邏灒?dāng)年做了啥?

      神奇故事
      2026-04-12 23:54:08
      舉債3.68億、總投資超7億,農(nóng)業(yè)實訓(xùn)基地為何不見農(nóng)業(yè)影子?

      舉債3.68億、總投資超7億,農(nóng)業(yè)實訓(xùn)基地為何不見農(nóng)業(yè)影子?

      上觀新聞
      2026-04-14 21:54:17
      婆婆被3個兒子趕出家門后我養(yǎng)11年,她拆遷款630萬分給了3個兒子

      婆婆被3個兒子趕出家門后我養(yǎng)11年,她拆遷款630萬分給了3個兒子

      朝暮書屋
      2026-04-14 09:50:22
      主力資金監(jiān)控:工業(yè)富聯(lián)凈買入超18億

      主力資金監(jiān)控:工業(yè)富聯(lián)凈買入超18億

      財聯(lián)社
      2026-04-14 10:57:07
      【業(yè)績速遞】這些公司一季度業(yè)績大幅預(yù)增,5公司凈利潤料翻倍增長

      【業(yè)績速遞】這些公司一季度業(yè)績大幅預(yù)增,5公司凈利潤料翻倍增長

      證券時報
      2026-04-14 21:52:05
      曝67歲許家印逃過死刑!最多被判無期:債務(wù)3052億 凍結(jié)資產(chǎn)500億

      曝67歲許家印逃過死刑!最多被判無期:債務(wù)3052億 凍結(jié)資產(chǎn)500億

      風(fēng)過鄉(xiāng)
      2026-04-14 19:08:37
      狐貍尾巴藏不住!以為能“毀掉”全紅嬋,不料自己先被扒個底朝天

      狐貍尾巴藏不住!以為能“毀掉”全紅嬋,不料自己先被扒個底朝天

      芭比衣櫥
      2026-04-14 12:42:54
      蜜語紀:李夢出場就把觀眾看呆,這才是國產(chǎn)劇“情婦”該有的臉

      蜜語紀:李夢出場就把觀眾看呆,這才是國產(chǎn)劇“情婦”該有的臉

      娛樂圈筆娛君
      2026-04-14 18:01:35
      記者:曼聯(lián)曾接近讓卡里克轉(zhuǎn)正,但伊勞拉或許會改變這個決定

      記者:曼聯(lián)曾接近讓卡里克轉(zhuǎn)正,但伊勞拉或許會改變這個決定

      懂球帝
      2026-04-15 00:20:09
      2026-04-15 01:16:49
      機器人大講堂 incentive-icons
      機器人大講堂
      立德機器人平臺,是一個集媒體品牌、智庫咨詢、投資孵化、引智招商為一體的機器人垂直領(lǐng)域服務(wù)平臺
      6456文章數(shù) 4582關(guān)注度
      往期回顧 全部

      科技要聞

      離職同事"煉化"成AI?這屆公司不需要活人了

      頭條要聞

      54歲班主任帶15歲女孩到賓館開房猥褻:將她壓到床上

      頭條要聞

      54歲班主任帶15歲女孩到賓館開房猥褻:將她壓到床上

      體育要聞

      帶出中超最大黑馬!他讓球迷們“排隊道歉”

      娛樂要聞

      網(wǎng)曝鐘麗緹代孕要了個男孩 備孕近10年

      財經(jīng)要聞

      許家印認罪,他和恒大還有多少欠債?

      汽車要聞

      售12.99萬起/續(xù)航2000km 風(fēng)云T9L上市

      態(tài)度原創(chuàng)

      家居
      房產(chǎn)
      本地
      公開課
      軍事航空

      家居要聞

      現(xiàn)代融合 自然靈動

      房產(chǎn)要聞

      改善標(biāo)桿,1.5w+起橫掃國興!海口樓市,打出最猛一張牌!

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級偵探添亂

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗要求五個中東國家賠償戰(zhàn)爭損失

      無障礙瀏覽 進入關(guān)懷版