<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      732M模型超越7B!機器人操控新范式:從視頻中「悟」物理

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】機器人操控的「數據困境」一直是行業痛點:要讓機器人學會精細操作,傳統方法需要大量人工標注的動作演示數據,成本高昂、周期漫長。這個瓶頸能否被突破?

      大型視頻生成模型在海量視頻上訓練,已經隱式地學會了物理世界的運行規律:物體如何運動、力如何傳遞、空間關系如何演化。

      這些知識與機器人操控所需的物理直覺高度一致。

      關鍵問題是能否把這些視頻模型已經掌握的物理先驗,轉移到機器人控制上?

      中山大學王廣潤教授給出了一個創新答案:不靠海量動作數據,直接從視頻生成模型中「借」物理直覺。從PAR(物理自回歸模型)到其進階版本PhysGen(從預訓練視頻模型中學習物理),兩項工作一脈相承,共享同一套物理自回歸核心框架,并與英偉達今年2月發布的DreamDojo在核心思路上高度重合——當兩條獨立探索的路線收斂到同一個方向,這或許意味著某種底層規律正在被揭示。


      PAR論文鏈接:https://arxiv.org/abs/2508.09822

      項目主頁:https://hcplab-sysu.github.io/PhysicalAutoregressiveModel

      論文發表時間:2025年8月13日


      PhysGen論文鏈接:https://arxiv.org/abs/2603.00110

      論文發表時間:2026年2月18日

      傳統方法把「看環境」和「做動作」分成兩個任務。

      PAR反其道而行之:把視頻幀和機器人動作編碼成同一種「物理token」,讓模型在同一個自回歸過程中,既預測「世界接下來會變成什么樣」,也同步輸出「機器人該做什么動作」,這與人類「眼手協調」的直覺高度吻合。

      這樣做的好處是:動作不再是孤立的指令序列,而是與環境演化深度綁定的聯合預測。


      圖1:物理token自回歸的運作方式:預測未來的幀與動作聯合體,與真實環境同步演化

      三個技術要點

      1. 連續表示,不離散化:幀與動作都用連續向量表達,避免離散量化帶來的精度損失

      2. 隱式逆運動學:通過特殊的因果掩碼設計,讓模型在看到未來畫面后再決定當前動作

      3. 高效推理:借鑒LLM的KV-Cache技術,實現實時控制

      效果如何?

      在ManiSkill基準測試中:

      • PushCube任務達到100%成功率

      • 總體平均成功率74%,居所有方法第二,僅次于需要大規模動作預訓練的RDT(84%)

      • 在PickCube與StackCube任務上,同樣超過或接近需要動作預訓練的強基準方法

      • 額外引入參數僅30M


      圖2:ManiSkill基準成功率對比(零動作預訓練,媲美SOTA)

      PhysGen

      對物理自回歸路線的深化

      PhysGen在2026年2月公開發布,是PAR路線的延續。它完整保留了PAR的核心架構(物理token、連續表示、因果掩碼),并在此基礎上做了三處關鍵改進。

      三項升級

      ① 前瞻規劃(Lookahead-MTP)讓模型每次預測時「多看幾步」——同時預測未來3個token,訓練時全監督,推理時只執行第一個。這相當于給機器人配了短期規劃能力

      ② 高效訓練(LoRA微調)用參數高效的方式微調大模型,訓練成本大幅降低——單張A100顯卡,60小時內完成訓練。

      ③ 真實世界驗證不止在仿真環境,PhysGen在Franka Panda真實機械臂上完成了四項任務測試,包括抓取透明物體這種高難度場景。

      效果有多強?

      LIBERO仿真基準:


      圖3:732M參數、在零大規模動作預訓練的前提下,Physgen取得平均90.8%成功率

      真實世界任務:


      圖4: 真實機器人實驗性能對比

      在最考驗物理感知的透明物體抓取任務中,PhysGen反超了需要大規模預訓練的π0模型——這說明從視頻學到的物理直覺,在處理視覺欺騙性強的場景時更有優勢。

      與英偉達DreamDojo的深度同源

      今年2月,英偉達發布了DreamDojo——一個基于大規模視頻訓練的通用機器人世界模型。對比PAR/PhysGen與DreamDojo,會發現兩條路線在核心技術理念上驚人一致。

      兩個系統的本質目標完全一致:預測未來的「物理量」——也就是未來的動作和視頻的聯合體。

      這個設計背后的哲學是:機器人操控不是「先看畫面,再決定動作」的串行過程,而是「世界如何演化」與「機器人如何行動」的聯合預測問題。動作和視頻不是兩個獨立變量,而是物理世界演化的共同結果。


      架構共識:自回歸建模

      在如何預測這個「未來物理量」的問題上,兩個系統不約而同地選擇了自回歸架構

      為什么是自回歸?因為物理世界的演化是序列性、因果性的——當前時刻的狀態決定下一時刻的狀態,下一時刻又影響再下一時刻。自回歸模型天然契合這種逐步展開的物理過程。


      表示共識:連續空間建模

      在如何表達「物理量」的問題上,兩個系統都選擇了連續表示,而非離散化。

      這是一個關鍵決策:物理世界本質上是連續的(位置、速度、力都是連續量),離散化會引入量化誤差,這些誤差在長時序預測中會累積放大。連續表示則能保持物理量的原生精度。


      訓練共識:零動作預訓練

      兩個系統都驗證了同一個重要結論:不需要大規模機器人動作數據預訓練,就能實現強大的操控能力。

      這背后的邏輯是:視頻數據本身已經包含了豐富的物理先驗(物體運動規律、力學關系、空間推理),這些先驗可以直接遷移到機器人控制任務上。


      時間線印證

      中大團隊的PAR在2025年8月公開,PhysGen在2026年3月公開,DreamDojo在2026年2月發布。

      三者獨立推進,卻在四個核心決策上同步收斂:

      ① 預測目標:未來動作+視頻聯合體(物理量)② 架構選擇:自回歸逐步展開(契合物理因果)③ 表示方法:連續空間建模(避免量化誤差)④ 訓練范式:零動作預訓練(視頻物理先驗遷移)

      這不是偶然的相似,而是對同一底層規律的共同發現。

      其中最核心的洞察是:

      世界模型不是為了「看起來好」,而是為了「指導動作」

      這是PAR/PhysGen與傳統視頻生成模型的根本區別。

      傳統視頻生成模型(如Sora、Runway)追求的是視覺保真度——生成的視頻要看起來真實、「美觀流暢

      但對于機器人操控而言,世界模型的根本目的不是生成一段視覺上美觀的未來視頻,而是希望生成的未來視頻能對下一步的物理動作起到實質性的前瞻與指導作用

      核心哲學總結

      對世界模型的理解,可以歸結為一句話:

      世界模型的價值不在于生成「好看的視頻」,而在于生成「對動作有指導意義的物理預測」。視頻只是物理演化的可視化載體,真正重要的是其中蘊含的物理因果關系——這些因果關系決定了「做什么動作會導致什么結果」,而這正是機器人決策的核心依據。

      這也是為什么PhysGen能用732M參數超越7B級模型——它沒有把算力浪費在「讓視頻更美」上,而是專注于「讓物理預測更準」。

      從PAR到PhysGen,正在驗證一條清晰的技術路線:把機器人操控問題重新定義為「預測未來物理量」——未來的動作和視頻聯合體,并用自回歸模型在連續空間中逐步展開這個預測過程

      更重要的是,明確了世界模型的根本目的:不是生成視覺上美觀的未來視頻,而是生成對下一步物理動作有實質指導作用的物理預測。這個理念體現在物理token聯合建模、因果掩碼逆運動學、前瞻多步規劃、真實世界物理挑戰驗證等一系列設計中,并通過732M參數超越7B級模型的效率,以及透明物體抓取超越π0的效果,得到了實踐檢驗。

      而英偉達DreamDojo在預測目標、架構選擇、表示方法、訓練范式四個核心決策上的同步跟進,則從另一個側面印證了這一方向的潛力。

      作者介紹

      王廣潤系國家海外高層次青年人才基金及華為戰略人才基金獲得者,中山大學計算機學院青年研究員、博士生導師,拓元智慧首席科學家。華為「天才少年計劃」最高級別入選者;曾赴英國牛津大學擔任Research Fellow,師從英國皇家科學院院士、皇家工程院院士 Philip H.S. Torr 教授。

      主要從事新一代AI架構、大物理模型與世界模型、多模態生成式AI方向研究。獲吳文俊人工智能優秀博士論文獎(全國僅9人)、《Pattern Recognition》全球當年唯一最佳論文、全球AI華人新星榜(當年機器學習領域全球僅25人);擔任多個CCF A類會議領域主席;在多項國際競賽中獲得金牌;研究成果被圖靈獎得主Yann LeCun引用。

      參考資料:

      https://arxiv.org/abs/2603.00110

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      澤連斯基:助力中國崛起的一大功臣

      澤連斯基:助力中國崛起的一大功臣

      賤議你讀史
      2026-03-30 06:45:03
      董宇輝爭議言論炸上熱搜,人設大反轉!

      董宇輝爭議言論炸上熱搜,人設大反轉!

      陳意小可愛
      2026-04-07 18:09:49
      鄭麗文訪陸受高規格禮待,隨行的13人,各個身份不簡單

      鄭麗文訪陸受高規格禮待,隨行的13人,各個身份不簡單

      石江月
      2026-04-07 17:09:01
      越南已被逼入絕境,總理臨卸任死磕中國,賭上國運也要換掉米軌

      越南已被逼入絕境,總理臨卸任死磕中國,賭上國運也要換掉米軌

      生活魔術專家
      2026-04-07 17:55:47
      美媒:“無法無天的世界代價高昂”

      美媒:“無法無天的世界代價高昂”

      參考消息
      2026-04-07 16:50:06
      媒體人:陳濤從冬訓到現在瘦了20多斤,劉建業瘦了也有白發了

      媒體人:陳濤從冬訓到現在瘦了20多斤,劉建業瘦了也有白發了

      懂球帝
      2026-04-07 15:46:08
      日本網紅印度旅游遭牛糞“洗禮”!高燒住院又因咖喱餐上吐下瀉,差點躺板板?

      日本網紅印度旅游遭牛糞“洗禮”!高燒住院又因咖喱餐上吐下瀉,差點躺板板?

      英國報姐
      2026-04-06 21:06:23
      廣州外賣騎手去年平均薪酬15萬,快遞員、貨車司機收入下降

      廣州外賣騎手去年平均薪酬15萬,快遞員、貨車司機收入下降

      南方都市報
      2026-04-07 18:12:09
      小米聯合創始人黎萬強、洪鋒退出小米科技,發生了什么?

      小米聯合創始人黎萬強、洪鋒退出小米科技,發生了什么?

      投資時間網
      2026-04-07 15:18:09
      1955年大授銜,張萬年授了什么軍銜?

      1955年大授銜,張萬年授了什么軍銜?

      老范談史
      2026-04-07 16:39:32
      “唐僧”遲重瑞妻子陳麗華去世,2月前還露面,曾談家族財產安排

      “唐僧”遲重瑞妻子陳麗華去世,2月前還露面,曾談家族財產安排

      古希臘掌管松餅的神
      2026-04-07 11:58:30
      伊朗官員號召青年手拉手圍住電站:人鏈護核設施

      伊朗官員號召青年手拉手圍住電站:人鏈護核設施

      桂系007
      2026-04-07 14:53:23
      張本智和觀戰決賽面露恐懼!日本球迷盼他退位:松島已成日乒最強

      張本智和觀戰決賽面露恐懼!日本球迷盼他退位:松島已成日乒最強

      顏小白的籃球夢
      2026-04-07 08:22:42
      看看謝潑德和卡斯爾本賽季的數據對比,火箭其實真不必羨慕馬刺!

      看看謝潑德和卡斯爾本賽季的數據對比,火箭其實真不必羨慕馬刺!

      田先生籃球
      2026-04-07 15:15:04
      2名飛行員和5億美元哪個更重要?

      2名飛行員和5億美元哪個更重要?

      山河路口
      2026-04-06 12:12:25
      曝小玥兒日本歸來第一次來月事,S家人不教她,網友直呼無底線!

      曝小玥兒日本歸來第一次來月事,S家人不教她,網友直呼無底線!

      古希臘掌管松餅的神
      2026-04-06 21:35:36
      蘋果iPhone Fold折疊屏開始試產 12月全球開售

      蘋果iPhone Fold折疊屏開始試產 12月全球開售

      PChome電腦之家
      2026-04-07 11:18:51
      鄭麗文已到達南京,盧秀燕江啟臣沉默,新黨一人發聲亮了,不一般

      鄭麗文已到達南京,盧秀燕江啟臣沉默,新黨一人發聲亮了,不一般

      DS北風
      2026-04-07 17:22:05
      伊朗:以色列承認失敗!

      伊朗:以色列承認失敗!

      極目新聞
      2026-04-07 11:56:31
      王勵勤終于下定決心!4大老將逐步放棄,重點培養新生代為時不晚

      王勵勤終于下定決心!4大老將逐步放棄,重點培養新生代為時不晚

      羅納爾說個球
      2026-04-07 12:00:49
      2026-04-07 22:16:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14918文章數 66754關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

      頭條要聞

      臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      教育
      時尚
      游戲
      藝術
      房產

      教育要聞

      地理教材上五種交通運輸方式的比較是不是過時了?

      針織衫+闊腿褲=氣質穿搭

      模組救場還是官方重做?GTA4重制版引發玩家激烈爭論

      藝術要聞

      美麗風光看不盡

      房產要聞

      重磅!三亞擬出安居房新政!

      無障礙瀏覽 進入關懷版