<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      π0.7發(fā)布,VLA押出了機器人的GPT-3時刻

      0
      分享至

      henry 發(fā)自 凹非寺
      量子位 | 公眾號 QbitAI

      今天凌晨,Physical Intelligence發(fā)布了全新的VLA模型π0.7,狠狠敲了世界模型一記悶棍。

      π0.7第一次在機器人領域證明了Compositional Generalization(組合泛化),且VLA。

      在遇到新任務時,模型可以組合以前學過的原子技能,自己拼出解法。



      就像喬丹會跳投、會后仰,遇到新防守時自己琢磨出后仰跳投。

      沒人專門教他這一招,他自己組出來了。

      Demo里最炸的兩個:

      任務泛化:機器人沒見過空氣炸鍋,也能根據指令,組合機械臂動作把紅薯烤出來。

      本體泛化:把從一個機械臂學來的抓取策略,直接部署在另一臺機械臂上。

      更離譜的是,Physical Intelligence的研究員自己也說不清π0.7到底會什么。

      他們還在探索邊界,玩起來很有趣,到目前為止效果相當令人驚喜。

      切黃瓜、削皮、倒垃圾、烤紅薯……都能干

      用Physical Intelligence的研究員Ashwin Balakrishna說:

      我過去總能根據訓練數(shù)據猜出模型能做什么。這一次,我猜不到了。

      π0.7:具有涌現(xiàn)能力的可控模型

      π0.7最核心的洞見只有一句話,多樣化的數(shù)據需要多樣化的prompt。 但它帶來的結果,遠比這句話本身要深遠得多。

      用多樣化的prompt,吃下多樣化的數(shù)據

      過去VLA訓練只喂一句清理冰箱,模型得到的信號是單一的。π0.7把prompt展開成四層:



      任務指令(清理廚房)+子任務指令(打開冰箱)+子目標圖像(下一秒畫面應該長什么樣)+episode元數(shù)據(這條數(shù)據質量幾分、有沒有出錯、速度多快)。

      有了這些豐富的context,模型就能分得清訓練數(shù)據里的好壞、快慢、對錯。

      然后它就能吃下以前吃不了的數(shù)據。失敗的rollouts,低質量的演示,其他機器人的片段,人類的egocentric視頻,全都變成有用的信號。

      換句話說,多樣數(shù)據本身不是問題,問題是模型不知道自己在學什么。

      π0.7加的那層prompt,就是讓模型知道“這段數(shù)據是什么質量、用什么策略做的”。

      于是,具身領域第一次出現(xiàn)通才追平專才的涌現(xiàn)時刻。

      通才追平專才

      在轉帖中,Physical Intelligence聯(lián)合創(chuàng)始人Chelsea Finn說了一個很有意思的對比:

      大語言模型的后訓練,過去指的是針對下游任務做微調。一直以來,機器人也卡在這個階段,想要最好的性能,就得針對具體任務微調。

      π0.7改變了這一點:開箱即用,而且超過了fine-tuned的專家模型。



      口說無憑,實驗數(shù)據是這樣的:

      π0.7沒做任何專項訓練,就能在做咖啡、疊衣服、裝箱三個復雜任務上,追平π0.6經過微調的的專家模型。



      這里說的專家模型有兩種,一種是π*0.6的RL specialist,用RECAP方法針對咖啡、裝箱、疊衣服單獨訓過。

      另一種是π0.6上的SFT specialist,針對每個任務單獨微調過。

      更離譜的是,在疊衣服裝箱這兩個最難的任務上,π0.7的比RL specialist單位時間完成的次數(shù)更多。

      可以說,一個什么都沒專門訓過的通才,打過了專門為某個任務訓出來的專才。而這也是PI一直堅定的方向之一。

      組合泛化開始涌現(xiàn)

      π0.7的涌現(xiàn)能力分成四塊。

      開箱即用的dexterity:做咖啡、疊衣服、剝蔬菜、削西葫蘆、換垃圾袋。全部不做任務專項訓練。

      指令泛化:在4個沒見過的廚房和2個沒見過的臥室里,跟著3-6步開放指令干活。

      甚至能聽懂拿起那個最大盤子里的水果、拿起我用來喝湯的那個東西這種復雜空間和語義指代。

      跨本體泛化:在疊T恤等任務中,訓練數(shù)據里一條UR5e疊衣服的樣本都沒有。

      π0.7不但做出來了,任務完成度85.6%,和10個平均375小時teleoperation經驗的頂級人類操作員的90.9%基本打平。



      而且π0.7自己琢磨出了和source robot完全不同的抓取策略——

      人類操作員在源機器人上用傾斜夾爪貼住桌面抓,π0.7在UR5e上用的是垂直抓取,因為這更適合UR5e更長的手臂運動學。

      組合任務泛化

      用空氣炸鍋做紅薯、烤貝果、按下按鈕、用抹布擦耳機和尺子、擰旋鈕和桌面風扇,訓練數(shù)據里一條都沒有。



      這不是多做了幾個任務的增量,是機器人第一次像LLM那樣,從訓練數(shù)據里涌現(xiàn)出新能力。

      正如,Sergey Levine說的:

      一旦模型越過那個閾值,從「只能做收集過數(shù)據的事」變成「開始重組出新事」,能力就會超線性地隨數(shù)據增長。

      數(shù)據過濾可能是個偽問題

      論文里藏著一個非常反直覺的實驗。



      研究把疊衣服的數(shù)據按質量分四檔:top30%、top50%、top80%、全部數(shù)據。

      然后分別訓兩個版本的π0.7,一個加metadata(每條數(shù)據打上質量幾分、有沒有出錯、多快完成的標簽),一個不加。

      結果很有意思。

      不加metadata的版本,數(shù)據越多,性能越差——因為混入了低質量數(shù)據把模型帶歪了。

      加了metadata的版本,數(shù)據越多,性能越好——哪怕平均質量在下降。

      這意味著整個具身領域過去幾年都在做的“數(shù)據清洗”,可能是個偽問題。

      只要模型知道每條數(shù)據的質量標簽,它就能自己決定要學什么、不學什么。

      垃圾數(shù)據不再是垃圾,是帶著quality=1/5標簽的有用信號。失敗數(shù)據也不是要丟掉的東西,是告訴模型這么干會失敗的反面教材。

      過去所有人都在小心翼翼地挑演示、刪失敗、洗數(shù)據。π0.7說,別洗了,告訴模型哪些臟就行。

      π0.7是怎么做到的?

      π0.7是一個5B參數(shù)的模型,分三塊。



      • VLM骨干:4B參數(shù)的Gemma3,負責理解視覺和語言。
      • Action expert:860M參數(shù)的transformer,用flow matching生成連續(xù)動作chunk,50Hz高頻控制。
      • World model:從14B的BAGEL圖像生成模型初始化,負責給π0.7畫出未來幾秒應該是什么樣子。

      在推理中,模型輸入包括:4路攝像頭(前視+兩個腕部+可選后視)、每路6幀歷史畫面、機器人關節(jié)狀態(tài)、再加上任務指令、子任務指令、元數(shù)據、以及world model實時畫出的次目標圖像。

      輸出是一段50步的action chunk,實際執(zhí)行15到25步,然后再推下一段。

      說到這里,可能有人會問,π0.7里塞了個world model,這算不算和世界模型派融合了?

      半算,半不算。

      世界模型派的核心是讓模型學會模擬物理演化:給一個動作,預測世界變成什么樣。policy基于這個預測做決策。

      π0.7里的world model不干這事。它只負責一件事,把任務指令翻譯成成功那一幀應該長啥樣。不預測動作后果,不模擬物理,不參與決策鏈路。

      它是個消歧器,不是個規(guī)劃器。

      用世界模型派的武器,干了一件不是世界模型派想象的事。



      此外,π0.7還站在兩篇前作的肩膀上,繼承了π0.6的架構底子,以及MEM的多尺度記憶編碼器(短期視頻memory+長期語義memory)。

      訓練上用了Knowledge Insulation

      VLM骨干用FAST token做next-token prediction訓練,action expert的梯度不回傳到VLM。這樣VLM從互聯(lián)網學來的語義知識被保護住,不被機器人動作數(shù)據污染。

      但架構不是π0.7最重要的東西,論文中也說:

      我們的貢獻不是提出新的架構或模型設計,而是一套讓VLA能使用更多樣化數(shù)據源的方法論。

      VLM可以直接控制機器人,不需要先學會想象世界

      在π0.7之前,具身圈最火的還是英偉達去年用Cosmos帶起來的世界模型風潮。

      讓機器人先學會想象未來,再去操作現(xiàn)在

      這個路線看起來很符合直覺,人類不就是這么干的嗎?閉上眼睛想一下要做什么,然后再動手。

      從2025年到現(xiàn)在,這條路線收了最多的注意力和投入。

      今天,風向又要變了——VLA回來了!



      而說到VLA,壓根沒人比Physical Intelligence更懂。

      2023年,PI聯(lián)創(chuàng)Karol HausmanSergey LevineChelsea Finn三個人,在Google做RT-2的時候,就押注了一個判斷。

      VLM可以直接控制機器人,不需要先學會想象世界。

      意思是,你不用讓模型先學會預測下一幀畫面、不用讓它腦補物理規(guī)律、不用讓它建立一個內部的世界模擬器。

      你直接拿一個已經見過互聯(lián)網的VLM,接一個動作頭,端到端訓,就夠了。

      從RT-2到π0.7,其實只有兩代VLA架構。

      第一代是RT-2,把機器人動作離散化成token,塞進VLM的next-token prediction里。

      能動,但控制精度不高,而且自回歸預測生成慢,跟不上50Hz的高頻連續(xù)控制。



      第二代是π0開的頭,給VLM接一個專門的action expert,用flow matching直接生成連續(xù)動作chunk。



      中間那些模型——π0.5的open-world generalization、π0.6的RL自我練習、MEM的多尺度記憶——

      都沒改這個基座。都是在VLM+action expert+flow matching這個結構上往上加能力。

      π0.7也是。架構上它和π*0.6沒有本質差別,它加的是prompt的多樣性。

      這就是為什么論文里說”我們的貢獻不是架構”。

      但,更有意思的是另一個人。

      Lucy Shi,斯坦福博士生在讀,師從Chelsea Finn,π0.7的核心作者之一。



      她在推特上發(fā)了一條thread,講了一個非常誠實的故事。



      之前,她跟著朱玉可、Jim Fan在英偉達做世界模型。



      她押的注和Karol他們相反——

      世界模型會是關鍵的鑰匙,會在任務泛化上顯著超過標準VLA方法。

      一開始,結果確實支持這個假設。她拿到了驚艷的組合泛化,機器人能遵循沒見過的指令,做訓練數(shù)據里沒有的任務,從其他機器人和人類視頻遷移。

      但有個奇怪的事情發(fā)生了。

      他們拿來對比的VLA基線,一直在變強。

      隨著數(shù)據越收越多,VLA越來越強,直到有一天,VLA基線也開始展示出組合泛化的信號。

      而且,VLA的方法簡單得多。

      面對這一問題,Lucy感到無可奈何:

      當你的基線吃掉了你的研究假設,你能怎么辦?你寫一篇論文,去搞清楚基線為什么這么強。

      那篇論文,就是π0.7。

      [1]https://www.pi.website/blog/pi07

      [2]https://x.com/physical_int/status/2044841263254638862

      [3]https://techcrunch.com/2026/04/16/physical-intelligence-a-hot-robotics-startup-says-its-new-robot-brain-can-figure-out-tasks-it-was-never-taught/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      壽光市人大常委會原二級調研員韓文國接受審查調查

      壽光市人大常委會原二級調研員韓文國接受審查調查

      魯中晨報
      2026-04-17 18:00:14
      笑死!原來大佬的推薦信只需要幾個字,網友:一字千金

      笑死!原來大佬的推薦信只需要幾個字,網友:一字千金

      另子維愛讀史
      2026-04-15 20:37:30
      鐘楚曦比基尼美照(一)

      鐘楚曦比基尼美照(一)

      陳意小可愛
      2026-04-17 19:45:18
      關于文章被處理的通知

      關于文章被處理的通知

      言立方
      2026-04-15 18:22:17
      同曦三節(jié)領先18分都沒用!末節(jié)王世龍與郭昊文主導崩盤,球迷失望

      同曦三節(jié)領先18分都沒用!末節(jié)王世龍與郭昊文主導崩盤,球迷失望

      籃球資訊達人
      2026-04-17 22:10:06
      炒蒜苔時,最忌直接下鍋炒,少了這1步,蒜苔不香,更不入味

      炒蒜苔時,最忌直接下鍋炒,少了這1步,蒜苔不香,更不入味

      阿龍美食記
      2026-04-16 20:21:17
      王志文安排好后事僅4月,擔心事發(fā)生,私生活被扒,王寶強拒和解

      王志文安排好后事僅4月,擔心事發(fā)生,私生活被扒,王寶強拒和解

      白面書誏
      2026-04-16 18:04:33
      彭嘯被李帥強突,半場被棄用,陳澤仕一上中場活了,泰山隊沒戰(zhàn)術

      彭嘯被李帥強突,半場被棄用,陳澤仕一上中場活了,泰山隊沒戰(zhàn)術

      替補席看球
      2026-04-17 21:49:23
      未公開的1972年尼克松訪華全套高清照

      未公開的1972年尼克松訪華全套高清照

      深度知局
      2026-04-15 00:16:09
      阿斯:安東尼的表現(xiàn)無法打動安切洛蒂,他很難參加世界杯

      阿斯:安東尼的表現(xiàn)無法打動安切洛蒂,他很難參加世界杯

      懂球帝
      2026-04-17 21:53:29
      這才是真正的高人(非常經典)

      這才是真正的高人(非常經典)

      尚曦讀史
      2026-04-13 08:30:06
      武磊被邊緣化:6場都是替補,上海海港被甩開14分,爭冠希望渺茫

      武磊被邊緣化:6場都是替補,上海海港被甩開14分,爭冠希望渺茫

      足球狗說
      2026-04-17 22:54:03
      英媒縱論斯諾克世錦賽中國五虎:吳宜澤最大黑馬,丁俊暉最低評分

      英媒縱論斯諾克世錦賽中國五虎:吳宜澤最大黑馬,丁俊暉最低評分

      楊華評論
      2026-04-17 21:02:32
      國家發(fā)改委:多渠道增加城鄉(xiāng)居民財產性收入

      國家發(fā)改委:多渠道增加城鄉(xiāng)居民財產性收入

      澎湃新聞
      2026-04-17 12:08:10
      馬筱梅也是的拎不清的,她完全分不清汪家的大小王

      馬筱梅也是的拎不清的,她完全分不清汪家的大小王

      魔都姐姐雜談
      2026-04-16 19:49:26
      四川女籃惜敗山西,李緣16分高效,5點事實不得不承認

      四川女籃惜敗山西,李緣16分高效,5點事實不得不承認

      二爺臺球解說
      2026-04-17 21:33:45
      效果顯著!我國外長訪朝結束回國,朝鮮對日亮劍,兩記重拳砸下

      效果顯著!我國外長訪朝結束回國,朝鮮對日亮劍,兩記重拳砸下

      瀲滟晴方DAY
      2026-04-17 23:05:53
      美股三大指數(shù) 集體高開 航空股漲超10% 特朗普發(fā)帖: 感謝伊朗!

      美股三大指數(shù) 集體高開 航空股漲超10% 特朗普發(fā)帖: 感謝伊朗!

      每日經濟新聞
      2026-04-17 21:55:58
      中國公司將推出全球首款可量產、能量密度達500Wh/kg的固態(tài)電池

      中國公司將推出全球首款可量產、能量密度達500Wh/kg的固態(tài)電池

      知新了了
      2026-04-16 14:12:29
      印度真是不作死就不會死,250萬噸的尿素,沒有國家愿意幫助!

      印度真是不作死就不會死,250萬噸的尿素,沒有國家愿意幫助!

      南宗歷史
      2026-04-17 12:13:58
      2026-04-17 23:44:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      12488文章數(shù) 176453關注度
      往期回顧 全部

      科技要聞

      7家頭部平臺被罰沒35.97億元

      頭條要聞

      特朗普:感謝伊朗開放霍爾木茲海峽

      頭條要聞

      特朗普:感謝伊朗開放霍爾木茲海峽

      體育要聞

      中超-泰山1-1海港 楊希處子球克雷桑任意球扳平

      娛樂要聞

      劉德華摯友潘宏彬離世 曾一起租房住

      財經要聞

      "影子萬科"2.0:管理層如何吸血萬物云?

      汽車要聞

      又快又穩(wěn)的開掛動力! 阿維塔06T全系搭分布式電驅

      態(tài)度原創(chuàng)

      教育
      親子
      旅游
      公開課
      軍事航空

      教育要聞

      成長是共同的抵達,棠中怡心校園藝體節(jié)圓滿落幕

      親子要聞

      心理學安全距離法:孩子躺平的最佳療愈方法

      旅游要聞

      用斯皮爾伯格鏡頭,邀請您來諸城春茶開園!來玩!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美宣布黎以停火10天 以方稱不會撤軍

      無障礙瀏覽 進入關懷版