henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
今天凌晨,Physical Intelligence發(fā)布了全新的VLA模型π0.7,狠狠敲了世界模型一記悶棍。
π0.7第一次在機器人領域證明了Compositional Generalization(組合泛化),且VLA。
在遇到新任務時,模型可以組合以前學過的原子技能,自己拼出解法。
![]()
就像喬丹會跳投、會后仰,遇到新防守時自己琢磨出后仰跳投。
沒人專門教他這一招,他自己組出來了。
Demo里最炸的兩個:
任務泛化:機器人沒見過空氣炸鍋,也能根據指令,組合機械臂動作把紅薯烤出來。
本體泛化:把從一個機械臂學來的抓取策略,直接部署在另一臺機械臂上。
更離譜的是,Physical Intelligence的研究員自己也說不清π0.7到底會什么。
他們還在探索邊界,玩起來很有趣,到目前為止效果相當令人驚喜。
切黃瓜、削皮、倒垃圾、烤紅薯……都能干
用Physical Intelligence的研究員Ashwin Balakrishna說:
我過去總能根據訓練數(shù)據猜出模型能做什么。這一次,我猜不到了。
π0.7:具有涌現(xiàn)能力的可控模型
π0.7最核心的洞見只有一句話,多樣化的數(shù)據需要多樣化的prompt。 但它帶來的結果,遠比這句話本身要深遠得多。
用多樣化的prompt,吃下多樣化的數(shù)據
過去VLA訓練只喂一句清理冰箱,模型得到的信號是單一的。π0.7把prompt展開成四層:
![]()
任務指令(清理廚房)+子任務指令(打開冰箱)+子目標圖像(下一秒畫面應該長什么樣)+episode元數(shù)據(這條數(shù)據質量幾分、有沒有出錯、速度多快)。
有了這些豐富的context,模型就能分得清訓練數(shù)據里的好壞、快慢、對錯。
然后它就能吃下以前吃不了的數(shù)據。失敗的rollouts,低質量的演示,其他機器人的片段,人類的egocentric視頻,全都變成有用的信號。
換句話說,多樣數(shù)據本身不是問題,問題是模型不知道自己在學什么。
π0.7加的那層prompt,就是讓模型知道“這段數(shù)據是什么質量、用什么策略做的”。
于是,具身領域第一次出現(xiàn)通才追平專才的涌現(xiàn)時刻。
通才追平專才
在轉帖中,Physical Intelligence聯(lián)合創(chuàng)始人Chelsea Finn說了一個很有意思的對比:
大語言模型的后訓練,過去指的是針對下游任務做微調。一直以來,機器人也卡在這個階段,想要最好的性能,就得針對具體任務微調。
π0.7改變了這一點:開箱即用,而且超過了fine-tuned的專家模型。
![]()
口說無憑,實驗數(shù)據是這樣的:
π0.7沒做任何專項訓練,就能在做咖啡、疊衣服、裝箱三個復雜任務上,追平π0.6經過微調的的專家模型。
![]()
這里說的專家模型有兩種,一種是π*0.6的RL specialist,用RECAP方法針對咖啡、裝箱、疊衣服單獨訓過。
另一種是π0.6上的SFT specialist,針對每個任務單獨微調過。
更離譜的是,在疊衣服裝箱這兩個最難的任務上,π0.7的比RL specialist單位時間完成的次數(shù)更多。
可以說,一個什么都沒專門訓過的通才,打過了專門為某個任務訓出來的專才。而這也是PI一直堅定的方向之一。
組合泛化開始涌現(xiàn)
π0.7的涌現(xiàn)能力分成四塊。
開箱即用的dexterity:做咖啡、疊衣服、剝蔬菜、削西葫蘆、換垃圾袋。全部不做任務專項訓練。
指令泛化:在4個沒見過的廚房和2個沒見過的臥室里,跟著3-6步開放指令干活。
甚至能聽懂拿起那個最大盤子里的水果、拿起我用來喝湯的那個東西這種復雜空間和語義指代。
跨本體泛化:在疊T恤等任務中,訓練數(shù)據里一條UR5e疊衣服的樣本都沒有。
π0.7不但做出來了,任務完成度85.6%,和10個平均375小時teleoperation經驗的頂級人類操作員的90.9%基本打平。
![]()
而且π0.7自己琢磨出了和source robot完全不同的抓取策略——
人類操作員在源機器人上用傾斜夾爪貼住桌面抓,π0.7在UR5e上用的是垂直抓取,因為這更適合UR5e更長的手臂運動學。
組合任務泛化
用空氣炸鍋做紅薯、烤貝果、按下按鈕、用抹布擦耳機和尺子、擰旋鈕和桌面風扇,訓練數(shù)據里一條都沒有。
![]()
這不是多做了幾個任務的增量,是機器人第一次像LLM那樣,從訓練數(shù)據里涌現(xiàn)出新能力。
正如,Sergey Levine說的:
一旦模型越過那個閾值,從「只能做收集過數(shù)據的事」變成「開始重組出新事」,能力就會超線性地隨數(shù)據增長。
數(shù)據過濾可能是個偽問題
論文里藏著一個非常反直覺的實驗。
![]()
研究把疊衣服的數(shù)據按質量分四檔:top30%、top50%、top80%、全部數(shù)據。
然后分別訓兩個版本的π0.7,一個加metadata(每條數(shù)據打上質量幾分、有沒有出錯、多快完成的標簽),一個不加。
結果很有意思。
不加metadata的版本,數(shù)據越多,性能越差——因為混入了低質量數(shù)據把模型帶歪了。
加了metadata的版本,數(shù)據越多,性能越好——哪怕平均質量在下降。
這意味著整個具身領域過去幾年都在做的“數(shù)據清洗”,可能是個偽問題。
只要模型知道每條數(shù)據的質量標簽,它就能自己決定要學什么、不學什么。
垃圾數(shù)據不再是垃圾,是帶著quality=1/5標簽的有用信號。失敗數(shù)據也不是要丟掉的東西,是告訴模型這么干會失敗的反面教材。
過去所有人都在小心翼翼地挑演示、刪失敗、洗數(shù)據。π0.7說,別洗了,告訴模型哪些臟就行。
π0.7是怎么做到的?
π0.7是一個5B參數(shù)的模型,分三塊。
![]()
- VLM骨干:4B參數(shù)的Gemma3,負責理解視覺和語言。
- Action expert:860M參數(shù)的transformer,用flow matching生成連續(xù)動作chunk,50Hz高頻控制。
- World model:從14B的BAGEL圖像生成模型初始化,負責給π0.7畫出未來幾秒應該是什么樣子。
在推理中,模型輸入包括:4路攝像頭(前視+兩個腕部+可選后視)、每路6幀歷史畫面、機器人關節(jié)狀態(tài)、再加上任務指令、子任務指令、元數(shù)據、以及world model實時畫出的次目標圖像。
輸出是一段50步的action chunk,實際執(zhí)行15到25步,然后再推下一段。
說到這里,可能有人會問,π0.7里塞了個world model,這算不算和世界模型派融合了?
半算,半不算。
世界模型派的核心是讓模型學會模擬物理演化:給一個動作,預測世界變成什么樣。policy基于這個預測做決策。
π0.7里的world model不干這事。它只負責一件事,把任務指令翻譯成成功那一幀應該長啥樣。不預測動作后果,不模擬物理,不參與決策鏈路。
它是個消歧器,不是個規(guī)劃器。
用世界模型派的武器,干了一件不是世界模型派想象的事。
![]()
此外,π0.7還站在兩篇前作的肩膀上,繼承了π0.6的架構底子,以及MEM的多尺度記憶編碼器(短期視頻memory+長期語義memory)。
訓練上用了Knowledge Insulation
VLM骨干用FAST token做next-token prediction訓練,action expert的梯度不回傳到VLM。這樣VLM從互聯(lián)網學來的語義知識被保護住,不被機器人動作數(shù)據污染。
但架構不是π0.7最重要的東西,論文中也說:
我們的貢獻不是提出新的架構或模型設計,而是一套讓VLA能使用更多樣化數(shù)據源的方法論。
VLM可以直接控制機器人,不需要先學會想象世界
在π0.7之前,具身圈最火的還是英偉達去年用Cosmos帶起來的世界模型風潮。
讓機器人先學會想象未來,再去操作現(xiàn)在
這個路線看起來很符合直覺,人類不就是這么干的嗎?閉上眼睛想一下要做什么,然后再動手。
從2025年到現(xiàn)在,這條路線收了最多的注意力和投入。
今天,風向又要變了——VLA回來了!
![]()
而說到VLA,壓根沒人比Physical Intelligence更懂。
2023年,PI聯(lián)創(chuàng)Karol HausmanSergey LevineChelsea Finn三個人,在Google做RT-2的時候,就押注了一個判斷。
VLM可以直接控制機器人,不需要先學會想象世界。
意思是,你不用讓模型先學會預測下一幀畫面、不用讓它腦補物理規(guī)律、不用讓它建立一個內部的世界模擬器。
你直接拿一個已經見過互聯(lián)網的VLM,接一個動作頭,端到端訓,就夠了。
從RT-2到π0.7,其實只有兩代VLA架構。
第一代是RT-2,把機器人動作離散化成token,塞進VLM的next-token prediction里。
能動,但控制精度不高,而且自回歸預測生成慢,跟不上50Hz的高頻連續(xù)控制。
![]()
第二代是π0開的頭,給VLM接一個專門的action expert,用flow matching直接生成連續(xù)動作chunk。
![]()
中間那些模型——π0.5的open-world generalization、π0.6的RL自我練習、MEM的多尺度記憶——
都沒改這個基座。都是在VLM+action expert+flow matching這個結構上往上加能力。
π0.7也是。架構上它和π*0.6沒有本質差別,它加的是prompt的多樣性。
這就是為什么論文里說”我們的貢獻不是架構”。
但,更有意思的是另一個人。
Lucy Shi,斯坦福博士生在讀,師從Chelsea Finn,π0.7的核心作者之一。
![]()
她在推特上發(fā)了一條thread,講了一個非常誠實的故事。
![]()
之前,她跟著朱玉可、Jim Fan在英偉達做世界模型。
![]()
她押的注和Karol他們相反——
世界模型會是關鍵的鑰匙,會在任務泛化上顯著超過標準VLA方法。
一開始,結果確實支持這個假設。她拿到了驚艷的組合泛化,機器人能遵循沒見過的指令,做訓練數(shù)據里沒有的任務,從其他機器人和人類視頻遷移。
但有個奇怪的事情發(fā)生了。
他們拿來對比的VLA基線,一直在變強。
隨著數(shù)據越收越多,VLA越來越強,直到有一天,VLA基線也開始展示出組合泛化的信號。
而且,VLA的方法簡單得多。
面對這一問題,Lucy感到無可奈何:
當你的基線吃掉了你的研究假設,你能怎么辦?你寫一篇論文,去搞清楚基線為什么這么強。
那篇論文,就是π0.7。
[1]https://www.pi.website/blog/pi07
[2]https://x.com/physical_int/status/2044841263254638862
[3]https://techcrunch.com/2026/04/16/physical-intelligence-a-hot-robotics-startup-says-its-new-robot-brain-can-figure-out-tasks-it-was-never-taught/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.