![]()
機器人前瞻(公眾號:robot_pro)
作者 許麗思
編輯 漠影
機器人前瞻11月18日報道,今天,Physical Intelligence(簡稱PI)發布了旗下最新機器人基礎模型π*0.6。
PI是一家2024年成立于美國舊金山的機器人初創公司,團隊堪稱全明星陣容,CEO兼聯合創始人Karol Hausman曾是Google DeepMind資深研究科學家;聯合創始人還包括強化學習領域領軍人物Sergey Levine、斯坦福大學教授Chelsea Finn等。
PI的融資節奏和估值增長也十分迅猛:2024年3月種子輪融資中,以約4億美元估值籌集7000萬美元;同年11月完成4億美元A輪融資,估值飆升至24億美元。今年9月,有消息稱其正討論以50億美元估值開展新一輪融資,若落地則成立18個月內估值將翻12倍。
Sergey Levine表示,搭載了π*0.6的機器人,已經在舊金山辦公室里為同事們制作拿鐵、美式咖啡和意式濃縮咖啡了,能夠狂干13小時,中間只有幾次中斷。
網友:這做咖啡的手法和效率,意大利人看了都備受震撼。
機器人還連續疊了3個小時衣服,衣服類型五花八門,疊一件衣服大概需要3分鐘。
針對組裝紙箱的任務,機器人連續組裝了1個小時,每個箱子大概需要兩分半鐘。
從PI發布的技術博客來看,π*0.6在多項任務的表現上,實現了吞吐量(每小時成功完成任務的次數)和成功率較基礎模型翻倍,成功率超90%。
尤其是做咖啡這項任務,π*0.6較基礎模型的提升幅度非常明顯。不過,也有眼尖的網友發現,機器人在制作拿鐵時,跳過了用蒸汽處理牛奶的關鍵步驟。看來機器人離成為一個合格的咖啡店員,還得再多練練。
一、糾正式指導+強化學習,破解模仿學習的累積錯誤難題
RECAP實現了三個關鍵步驟:通過演示訓練機器人、通過糾正進行指導,并使機器人能夠從自主經驗中改進。這解決了模仿學習在機器人技術中的關鍵缺陷:小錯誤在現實實踐中引發累積錯誤,降低可靠性。
Recap能夠使研究人員通過兩種方式從“質量較差”的經驗數據中獲取良好的訓練信號:
1、糾正式指導(coaching with corrections)
由專家展示機器人如何修復錯誤或做得更好,從而提供修正。
想要讓糾正式指導真正有用,專家遠程操控者需要提供的是:在真實世界里,機器人實際犯錯之后,怎樣從這些錯誤中恢復的糾正示范。在實踐中,這意味著運行當前最好的策略,當機器人犯錯時,用人工遠程操控接管它。
但是,僅僅依靠糾正式指導是有限的:這類監督的質量受制于人類是否能及時判斷應當介入以及是否能提供高質量的糾正。對于那些特別明顯或嚴重的錯誤,這種方式是有效的。
不過,就像運動員如果不自己反復練習,是不可能真正掌握一項運動一樣,研究人員需要一種辦法,讓策略可以通過通過練習和強化繼續學習和完善其行為的微小細節。
2、強化學習(reinforcement learning)
機器人依據整個任務過程的最終結果,自行判斷哪些行為更好或更差,并通過迭代學習強化好的行為、避免不好的行為。
通過任務結果來進行強化學習的核心難題是信用分配(credit assignment):也就是弄清楚機器人在整個過程中做的哪些動作導致了好的結果,而哪些動作導致了壞的結果。
比如,如果機器人用錯誤的方式拿起意式咖啡機的手柄,那之后它在把手柄插回機器里時可能就會遇到困難。真正的錯誤并不在“插入”這個動作本身,而是在更早之前的抓取動作。
▲通過模仿學習訓練的基礎模型,在將手柄插入意式咖啡機時會遇到困難。
一個正確的信用分配方法應當能把這次失敗歸因到那次抓取上,即使失敗是在后面才表現出來的。
Recap 通過訓練一個價值函數來應對這樣的信用分配難題,價值函數是一個模型,它能夠預測特定情境相對于其他情境有多好。
舉個例子,在國際象棋這類游戲中,智能體只會在贏棋時獲得獎勵,那么價值函數可以根據當前棋局來預測智能體獲勝的概率。
如果研究人員能從機器人的經驗中學到這樣的價值函數,就可以通過價值函數的變化來判斷一個動作是好是壞:那些讓價值函數變大的動作,就像讓棋局更接近勝利的落子,是應該被鼓勵的好動作;而那些讓價值函數變小的動作,則應該被抑制。
二、吞吐量和成功率較基礎模型翻倍,任務成功率超90%
PI使用Recap來訓練π*(0.6)模型,使其能夠執行多項真實世界應用。π*(0.6)是基于π(0.6)模型訓練而來的,而π(0.6)是早期π(0.5)模型的改進版本。
![]()
研究人員測試了三個應用場景:制作濃縮咖啡飲品、折疊各種衣物以及組裝包裝箱,這每一項任務都包含許多挑戰:
制作咖啡流程長,要求機器人能夠傾倒液體、把握好咖啡制作時間、制作完成后清理機器等。
疊衣物,機器人需要能夠處理高度的多樣性,對不同衣物采用不同的折疊方法。
組裝包裝箱,機器人需在保持箱體結構的同時折疊箱蓋,還要應對箱子粘連等特殊情況。
![]()
Recap的第一階段,是用離線強化學習(offline RL)對π*(0.6)模型進行預訓練,這一點與基礎的 π(0.6)和π(0.5)用純監督學習訓練的方式不同。在此基礎上,研究人員再用示范數據對π*(0.6)進行按任務的微調,接著再用在機器人上采集到的額外數據進行強化學習訓練:其中既包括專家提供的糾正,用來修復大的錯誤,也包括基于獎勵信號的反饋,讓模型能從自主經驗中學習提升。
研究人員對比了幾種模型的表現:基礎π(0.6)模型(通過監督學習訓練)、基礎π*(0.6)模型(通過離線 RL訓練,即Recap的第一階段)、經過演示數據微調后的π*(0.6)模型,以及最終經過機器上經驗微調后的 π*(0.6)模型。
從最終結果來看,對于像做咖啡這樣的頗具挑戰性的任務,在加入機器人的真實執行經驗后,吞吐量和成功率都提升了超過兩倍,均實現了超過90%的成功率。
![]()
結語:從經驗中學習,或將成為高性能模型的關鍵一部分
目前,機器人基礎模型主要使用的是由人工采集的示范數據(例如遠程操控)。這種方式讓訓練流程變得簡單、直接,但也帶來了一個非常嚴峻的障礙:數據采集需要大量人工投入;模型的速度和魯棒性受限于人類水平;而且機器人本身不會因為積累經驗而逐漸變得更強。
而像Recap這樣的方法,理論上可以通過直接從機器人自身的經驗中學習,從而解決這些限制。
隨著機器人在真實世界中的部署越來越廣泛,來自經驗的學習有可能會是一個非常重要的訓練數據來源,并成為實現高性能表現的關鍵組成部分。
就像人類是通過“講解+指導+練習”的組合方式來學習一樣,機器人未來也會從許多不同的數據源中學習。不過,這些數據源會承擔不同的角色:專家示范,用來定義新的行為;糾正式指導,用來打磨和優化策略;而自主經驗——很可能是規模最大的數據來源——則用來把這些行為打磨到極致,甚至有望最終達到超越人類的表現。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.