<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      PI最新VLA模型登場!機器人疊衣服、做咖啡、組裝紙箱成功率翻倍

      0
      分享至


      機器人前瞻(公眾號:robot_pro)
      作者 許麗思
      編輯 漠影

      機器人前瞻11月18日報道,今天,Physical Intelligence(簡稱PI)發布了旗下最新機器人基礎模型π*0.6。

      PI是一家2024年成立于美國舊金山的機器人初創公司,團隊堪稱全明星陣容,CEO兼聯合創始人Karol Hausman曾是Google DeepMind資深研究科學家;聯合創始人還包括強化學習領域領軍人物Sergey Levine、斯坦福大學教授Chelsea Finn等。

      PI的融資節奏和估值增長也十分迅猛:2024年3月種子輪融資中,以約4億美元估值籌集7000萬美元;同年11月完成4億美元A輪融資,估值飆升至24億美元。今年9月,有消息稱其正討論以50億美元估值開展新一輪融資,若落地則成立18個月內估值將翻12倍。

      Sergey Levine表示,搭載了π*0.6的機器人,已經在舊金山辦公室里為同事們制作拿鐵、美式咖啡和意式濃縮咖啡了,能夠狂干13小時,中間只有幾次中斷。

      網友:這做咖啡的手法和效率,意大利人看了都備受震撼。

      機器人還連續疊了3個小時衣服,衣服類型五花八門,疊一件衣服大概需要3分鐘。


      針對組裝紙箱的任務,機器人連續組裝了1個小時,每個箱子大概需要兩分半鐘。

      從PI發布的技術博客來看,π*0.6在多項任務的表現上,實現了吞吐量(每小時成功完成任務的次數)和成功率較基礎模型翻倍,成功率超90%。

      尤其是做咖啡這項任務,π*0.6較基礎模型的提升幅度非常明顯。不過,也有眼尖的網友發現,機器人在制作拿鐵時,跳過了用蒸汽處理牛奶的關鍵步驟。看來機器人離成為一個合格的咖啡店員,還得再多練練。

      一、糾正式指導+強化學習,破解模仿學習的累積錯誤難題

      RECAP實現了三個關鍵步驟:通過演示訓練機器人、通過糾正進行指導,并使機器人能夠從自主經驗中改進。這解決了模仿學習在機器人技術中的關鍵缺陷:小錯誤在現實實踐中引發累積錯誤,降低可靠性。

      Recap能夠使研究人員通過兩種方式從“質量較差”的經驗數據中獲取良好的訓練信號:

      1、糾正式指導(coaching with corrections)

      由專家展示機器人如何修復錯誤或做得更好,從而提供修正。

      想要讓糾正式指導真正有用,專家遠程操控者需要提供的是:在真實世界里,機器人實際犯錯之后,怎樣從這些錯誤中恢復的糾正示范。在實踐中,這意味著運行當前最好的策略,當機器人犯錯時,用人工遠程操控接管它。

      但是,僅僅依靠糾正式指導是有限的:這類監督的質量受制于人類是否能及時判斷應當介入以及是否能提供高質量的糾正。對于那些特別明顯或嚴重的錯誤,這種方式是有效的。

      不過,就像運動員如果不自己反復練習,是不可能真正掌握一項運動一樣,研究人員需要一種辦法,讓策略可以通過通過練習和強化繼續學習和完善其行為的微小細節。

      2、強化學習(reinforcement learning)

      機器人依據整個任務過程的最終結果,自行判斷哪些行為更好或更差,并通過迭代學習強化好的行為、避免不好的行為。

      通過任務結果來進行強化學習的核心難題是信用分配(credit assignment):也就是弄清楚機器人在整個過程中做的哪些動作導致了好的結果,而哪些動作導致了壞的結果。

      比如,如果機器人用錯誤的方式拿起意式咖啡機的手柄,那之后它在把手柄插回機器里時可能就會遇到困難。真正的錯誤并不在“插入”這個動作本身,而是在更早之前的抓取動作。


      ▲通過模仿學習訓練的基礎模型,在將手柄插入意式咖啡機時會遇到困難。

      一個正確的信用分配方法應當能把這次失敗歸因到那次抓取上,即使失敗是在后面才表現出來的。

      Recap 通過訓練一個價值函數來應對這樣的信用分配難題,價值函數是一個模型,它能夠預測特定情境相對于其他情境有多好。

      舉個例子,在國際象棋這類游戲中,智能體只會在贏棋時獲得獎勵,那么價值函數可以根據當前棋局來預測智能體獲勝的概率。

      如果研究人員能從機器人的經驗中學到這樣的價值函數,就可以通過價值函數的變化來判斷一個動作是好是壞:那些讓價值函數變大的動作,就像讓棋局更接近勝利的落子,是應該被鼓勵的好動作;而那些讓價值函數變小的動作,則應該被抑制。

      二、吞吐量和成功率較基礎模型翻倍,任務成功率超90%

      PI使用Recap來訓練π*(0.6)模型,使其能夠執行多項真實世界應用。π*(0.6)是基于π(0.6)模型訓練而來的,而π(0.6)是早期π(0.5)模型的改進版本。


      研究人員測試了三個應用場景:制作濃縮咖啡飲品、折疊各種衣物以及組裝包裝箱,這每一項任務都包含許多挑戰:

      制作咖啡流程長,要求機器人能夠傾倒液體、把握好咖啡制作時間、制作完成后清理機器等。

      疊衣物,機器人需要能夠處理高度的多樣性,對不同衣物采用不同的折疊方法。

      組裝包裝箱,機器人需在保持箱體結構的同時折疊箱蓋,還要應對箱子粘連等特殊情況。


      Recap的第一階段,是用離線強化學習(offline RL)對π*(0.6)模型進行預訓練,這一點與基礎的 π(0.6)和π(0.5)用純監督學習訓練的方式不同。在此基礎上,研究人員再用示范數據對π*(0.6)進行按任務的微調,接著再用在機器人上采集到的額外數據進行強化學習訓練:其中既包括專家提供的糾正,用來修復大的錯誤,也包括基于獎勵信號的反饋,讓模型能從自主經驗中學習提升。

      研究人員對比了幾種模型的表現:基礎π(0.6)模型(通過監督學習訓練)、基礎π*(0.6)模型(通過離線 RL訓練,即Recap的第一階段)、經過演示數據微調后的π*(0.6)模型,以及最終經過機器上經驗微調后的 π*(0.6)模型。

      從最終結果來看,對于像做咖啡這樣的頗具挑戰性的任務,在加入機器人的真實執行經驗后,吞吐量和成功率都提升了超過兩倍,均實現了超過90%的成功率。


      結語:從經驗中學習,或將成為高性能模型的關鍵一部分

      目前,機器人基礎模型主要使用的是由人工采集的示范數據(例如遠程操控)。這種方式讓訓練流程變得簡單、直接,但也帶來了一個非常嚴峻的障礙:數據采集需要大量人工投入;模型的速度和魯棒性受限于人類水平;而且機器人本身不會因為積累經驗而逐漸變得更強。

      而像Recap這樣的方法,理論上可以通過直接從機器人自身的經驗中學習,從而解決這些限制。

      隨著機器人在真實世界中的部署越來越廣泛,來自經驗的學習有可能會是一個非常重要的訓練數據來源,并成為實現高性能表現的關鍵組成部分。

      就像人類是通過“講解+指導+練習”的組合方式來學習一樣,機器人未來也會從許多不同的數據源中學習。不過,這些數據源會承擔不同的角色:專家示范,用來定義新的行為;糾正式指導,用來打磨和優化策略;而自主經驗——很可能是規模最大的數據來源——則用來把這些行為打磨到極致,甚至有望最終達到超越人類的表現。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      怒了!許利民:球員在擺譜、擺大牌,我們輸的是北京的形象和尊嚴

      怒了!許利民:球員在擺譜、擺大牌,我們輸的是北京的形象和尊嚴

      懂球帝
      2026-01-11 22:54:27
      宋彬彬晚年回國道歉仍不被原諒,其父宋任窮也不愿提起她,為何

      宋彬彬晚年回國道歉仍不被原諒,其父宋任窮也不愿提起她,為何

      雍親王府
      2026-01-09 15:20:02
      反轉了!居然全是演的!視頻已清空

      反轉了!居然全是演的!視頻已清空

      瑯琊新聞網
      2026-01-11 23:34:05
      別人在熱鬧中搶位置,銳勝M8在品類中搶心智

      別人在熱鬧中搶位置,銳勝M8在品類中搶心智

      燃擎頻道
      2026-01-12 10:47:14
      日媒爆高市早苗或有大動作

      日媒爆高市早苗或有大動作

      環球時報國際
      2026-01-12 08:58:15
      開盤20分鐘兩市成交額突破1萬億 預計全天成交超3.8萬億

      開盤20分鐘兩市成交額突破1萬億 預計全天成交超3.8萬億

      財聯社
      2026-01-12 09:52:29
      外媒:英國正為烏克蘭研發可深入打擊俄境內目標的新型彈道導彈

      外媒:英國正為烏克蘭研發可深入打擊俄境內目標的新型彈道導彈

      環球網資訊
      2026-01-12 12:50:37
      網格員深夜入戶檢查引居民投訴,深圳一街道回應:將加強培訓

      網格員深夜入戶檢查引居民投訴,深圳一街道回應:將加強培訓

      南方都市報
      2026-01-12 07:33:11
      庫里31+5勇士不敵老鷹結束連勝,巴特勒30+7+6約翰遜23+11

      庫里31+5勇士不敵老鷹結束連勝,巴特勒30+7+6約翰遜23+11

      湖人崛起
      2026-01-12 11:58:38
      特朗普發圖自稱委內瑞拉代總統

      特朗普發圖自稱委內瑞拉代總統

      界面新聞
      2026-01-12 11:13:10
      300多守衛被20多美軍特種兵全殲!委內瑞拉總統衛隊幸存者崩潰講述當晚可怕經歷

      300多守衛被20多美軍特種兵全殲!委內瑞拉總統衛隊幸存者崩潰講述當晚可怕經歷

      大洛杉磯LA
      2026-01-11 07:08:16
      保定一畝泉斷流60年后復涌,水利局:降水量大和生態治理的效果

      保定一畝泉斷流60年后復涌,水利局:降水量大和生態治理的效果

      新京報
      2026-01-11 23:14:14
      新華社消息|古巴國家主席:把一切都當作生意的人,沒資格對古巴指手畫腳

      新華社消息|古巴國家主席:把一切都當作生意的人,沒資格對古巴指手畫腳

      新華社
      2026-01-12 10:30:34
      28歲犧牲在朝鮮,如果沒死會不會接班?歷史其實早就把答案擺桌上了

      28歲犧牲在朝鮮,如果沒死會不會接班?歷史其實早就把答案擺桌上了

      歷史回憶室
      2026-01-11 22:54:20
      死傷抗議者過多,伊朗醫院系統被壓垮!醫護連做心肺復蘇的時間都沒有

      死傷抗議者過多,伊朗醫院系統被壓垮!醫護連做心肺復蘇的時間都沒有

      互聯網大觀
      2026-01-11 14:31:51
      “百萬粉絲網紅疑患梅毒住院記錄流傳”,東莞衛健局工作人員回應

      “百萬粉絲網紅疑患梅毒住院記錄流傳”,東莞衛健局工作人員回應

      深圳晚報
      2026-01-12 10:41:50
      沒管住下半身!一老師與學生發生關系,被河南省教育廳踢出隊伍了

      沒管住下半身!一老師與學生發生關系,被河南省教育廳踢出隊伍了

      火山詩話
      2026-01-12 07:07:30
      跟學歷低的妹子談戀愛是什么體驗?如果你被她吸引,不妨放下預設

      跟學歷低的妹子談戀愛是什么體驗?如果你被她吸引,不妨放下預設

      另子維愛讀史
      2026-01-09 22:06:39
      又贏麻了?KK園區清零?衛星圖打臉擴建,媒體宣傳網友不買賬為啥

      又贏麻了?KK園區清零?衛星圖打臉擴建,媒體宣傳網友不買賬為啥

      眼光很亮
      2026-01-11 15:03:16
      美聯儲主席鮑威爾回應遭刑事調查:大樓翻修工程只是借口,本質是關于利率政策制定

      美聯儲主席鮑威爾回應遭刑事調查:大樓翻修工程只是借口,本質是關于利率政策制定

      澎湃新聞
      2026-01-12 09:24:26
      2026-01-12 13:52:49
      機器人前瞻
      機器人前瞻
      專注于機器人報道的媒體
      299文章數 7關注度
      往期回顧 全部

      科技要聞

      小米二手車價大跳水:SU7半年跌5萬元

      頭條要聞

      臺媒:大陸在朱日和基地復制"總統府" 不可掉以輕心

      頭條要聞

      臺媒:大陸在朱日和基地復制"總統府" 不可掉以輕心

      體育要聞

      聰明的球員,不是教練教出來的

      娛樂要聞

      閆學晶:脫離群眾太久 忘了自己的根

      財經要聞

      揭秘“穩賺不賠”的代工項目騙局

      汽車要聞

      增配不加價 北京現代 第五代 勝達2026款上市

      態度原創

      教育
      旅游
      游戲
      親子
      藝術

      教育要聞

      學霸思維訓練:巧求陰影部分的面積

      旅游要聞

      哈爾濱“鉆石海”浪漫賞落日

      《P5》外網噴爛引發熱議 無聊透頂被人高估?

      親子要聞

      謝霆鋒沒想到,一天4餐、愛吃牛排的兩個兒子,成了張柏芝的底氣

      藝術要聞

      畫完這組畫,他抑郁了,后來自殺了

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲12色吧| 区。| 自拍区小说区图片区亚洲| 国产福利免费在线观看| 亚洲AV秘 无码一区二区三区一| 欧美一区二区三区性视频| 专区国产无码| 成在线人免费视频| 年轻女教师hd中字3| 亚洲AV无码一二区三区在线播放| 亚洲自偷自拍熟女另类| 狠狠色AV一区二区| 日本饥渴人妻欲求不满| 一区二区三区视频| 久久精品—区二区三区无码伊人色 | 内射中出无码护士在线| xxx日韩| 国产漂亮白嫩美女在线观看 | 人妻人妻少妇在线系列| 午夜免费啪视频在线观看| 中文字幕日韩精品人妻| 成人片黄网站色大片免费毛片| 贵德县| 国产日韩精品一区二区三区在线| 女人天堂AV| 性欧美疯狂xxxxbbbb| 色色二区| 日本va欧美va国产激情| 国内黄色视频| 欧美人与禽交zozo| 久久一日本道色综合久久| 久久欧美国产伦子伦精品| a毛片免费在线观看| 97久久超碰亚洲视觉盛宴 | 亚洲青青草视频免费观看| 久久香蕉国产线看观看猫咪av| 宁国市| 免费吃奶摸下激烈视频| 亚洲AV无码乱码在线观看性色| 丁香婷婷综合激情五月色| FUCK老富婆HD|