<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      不做“傳統(tǒng)機(jī)器人公司”的智元發(fā)了個(gè)大模型,要讓機(jī)器人看視頻就能進(jìn)化

      0
      分享至


      作者 | 周一笑
      郵箱 | zhouyixiao@pingwest.com

      智元機(jī)器人發(fā)布了通用具身基座大模型——智元啟元大模型(Genie Operator-1,簡(jiǎn)稱GO-1)。

      官方視頻中展示了機(jī)器人通過模仿人類操作,學(xué)習(xí)并完成各種家務(wù)任務(wù),例如倒水、制作吐司早餐等。強(qiáng)調(diào)了機(jī)器人的物體追蹤能力、智能跟隨能力,以及通過學(xué)習(xí)大量人類視頻數(shù)據(jù)來實(shí)現(xiàn)快速泛化的能力。


      那么,GO-1是如何實(shí)現(xiàn)這些功能的呢?其背后是ViLLA(視覺-語言-潛在動(dòng)作)架構(gòu)。

      具體來看,該架構(gòu)由VLM(多模態(tài)大模型)+MoE(混合專家模型)組成。其中,MoE里包含2個(gè)關(guān)鍵的組成混合專家1 —— Latent Planner(隱式規(guī)劃器)和混合專家2 —— Action Expert(動(dòng)作專家)。將用于場(chǎng)景感知和語言理解的視覺語言模型與用于運(yùn)動(dòng)規(guī)劃和執(zhí)行的專家系統(tǒng)相結(jié)合。通過在人類操作視頻和真實(shí)機(jī)器人數(shù)據(jù)上進(jìn)行訓(xùn)練,能夠在極少輸入的情況下實(shí)現(xiàn)快速泛化。

      簡(jiǎn)單理解,VLM用多模態(tài)大模型InternVL-2B“看懂”和“聽懂”任務(wù),Latent Planner基于大量數(shù)據(jù)制定動(dòng)作“藍(lán)圖”,Action Expert基于真機(jī)經(jīng)驗(yàn)執(zhí)行具體動(dòng)作。

      VLA模型通常基于大型神經(jīng)網(wǎng)絡(luò),利用視覺輸入(如攝像頭圖像)和語言指令(如“拿起杯子”)生成動(dòng)作輸出(如機(jī)器人手臂的移動(dòng)),以執(zhí)行復(fù)雜任務(wù)。VLA 模型的興起得益于視覺-語言模型(VLM)和大語言模型(LLM)在機(jī)器人任務(wù)中的應(yīng)用。典型例子包括OpenVLA、Helix 和 Pi0,這些模型通過視覺和語言輸入直接生成動(dòng)作。這些模型表明,通過大規(guī)模數(shù)據(jù)和先進(jìn)的算法,機(jī)器人已經(jīng)能夠在一定程度上實(shí)現(xiàn)跨任務(wù)和跨場(chǎng)景的適應(yīng)。

      與VLA模型直接基于視覺和語言條件生成動(dòng)作不同,ViLLA通過預(yù)測(cè)Latent Action Tokens(隱式動(dòng)作標(biāo)記),彌合圖像-文本輸入與機(jī)器人執(zhí)行動(dòng)作之間的鴻溝。在真實(shí)世界的靈巧操作和長(zhǎng)時(shí)任務(wù)方面表現(xiàn)卓越,超過了已有的開源SOTA模型。

      #01

      數(shù)據(jù)之困:如何讓機(jī)器人“消化”海量網(wǎng)絡(luò)視頻?

      相比于互聯(lián)網(wǎng)龐大的數(shù)據(jù)集,帶有明確動(dòng)作標(biāo)簽的機(jī)器人數(shù)據(jù)仍然很少。現(xiàn)有的VLA架構(gòu)由于依賴真機(jī)和合成數(shù)據(jù),而未能充分利用互聯(lián)網(wǎng)視頻這一寶貴資源。

      這些不同來源、不同格式、不同結(jié)構(gòu)的視頻數(shù)據(jù),在編碼格式、幀率、分辨率、內(nèi)容類型等方面存在差異,因此在處理時(shí)需要額外的適配和優(yōu)化。導(dǎo)致機(jī)器人難以直接從視頻中學(xué)習(xí)并執(zhí)行任務(wù)。這種“翻譯”過程涉及動(dòng)作映射、環(huán)境適應(yīng)等復(fù)雜問題,使得機(jī)器人迭代成本更高,進(jìn)化速度更慢。

      ViLLA的主要目的是為了利用利用這些視頻資源。為此,智元機(jī)器人和上海AI Lab的研究人員提出了一種新方法,利用“潛在動(dòng)作”來捕捉連續(xù)視頻幀之間的動(dòng)態(tài)關(guān)系。這樣,就可以把那些沒有動(dòng)作標(biāo)簽的網(wǎng)絡(luò)視頻,以及不同類型機(jī)器人的數(shù)據(jù),一起用于訓(xùn)練。

      簡(jiǎn)單來說,這種方法能從各種不同來源的視頻中學(xué)習(xí)真實(shí)世界的物理規(guī)律,并把這些知識(shí)轉(zhuǎn)化為通用的機(jī)器人操作能力。

      智元機(jī)器人在2024年末開源了AgiBot World數(shù)據(jù)集,這是一個(gè)大規(guī)模、高質(zhì)量的現(xiàn)實(shí)世界機(jī)器人數(shù)據(jù)集,涵蓋了五個(gè)應(yīng)用領(lǐng)域的 217項(xiàng)任務(wù),超過 100 萬條軌跡,被稱為具身智能的“ImageNet時(shí)刻”,GO-1的訓(xùn)練也利用了這些數(shù)據(jù)集數(shù)據(jù)集。


      此外,數(shù)據(jù)方面,GO-1大模型的構(gòu)建和訓(xùn)練整合了四種數(shù)據(jù)類型:通過互聯(lián)網(wǎng)大規(guī)模純文本和圖文數(shù)據(jù)使機(jī)器人理解特定情境下指令的含義;借助人類和其他機(jī)器人操作視頻學(xué)習(xí)任務(wù)的關(guān)鍵環(huán)節(jié);利用仿真數(shù)據(jù)模擬不同物體、環(huán)境條件下的操作流程以打通整個(gè)任務(wù)過程;最后,通過真機(jī)示教數(shù)據(jù),實(shí)現(xiàn)精準(zhǔn)的操作執(zhí)行。這種多元數(shù)據(jù)融合使GO-1能夠從理解任務(wù)含義到精確完成實(shí)際操作的的能力。

      #02

      GO-1“野心”:智元不想只做一個(gè)“造機(jī)器人的公司”

      一位Robotics行業(yè)從業(yè)者告訴硅星人,GO-1的亮點(diǎn)是引入了一個(gè)Latent空間,從而能夠利用互聯(lián)網(wǎng)的大量數(shù)據(jù),但是技術(shù)路線基本是業(yè)內(nèi)探索過的。“前段時(shí)間的Figure的Helix,也是用Latent Code作為語言和動(dòng)作的橋梁,智元是把這個(gè)Latent code給明確化了,也確實(shí)是沿著之前的技術(shù)路線在走。”

      Figure AI的具身大模型Helix 由System 2(S2)和 System 1(S1)組成。S2 是一個(gè)預(yù)訓(xùn)練的視覺-語言模型(VLM),負(fù)責(zé)場(chǎng)景理解和語言理解;S1 是一個(gè)快速反應(yīng)策略,負(fù)責(zé)將 S2 的輸出轉(zhuǎn)化為機(jī)器人動(dòng)作。S2 會(huì)生成“l(fā)atent semantic representations”(潛語義表示),S1則將其轉(zhuǎn)化為“precise continuous robot actions”(精確的連續(xù)機(jī)器人動(dòng)作)。

      科技博主不是鄭小康也認(rèn)為,智元新推出的GenieOperator-1(GO-1)與Physical Intelligence去年10月發(fā)布的π0模型存在一些“異曲同工”之處。比如,兩者均為VLM+動(dòng)作專家模型,能通過視覺語言輸入執(zhí)行復(fù)雜任務(wù)。訓(xùn)練上都結(jié)合了互聯(lián)網(wǎng)數(shù)據(jù)與專業(yè)數(shù)據(jù)集——智元使用AgiBot World,PI則采用Open X Embodiment及自有數(shù)據(jù)。技術(shù)路線各有特色:GO-1配備隱式規(guī)劃器提升視頻學(xué)習(xí)能力;π0應(yīng)用流匹配Diffusion變體實(shí)現(xiàn)50Hz連續(xù)動(dòng)作輸出,動(dòng)作更為流暢。


      具身大模型GO-1和數(shù)據(jù)集AgiBot World都是AgiBot World Colosseo的一部分。AgiBot World Colosseo由上海AI Lab與智元機(jī)器人聯(lián)合推出。主要貢獻(xiàn)在于構(gòu)建了大規(guī)模、高質(zhì)量的機(jī)器人學(xué)習(xí)數(shù)據(jù)集,以及開發(fā)了利用潛在動(dòng)作表示的機(jī)器人基礎(chǔ)策略,使其能夠在異構(gòu)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。技術(shù)報(bào)告中也明確提到,團(tuán)隊(duì)試圖為機(jī)器人領(lǐng)域提供類似于NLP和CV領(lǐng)域那樣的數(shù)據(jù)基礎(chǔ)。

      其次是推動(dòng)通用機(jī)器人能力的研究。強(qiáng)調(diào)了從簡(jiǎn)單的實(shí)驗(yàn)室任務(wù)向復(fù)雜、長(zhǎng)期規(guī)劃的真實(shí)世界任務(wù)轉(zhuǎn)變的重要性。通過覆蓋家庭、零售、工業(yè)、餐廳和辦公室等多種真實(shí)場(chǎng)景,希望訓(xùn)練出能夠應(yīng)對(duì)開放環(huán)境復(fù)雜性的通用型機(jī)器人策略。

      此外AgiBot World Colosseo通過提供標(biāo)準(zhǔn)化的數(shù)據(jù)收集管道和人在回路的驗(yàn)證機(jī)制,建立了一個(gè)可靠的平臺(tái)來評(píng)估不同算法的性能,使研究更具可比性和可重復(fù)性。

      最后,根據(jù)AgiBot World Colosseo的實(shí)驗(yàn),模型性能與數(shù)據(jù)規(guī)模之間存在冪律關(guān)系,這驗(yàn)證了“數(shù)據(jù)規(guī)模化”策略在機(jī)器人領(lǐng)域的有效性,為未來更大規(guī)模的數(shù)據(jù)收集提供了理論支持。


      根據(jù)技術(shù)報(bào)告,GO-1模型在復(fù)雜任務(wù)中的成功率超過60%,比現(xiàn)有技術(shù)高出32%。另外值得關(guān)注的是,團(tuán)隊(duì)承諾將整個(gè)生態(tài)系統(tǒng)開源。目前,數(shù)據(jù)集、工具鏈和預(yù)訓(xùn)練模型均已開源。

      GO-1的發(fā)布也透露出智元這家公司的野心。

      “對(duì)機(jī)器人公司,你如果不做大模型,那是屬于沒有未來的機(jī)器人,沒有智能化,沒有作業(yè)能力只是一個(gè)硬件。他能做的事情非常有限,所以我們投入非常大的。”智元具身業(yè)務(wù)部總裁姚卯青在模型發(fā)布后點(diǎn)評(píng)到。

      作為被大家因硬件創(chuàng)造能力而最初熟悉起來的公司,智元顯然不想變成又一個(gè)“傳統(tǒng)機(jī)器人公司”,不想只做機(jī)器人的本體和硬件產(chǎn)品。今天具身智能的火熱背后,是AI軟件層面的突破,算法模型和硬件的結(jié)合是一切想象力所在。這也是智元想讓外界注意到的能力。

      GO-1這個(gè)名稱讓人聯(lián)想到AlphaGo這一AI史上的里程碑,這個(gè)充滿野心的模型發(fā)布后,要讓這個(gè)通用的模型真正變成機(jī)器人智能迭代的關(guān)鍵還有很多工作要做,但對(duì)智元來說,最重要的是它已經(jīng)邁出了這關(guān)鍵一步。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      1秒3億、單日突破10億!老鋪黃金創(chuàng)下天貓大促最快銷售紀(jì)錄

      1秒3億、單日突破10億!老鋪黃金創(chuàng)下天貓大促最快銷售紀(jì)錄

      財(cái)聞
      2026-02-27 15:05:28
      放棄加拿大籍,錯(cuò)過孩子出生,這個(gè)24歲小伙讓郭士強(qiáng)賽后點(diǎn)名

      放棄加拿大籍,錯(cuò)過孩子出生,這個(gè)24歲小伙讓郭士強(qiáng)賽后點(diǎn)名

      星Xin辰大海
      2026-02-28 15:53:19
      美以對(duì)伊朗發(fā)動(dòng)襲擊,俄外交部表態(tài)

      美以對(duì)伊朗發(fā)動(dòng)襲擊,俄外交部表態(tài)

      環(huán)球網(wǎng)資訊
      2026-02-28 19:26:59
      分手14年,釋小龍何潔境遇天差地別,一個(gè)身家過億,一個(gè)養(yǎng)不起娃

      分手14年,釋小龍何潔境遇天差地別,一個(gè)身家過億,一個(gè)養(yǎng)不起娃

      查爾菲的筆記
      2026-01-09 22:17:44
      林孝埈韓國(guó)教練冬奧會(huì)前被國(guó)家隊(duì)解雇!韓媒:因?yàn)榭棺h劉少昂犯規(guī)

      林孝埈韓國(guó)教練冬奧會(huì)前被國(guó)家隊(duì)解雇!韓媒:因?yàn)榭棺h劉少昂犯規(guī)

      念洲
      2026-02-28 09:36:30
      原來20塊就能解決的小問題,我竟忍了好幾年!

      原來20塊就能解決的小問題,我竟忍了好幾年!

      小熊侃史
      2026-02-21 11:14:24
      “小婉君”金銘45歲現(xiàn)狀:個(gè)子太矮事業(yè)受挫,住北京豪宅不婚不育

      “小婉君”金銘45歲現(xiàn)狀:個(gè)子太矮事業(yè)受挫,住北京豪宅不婚不育

      削桐作琴
      2026-01-29 00:03:53
      37歲張含韻回老家過年,打麻將吃美食胖出圈,還幫外甥女趕作業(yè)

      37歲張含韻回老家過年,打麻將吃美食胖出圈,還幫外甥女趕作業(yè)

      調(diào)侃國(guó)際觀點(diǎn)
      2026-02-28 08:55:51
      伊朗稱襲擊美軍基地已造成至少200名軍人死傷

      伊朗稱襲擊美軍基地已造成至少200名軍人死傷

      澎湃新聞
      2026-02-28 21:48:02
      都是十四億人口,印度每1000人僅有34輛車,中國(guó)1000人中有多少?

      都是十四億人口,印度每1000人僅有34輛車,中國(guó)1000人中有多少?

      通文知史
      2026-02-27 23:00:03
      為了拯救沙化草原,我們一口氣養(yǎng)了5萬只雞,結(jié)果很快被打臉

      為了拯救沙化草原,我們一口氣養(yǎng)了5萬只雞,結(jié)果很快被打臉

      果殼
      2026-02-26 16:26:23
      小米新超跑官宣了?外觀曝光有點(diǎn)帥,雷軍宣布:明天見!

      小米新超跑官宣了?外觀曝光有點(diǎn)帥,雷軍宣布:明天見!

      i王石頭
      2026-02-28 14:02:24
      中國(guó)鋼琴圣手,被人把痰盂扣頭上,30歲與母親弟弟吸煤氣而亡

      中國(guó)鋼琴圣手,被人把痰盂扣頭上,30歲與母親弟弟吸煤氣而亡

      卷史
      2026-02-28 05:06:44
      明查·持續(xù)更新|伊朗陸軍總司令生死反轉(zhuǎn),游戲畫面又被傳成沖突畫面

      明查·持續(xù)更新|伊朗陸軍總司令生死反轉(zhuǎn),游戲畫面又被傳成沖突畫面

      澎湃新聞
      2026-02-28 19:06:28
      王楚欽4比0晉級(jí)四強(qiáng),張禹珍想退賽遭裁判長(zhǎng)回應(yīng)

      王楚欽4比0晉級(jí)四強(qiáng),張禹珍想退賽遭裁判長(zhǎng)回應(yīng)

      阿嚼影視評(píng)論
      2026-02-28 16:32:42
      令人窒息!公公掀翻飯桌燙傷3歲孫子,就因一句咱們先吃,不等了

      令人窒息!公公掀翻飯桌燙傷3歲孫子,就因一句咱們先吃,不等了

      丫頭舫
      2026-02-26 16:42:46
      快訊!外媒:伊朗軍方稱將給以色列和美國(guó)“一個(gè)歷史性教訓(xùn)”

      快訊!外媒:伊朗軍方稱將給以色列和美國(guó)“一個(gè)歷史性教訓(xùn)”

      環(huán)球網(wǎng)資訊
      2026-02-28 18:54:09
      “窮人才這樣過生日”,19歲男孩的生日禮物火了,家長(zhǎng)用心反被嘲

      “窮人才這樣過生日”,19歲男孩的生日禮物火了,家長(zhǎng)用心反被嘲

      妍妍教育日記
      2026-02-27 18:32:25
      王晶沒撒謊!退出春晚、和沈騰決裂,性格大變的賈玲印證他說的話

      王晶沒撒謊!退出春晚、和沈騰決裂,性格大變的賈玲印證他說的話

      胡一舸南游y
      2026-01-25 14:54:04
      伊朗革命衛(wèi)隊(duì)指揮部:未來數(shù)小時(shí)內(nèi)將對(duì)領(lǐng)土遇襲作出回應(yīng)

      伊朗革命衛(wèi)隊(duì)指揮部:未來數(shù)小時(shí)內(nèi)將對(duì)領(lǐng)土遇襲作出回應(yīng)

      參考消息
      2026-02-28 17:39:04
      2026-03-01 00:47:00
      硅星GenAI incentive-icons
      硅星GenAI
      比一部分人更先進(jìn)入GenAl。
      243文章數(shù) 14關(guān)注度
      往期回顧 全部

      科技要聞

      狂攬1100億美元!OpenAI再創(chuàng)融資神話

      頭條要聞

      媒體:美以的真實(shí)目標(biāo)已經(jīng)擺上臺(tái)面 不達(dá)目的不罷休

      頭條要聞

      媒體:美以的真實(shí)目標(biāo)已經(jīng)擺上臺(tái)面 不達(dá)目的不罷休

      體育要聞

      球隊(duì)主力全報(bào)銷?頂風(fēng)擺爛演都不演了

      娛樂要聞

      周杰倫兒子正面照曝光,與父親好像

      財(cái)經(jīng)要聞

      沖突爆發(fā) 市場(chǎng)變天?

      汽車要聞

      嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

      態(tài)度原創(chuàng)

      手機(jī)
      健康
      房產(chǎn)
      旅游
      教育

      手機(jī)要聞

      澎湃OS再次公布進(jìn)展通報(bào):10個(gè)問題,僅修復(fù)一則!

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      房產(chǎn)要聞

      濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

      旅游要聞

      忻州古城×元宵節(jié) | “夯”爆了!看非遺社火解鎖忻州古城的超長(zhǎng)年味!

      教育要聞

      “比預(yù)估高了20多分,激動(dòng)得有點(diǎn)想哭!”今天有人歡呼,有人沉默,有人紅了眼眶,這一年都經(jīng)歷了什么?

      無障礙瀏覽 進(jìn)入關(guān)懷版