![]()
讓機(jī)器人像人一樣,快速學(xué)習(xí)并適應(yīng)各類新場景,觸達(dá)更廣闊的市場。
機(jī)器人,被視為下一個(gè)萬億級智能終端。但為何有數(shù)十年歷史的機(jī)器人產(chǎn)業(yè),其市場規(guī)模至今遠(yuǎn)未達(dá)到預(yù)期?其核心原因,在于現(xiàn)有機(jī)器人大多只能適配一個(gè)場景、一個(gè)任務(wù),極大地限制了其規(guī)模化應(yīng)用的可能。
在第18屆創(chuàng)業(yè)邦年會暨創(chuàng)業(yè)邦100未來獨(dú)角獸大會上,星動紀(jì)元創(chuàng)始人陳建宇給出了破局路徑:打造“上限更高、更通用的機(jī)器人”——讓機(jī)器人像人一樣有聰明的大腦和好用的身體,能夠快速學(xué)習(xí)并適應(yīng)各類新場景。這樣才能使得機(jī)器人觸達(dá)更廣闊的市場。
以下是陳建宇在大會上的演講實(shí)錄,由創(chuàng)業(yè)邦整理。
![]()
打造通用機(jī)器人,
成為下一個(gè)智能終端
現(xiàn)在行業(yè)已經(jīng)形成共識,機(jī)器人未來一定可以催生出萬億級的市場。
首先,機(jī)器人可以產(chǎn)生非常巨大的生產(chǎn)力,而整個(gè)生產(chǎn)力和勞動力加起來,可以達(dá)到所有GDP一半的體量;同時(shí)機(jī)器人會成為未來繼個(gè)人電腦、手機(jī)、智能汽車之后的下一個(gè)智能終端。
怎樣打造?非常重要的點(diǎn)是需要打造上限更高、更通用的機(jī)器人。機(jī)器人的歷史很長,不管工業(yè)還是生活,我們已經(jīng)看到各類各樣的機(jī)器人在落地,但是現(xiàn)在機(jī)器人的總量和市場遠(yuǎn)小于預(yù)期,非常重要的點(diǎn)是現(xiàn)在機(jī)器人比較專業(yè)化,一款機(jī)器人只能適配基本一種場景和一個(gè)任務(wù),要做新的場景和任務(wù),要重新研發(fā)整個(gè)硬件和軟件,讓機(jī)器人的大腦和身體協(xié)同發(fā)展。
我們希望做相對通用的機(jī)器人,希望它像人一樣,通用適配到各類場景,這樣才能最終達(dá)到想要的市場。圍繞這樣的目標(biāo),我們專注于這方面的研發(fā),并且在人形機(jī)器人全身靈巧操作的軟硬一體、全棧自研上實(shí)現(xiàn)階段性進(jìn)展和突破。
我們研發(fā)了比較通用的人形機(jī)器人,具備雙靈巧手和雙足形態(tài),并且所有軟件,包括通用端到端的具身大腦、小腦運(yùn)控模型,再到硬件本體、零部件、關(guān)節(jié)、電機(jī)和靈巧手,都是一體化自主研發(fā)。
![]()
星動STAR1在工廠車間大顯身手
不同形態(tài)通用的機(jī)器人本體,搭載具身模型,又可以用到各種各樣不同的場景里。因?yàn)槟P褪峭ㄓ玫脑O(shè)計(jì),所以跟具體某個(gè)場景無關(guān),沒有針對任何場景做任何特定的設(shè)計(jì),我們需要的是數(shù)據(jù)反饋。現(xiàn)在也在幾個(gè)重要的場景下,形成大腦本體+場景數(shù)據(jù)的反饋,在商業(yè)化落地的同時(shí),也在持續(xù)增強(qiáng)模型的能力。
![]()
具身模型的三次進(jìn)化,
走向自我學(xué)習(xí)
我們非常重視具身模型的創(chuàng)新研究,可以總結(jié)為三個(gè)階段:基于VLM的分頻VLA模型、融合世界模型的VLA模型、融合強(qiáng)化學(xué)習(xí)的VLA模型。
首先是基于“VLM的分頻VLA”,這是現(xiàn)代比較主流的范式。在全球范圍內(nèi),我們是這條路線最早的提出者、實(shí)現(xiàn)者。在2024年發(fā)表了相應(yīng)論文Hirt,是全球首個(gè)完整的機(jī)器人VLA模型。
我們首次提出Action形態(tài),可以實(shí)現(xiàn)端到端的訓(xùn)練,使模型達(dá)到比較好的柔順性和運(yùn)行的速度。僅通過視覺的輸入,每秒鐘就可以完成數(shù)十次從感知到?jīng)Q策和規(guī)劃的閉環(huán)。
例如,在抓取藥盒的任務(wù)中,機(jī)器人可以從雜亂的物品里找到藥盒,同時(shí)雙臂協(xié)同進(jìn)行掃碼動作。即使在距離較遠(yuǎn)的地方,機(jī)器人也會自動調(diào)整姿態(tài),最終實(shí)現(xiàn)相應(yīng)的效果。
![]()
剛才提到的方法是基于VLM的VLA模型,仍然有缺陷和不足。因此,我們通過技術(shù)改進(jìn),來到第二階段的“世界模型”。
為什么要進(jìn)行改進(jìn)?此前的方法純粹是在模仿人類的動作。人類怎么做,機(jī)器人就模仿怎么做。這樣使得機(jī)器人的動作傾向于條件反射式,沒有自己的思考。而且,這種方法要依賴大規(guī)模數(shù)據(jù),如果超脫數(shù)據(jù)范圍之外,行為就比較難以呈現(xiàn)。
人類之所以會思考,是因?yàn)槟茉谀X內(nèi)構(gòu)建世界模型,這是對物理世界的常識性認(rèn)知,對各種各樣的場景有快速的預(yù)判。比如,一瓶水在桌子的邊緣,會擔(dān)心稍不注意掉下去,把杯子摔碎;如果開車到入口,可能會預(yù)判沖出來一輛車或者行人,造成一些交通事故。
因?yàn)橛辛祟A(yù)判,就知道在開車的時(shí)候,在入口要減速或者停下避免危險(xiǎn),知道杯子在桌子邊緣,可能想要伸手或者往里面推。有了這樣的世界模型能力,可以幫助你更好進(jìn)行預(yù)判和更好進(jìn)行舉一反三的能力,這種能力在此前模型是沒有的。
除此之外,世界模型還可以做對未來準(zhǔn)確的預(yù)判和預(yù)測,可以幫助你更好進(jìn)行行為決策。
圍繞這樣的思想,我們也做了系列工作,包括2025年發(fā)表論文,把大規(guī)模的互聯(lián)網(wǎng)視頻數(shù)據(jù)加入進(jìn)來做預(yù)訓(xùn)練,大大增強(qiáng)了它的泛化性能。
2025年11月,我們跟Physical Intelligence的聯(lián)合創(chuàng)始人一起聯(lián)合發(fā)表論文。Physical Intelligence是全球公認(rèn)的最好的一家具身大腦公司,我們跟他們一起,聯(lián)合做了關(guān)于世界模型的工作Ctrl-world,發(fā)現(xiàn)通過引入世界模型,可以在他們當(dāng)時(shí)最先進(jìn)的模型上、下游任務(wù)再提升45%的性能。
這個(gè)具身模型,能夠通過觀察真實(shí)世界場景,預(yù)測接下來機(jī)械臂的驅(qū)動軌跡,以及與物體交互所產(chǎn)生的細(xì)膩物理效果。比如,當(dāng)機(jī)械臂夾起毛巾時(shí),模型不僅預(yù)測了手臂的動作,還模擬出了毛巾因被抓取而產(chǎn)生的褶皺和形態(tài)變化。
這種非常復(fù)雜細(xì)膩的物理細(xì)節(jié),它也能夠捕捉的非常精準(zhǔn),幾乎看不出來與真實(shí)物理現(xiàn)象的區(qū)別,這樣的能力幫助我們做各種各樣的行為操作,這些是最后訓(xùn)出來的模型結(jié)果。
最后是第三階段,基于“強(qiáng)化學(xué)習(xí)”模型,機(jī)器人自主強(qiáng)化、自主探索試錯(cuò),自己增強(qiáng)性能。這里是有一個(gè)端到端的神經(jīng)網(wǎng)絡(luò),持續(xù)不斷地去做推理,并且頻率非常高,一秒鐘有幾十赫茲,實(shí)現(xiàn)感知到最后控制的閉環(huán)。
![]()
讓技術(shù)創(chuàng)造真實(shí)價(jià)值
有了聰明的“大腦”,還需要一副強(qiáng)大的“身體”來配合。
在硬件層面,我們完全自主研發(fā)了核心部件包括靈巧手、電機(jī)、減速器、驅(qū)動器等。基于這些技術(shù),我們形成了一系列的產(chǎn)品矩陣,讓我們的技術(shù)有了具體的形態(tài)。
首先是我們的雙足人形機(jī)器人星動L7,它身高1.7米,擁有55個(gè)自由度。它是跳高、跳遠(yuǎn)世界紀(jì)錄的保持者、同時(shí)還擁有雙臂靈巧操作能力,完成各種復(fù)雜的任務(wù),做到手腳協(xié)同。
![]()
雙足人形機(jī)器人星動L7
其次,我們還有針對服務(wù)場景設(shè)計(jì)的輪式機(jī)器人星動Q5。它的外形設(shè)計(jì)得比較纖細(xì)、優(yōu)美,同樣具備七自由度的雙臂和五指靈巧手,可以靈活地完成下蹲拾取物品等精細(xì)操作。
我們的機(jī)器人之所以已經(jīng)能在真實(shí)場景干活,得益于我們自研的通用靈巧手。它采用全直驅(qū)方案,響應(yīng)速度快,每秒鐘能點(diǎn)擊鼠標(biāo)10次;同時(shí)力量強(qiáng),單手能拎起25公斤的重物;精度也高,能夠穩(wěn)穩(wěn)捏起一塊豆腐。并且,我們還讓它具備了出色的抗沖擊性,以適應(yīng)真實(shí)的工業(yè)環(huán)境。
我們深知,再好的技術(shù),如果不能落地,那就沒有意義。在商業(yè)化方面,我們采取雙線并行策略。
一方面,我們面向終端場景,直接提供從模型、硬件到軟件的全套解決方案。我們已經(jīng)在工業(yè)、物流等場景成功落地,與順豐、海爾、聯(lián)想等合作。這種模式最大的好處是,我們可以通過這些真實(shí)場景獲得寶貴的數(shù)據(jù)反饋,這些數(shù)據(jù)又會反過來持續(xù)優(yōu)化我們模型的能力,形成一個(gè)良性的飛輪。
另一方面,我們也把在開發(fā)過程中的工具鏈,以API的形式,提供給其他的企業(yè)和高校用戶。我們很清楚,單靠我們自己不可能覆蓋所有的應(yīng)用場景。通過開放工具,我們可以賦能更多的合作伙伴,大家一起來探索和定義機(jī)器人的未來。目前,全球市值Top10的科技巨頭中,已經(jīng)有9家成為了我們的客戶,這也從側(cè)面印證了我們技術(shù)工具的價(jià)值。
以上是我的分享,謝謝!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.