12月18日,大曉機(jī)器人正式發(fā)布行業(yè)首創(chuàng)的ACE具身研發(fā)范式、首個(gè)開源且商業(yè)應(yīng)用的開悟世界模型3.0(Kairos 3.0)、讓具身本體擁有自主空間智能的具身超級(jí)大腦模組A1。
![]()
01
具身智能:從“以機(jī)器為中心”轉(zhuǎn)向“以人為中心”的研發(fā)
商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、大曉機(jī)器人董事長(zhǎng)王曉剛表示,“以人為中心(Human-centric)”的ACE范式根本性地革新了具身智能研發(fā)路徑,并且開悟世界模型3.0為機(jī)器人裝上“超級(jí)大腦”。
“以機(jī)器為中心”的研發(fā)范式,其根本局限在于將機(jī)器人本體及其硬件參數(shù)置于研發(fā)流程的核心,本質(zhì)上是用極高的資源消耗,換取有限且僵化的“智能”。
ACE研發(fā)范式顛覆傳統(tǒng)邏輯,將人類與物理世界的互動(dòng)規(guī)律作為核心研究起點(diǎn),以環(huán)境式數(shù)據(jù)采集為引擎,構(gòu)建了一套從“環(huán)境式數(shù)據(jù)采集—開悟世界模型3.0—具身交互”的全鏈路技術(shù)體系。環(huán)境式數(shù)據(jù)采集可實(shí)現(xiàn)一年千萬(wàn)小時(shí)的數(shù)據(jù)收集,開悟世界模型3.0則不斷放大真實(shí)數(shù)據(jù)價(jià)值,使其達(dá)到上億小時(shí)數(shù)據(jù)規(guī)模的效果。
王曉剛說:“世界模型的數(shù)據(jù)采集分為幾個(gè)層次,不是一上來(lái)就采用人的行為數(shù)據(jù),而是在底層注入了很多物理規(guī)律。模型里有思維鏈。當(dāng)讓機(jī)器人擺放字母時(shí),如果沒有理解物理規(guī)律,它們是擺放不了的,這也是以往VLA(視覺語(yǔ)言對(duì)齊)訓(xùn)練方法的短板。”
ACE范式核心技術(shù)之一是環(huán)境式數(shù)據(jù)采集技術(shù),通過跨視角多模態(tài)設(shè)備,融合視覺、觸覺、語(yǔ)音、力學(xué)規(guī)律等多維度數(shù)據(jù),以物理級(jí)建模與全場(chǎng)景覆蓋的創(chuàng)新設(shè)計(jì),為具身智能模型訓(xùn)練提供“人—物—場(chǎng)”全要素精準(zhǔn)數(shù)據(jù)支撐。
環(huán)境式數(shù)據(jù)采集技術(shù)以人為中心構(gòu)建全要素采集體系,整合第一視角與第三視角視頻、力觸覺信息、運(yùn)動(dòng)軌跡、語(yǔ)音等多模態(tài)數(shù)據(jù),構(gòu)建基于物理基礎(chǔ)的3D資產(chǎn)庫(kù),全面覆蓋具身模型訓(xùn)練所需的各類交互信息,實(shí)現(xiàn)了多視角協(xié)同、長(zhǎng)程任務(wù)覆蓋與全維度信息捕捉的跨越式升級(jí)。
![]()
王曉剛表示:“相較于遙操數(shù)據(jù)采集或仿真數(shù)據(jù),環(huán)境式數(shù)據(jù)采集的成本顯著降低。”在硬件成本方面,遙操模式需購(gòu)置幾十萬(wàn)臺(tái)機(jī)器人設(shè)備,而環(huán)境式采集采用AI眼鏡等現(xiàn)有傳感器,無(wú)須額外投入高價(jià)機(jī)器人;且隨著規(guī)模化應(yīng)用推進(jìn),傳感器成本會(huì)進(jìn)一步下降,原因在于當(dāng)前機(jī)器人尚未形成規(guī)模化,成本難以降低。在人力成本方面,遙操采集需專門雇傭人員在實(shí)驗(yàn)室操作,環(huán)境式采集則可在正常工作、生活場(chǎng)景中開展,工作人員佩戴設(shè)備即可一邊完成本職工作一邊采集數(shù)據(jù),無(wú)須額外投入人力,效率實(shí)現(xiàn)數(shù)倍提升。
這種低成本模式具備極強(qiáng)的可復(fù)制性,例如在閃購(gòu)倉(cāng)場(chǎng)景中,工作人員正常工作即可同步采集數(shù)據(jù),這也是數(shù)據(jù)規(guī)模能從10萬(wàn)小時(shí)快速提升兩個(gè)數(shù)量級(jí)至1000萬(wàn)小時(shí)的關(guān)鍵原因,類比特斯拉通過量產(chǎn)車輛,讓司機(jī)邊開車邊反饋數(shù)據(jù),無(wú)須專門組建采集車隊(duì),就能實(shí)現(xiàn)大規(guī)模數(shù)據(jù)積累。
環(huán)境式采集的數(shù)據(jù)質(zhì)量核心優(yōu)勢(shì)在于“真實(shí)性與場(chǎng)景完整性”——數(shù)據(jù)源于真實(shí)工作生活場(chǎng)景,能完整還原實(shí)際操作中的各類細(xì)節(jié)與變量,避免了仿真數(shù)據(jù)的理想化偏差和遙操數(shù)據(jù)的場(chǎng)景局限性。盡管未給出具體百分比提升,但從應(yīng)用價(jià)值來(lái)看,真實(shí)場(chǎng)景數(shù)據(jù)更能反映實(shí)際需求,為模型訓(xùn)練提供更精準(zhǔn)、更可靠的支撐,其質(zhì)量?jī)?yōu)勢(shì)遠(yuǎn)非人工設(shè)計(jì)的仿真數(shù)據(jù)或局限于實(shí)驗(yàn)室的遙操數(shù)據(jù)可比。
02
開悟世界模型3.0的開源策略
作為首個(gè)“多模態(tài)理解—生成—預(yù)測(cè)”的世界模型,開悟世界模型3.0通過視覺、3D軌跡、觸覺、摩擦力等多維度信息輸入,深度理解真實(shí)世界的物理規(guī)律與人類行為的底層邏輯,讓模型能形成“知其然,知其所以然”的思維鏈。
![]()
基于多模態(tài)信息的深度融合,模型可生成長(zhǎng)時(shí)動(dòng)態(tài)交互場(chǎng)景視頻,在場(chǎng)景內(nèi)實(shí)現(xiàn)各元素精準(zhǔn)可控;并具備跨本體一鍵生成、多本體泛化、預(yù)測(cè)萬(wàn)千演化路徑等特性,為具身智能提供高保真、可泛化的虛擬訓(xùn)練環(huán)境。
![]()
基于上述優(yōu)勢(shì),大曉機(jī)器人打造了開悟具身智能世界模型產(chǎn)品平臺(tái),并于12月18日正式發(fā)布。開悟具身智能世界模型產(chǎn)品平臺(tái)集成“文生世界、像驅(qū)世界、跡塑世界”等多模態(tài)生成能力,內(nèi)置支持11大類、54細(xì)類,累計(jì)328個(gè)標(biāo)簽,覆蓋115個(gè)垂類具身場(chǎng)景,開發(fā)者只需輸入簡(jiǎn)單指令,就能快速生成可視化的任務(wù)模擬內(nèi)容,并可一鍵分享,大幅降低具身智能的開發(fā)門檻。
王曉剛介紹,世界模型3.0實(shí)行“云服務(wù)產(chǎn)品+開源生態(tài)”雙軌模式。在云服務(wù)平臺(tái)上,用戶可通過網(wǎng)頁(yè)訪問,創(chuàng)作、分享視頻、機(jī)械臂參數(shù)等各類機(jī)器人相關(guān)數(shù)據(jù),形成“創(chuàng)作—共享”的生態(tài)閉環(huán)。平臺(tái)通過提供算力、存儲(chǔ)等服務(wù)實(shí)現(xiàn)商業(yè)化變現(xiàn),憑借成熟的產(chǎn)品化設(shè)計(jì),吸引有數(shù)據(jù)創(chuàng)作、共享需求的用戶付費(fèi)使用。
開源則是通過生態(tài)共建反哺商業(yè)化。通過降低適配門檻,方便開發(fā)者進(jìn)行軟硬件適配,助力技術(shù)快速普及,同時(shí)收集更多用戶反饋,推動(dòng)模型快速迭代。當(dāng)前國(guó)產(chǎn)化芯片成為主流趨勢(shì),開源模型能吸引芯片廠商適配,模型影響力越大,對(duì)芯片公司的價(jià)值越高,進(jìn)而形成“模型—芯片”的協(xié)同生態(tài),提升自身行業(yè)話語(yǔ)權(quán);開源還能吸引更多用戶參與數(shù)據(jù)創(chuàng)作,用戶上傳的初始照片、任務(wù)指令等數(shù)據(jù),為世界模型提供豐富的場(chǎng)景素材,解決數(shù)據(jù)“無(wú)中生有”的問題,進(jìn)一步強(qiáng)化模型核心競(jìng)爭(zhēng)力。
這種模式既通過云服務(wù)實(shí)現(xiàn)短期商業(yè)化收益,又借助開源構(gòu)建長(zhǎng)期生態(tài)壁壘,實(shí)現(xiàn)了商業(yè)價(jià)值與技術(shù)影響力的雙贏。
開源的重要性對(duì)芯片公司同樣重要。王曉剛提到,大曉機(jī)器人跟不同芯片公司合作時(shí),因?yàn)楦鞴镜捻攲蛹軜?gòu)軟件都不一樣,形成了很大壁壘。“如果大家能夠基于開源的影響力,一起開發(fā)、聯(lián)合優(yōu)化,效率會(huì)大大提升,壁壘會(huì)降低很多。”
03
機(jī)器人產(chǎn)業(yè)發(fā)展尚在早期,有期待但要依規(guī)律而行
王曉剛坦言,目前機(jī)器人的開發(fā)處于行業(yè)發(fā)展初期,雖然產(chǎn)品形態(tài)相對(duì)明確,但市場(chǎng)規(guī)模仍較為有限,有在企業(yè)展廳做展示的,也有做研發(fā)的平臺(tái),在起步階段,主要是起到普及作用,讓公眾了解機(jī)器人什么能做、什么不能做。“這與人工智能發(fā)展早期是一樣的。新技術(shù)推出的第一步是做POC,先拿著玩一玩,再量產(chǎn),一旦價(jià)值被驗(yàn)證后就可以實(shí)現(xiàn)規(guī)模化。目前還處于用戶體驗(yàn)與價(jià)值驗(yàn)證的初期環(huán)節(jié)。”
在對(duì)行業(yè)現(xiàn)有機(jī)器人的拆解中,大曉機(jī)器人團(tuán)隊(duì)發(fā)現(xiàn),硬件本身存在很多缺陷。比如傳感器的視野范圍狹窄,機(jī)器狗加載現(xiàn)有的傳感器,能夠看到的范圍非常窄,過馬路時(shí)不知道選擇哪一條,也看不到紅綠燈。機(jī)器狗也有跟隨的功能,視野范圍現(xiàn)在都是120°,如果超出這個(gè)范圍,機(jī)器狗就無(wú)法跟隨。大曉機(jī)器人做的是360°的UWB信號(hào),主人往任何地方走,它都能跟上,所以硬件首先要滿足場(chǎng)景功能上的需求,擁有空間自主能力。
從大眾的期待來(lái)看,人們一直在期待通用型的機(jī)器人。王曉剛說:“這是漸進(jìn)的過程,一個(gè)機(jī)器人能把不同領(lǐng)域的事情做好目前不太可能,但是在一個(gè)領(lǐng)域里盡可能地通用化就很了不起,能夠產(chǎn)生巨大的價(jià)值。”機(jī)器人可以在底層共享知識(shí),比如對(duì)世界的理解、思維鏈等,世界模型的能力可以讓每個(gè)垂直領(lǐng)域的機(jī)器人都受益。工業(yè)機(jī)器人基于物理模型以及多年的規(guī)則積累和特定任務(wù),可靠性高,但是通用性差一些,在一些柔性產(chǎn)線,需要機(jī)器人具備一定通用化的能力,這就是今天機(jī)器人發(fā)展的機(jī)會(huì)所在。
目前,大曉機(jī)器人的方案還會(huì)持續(xù)迭代,不斷降低成本。王曉剛說,目前還要尋找更便宜的國(guó)產(chǎn)化芯片,降低功耗,“軟硬一體的設(shè)計(jì)要跟場(chǎng)景緊密結(jié)合。”
04
四大關(guān)鍵要素決定機(jī)器人產(chǎn)業(yè)大規(guī)模應(yīng)用時(shí)間
貝恩公司在《全球人形機(jī)器人產(chǎn)業(yè)趨勢(shì)洞察》中,將人形機(jī)器人功能的核心模塊分為以下幾部分:跟大腦決策相關(guān)的智能模塊,跟人類五官相關(guān)的感知模塊,跟物理世界外部環(huán)境交互、期望能夠?qū)崿F(xiàn)高精度模擬人類動(dòng)作的操控模塊以及電池動(dòng)力模塊。
貝恩公司董事經(jīng)理趙天辰認(rèn)為:“從技術(shù)角度,以達(dá)到人類平均水平為目標(biāo),人形機(jī)器人在智能和感知模塊還需要大概3年的時(shí)間。操控和電池模塊,需要5—10年的時(shí)間。”
在智能模塊中,利用通用人工智能大模型的機(jī)器人,基礎(chǔ)推理能力已經(jīng)超過人類水平,但實(shí)際場(chǎng)景結(jié)合任務(wù)要求和外部場(chǎng)景感知,實(shí)現(xiàn)低錯(cuò)誤率和自主決策還是低于人類水平。在感知模塊,動(dòng)態(tài)識(shí)別延遲以及跟人類物理場(chǎng)景互動(dòng)及時(shí)性,距離人類還有差距。在操控模塊,人形機(jī)器人在關(guān)節(jié)自由度和靈活度已經(jīng)接近和超過人類水平,但在實(shí)際運(yùn)動(dòng)過程中,運(yùn)動(dòng)穩(wěn)定性、任務(wù)執(zhí)行過程中低錯(cuò)誤率遠(yuǎn)遠(yuǎn)低于人類水平。在電池動(dòng)力模塊,主流的全球頭部人形機(jī)器人單塊電池使用時(shí)間,還遠(yuǎn)遠(yuǎn)沒有達(dá)到期望的8小時(shí)甚至更高水平,未來(lái)在能量密度提升或換電技術(shù)上有望進(jìn)一步突破。
人形機(jī)器人下一步大規(guī)模部署會(huì)發(fā)生在什么時(shí)間,什么行業(yè)?貝恩公司大中華區(qū)高科技業(yè)務(wù)主席成鑫說,取決于四個(gè)關(guān)鍵方面。
第一,投資產(chǎn)出。現(xiàn)在機(jī)器人成本較高,全球領(lǐng)先的型號(hào)制作成本至少在5萬(wàn)美元以上,還沒有算日常維護(hù)、運(yùn)營(yíng)的成本,這個(gè)成本顯然是沒有競(jìng)爭(zhēng)力的,不管放在什么環(huán)境之下。所以首先看整體研發(fā)制造的成本在何時(shí)能達(dá)到合理水平。
第二,技術(shù)成熟度。在智能、感知、操作、動(dòng)力等方面,還要突破一些技術(shù)。成鑫認(rèn)為,目前沒有無(wú)法逾越的技術(shù)障礙,更多是時(shí)間問題。“解決這些問題都有成本,比如操控部分,靈巧手的自由度方向有25—30個(gè),但現(xiàn)在機(jī)器人能做到5個(gè)7個(gè)就不錯(cuò)了,說明它能做的范圍還是比較有限,以此類推在智能感知領(lǐng)域、動(dòng)力領(lǐng)域都有很多問題。”
第三,需求迫切性。有些行業(yè)并不一定非得要用機(jī)器人,主要還是在勞動(dòng)力比較短缺、任務(wù)比較危險(xiǎn)的領(lǐng)域。這樣的行業(yè)到底有多少是一個(gè)比較大的問題。現(xiàn)在很多行業(yè)業(yè)務(wù)模式也在變,未來(lái)5—10年是否像現(xiàn)在一樣還未可知。
第四,風(fēng)險(xiǎn)承受力。成鑫說:“企業(yè)能否接受機(jī)器人,還存在安全、隱私和數(shù)據(jù)問題,以及人類的自然心理問題。在護(hù)理、養(yǎng)老場(chǎng)景,如果護(hù)工變成機(jī)器人,大家心理上能夠接受嗎?”
上述要件都決定了機(jī)器人能不能,以及在什么時(shí)候、哪些領(lǐng)域進(jìn)行普及。成鑫建議,看機(jī)器人產(chǎn)業(yè)發(fā)展時(shí),可以圍繞上述四個(gè)方面去觀察。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.