![]()
銀河通用聯(lián)合創(chuàng)始人兼大模型負(fù)責(zé)人張直政,千尋智能聯(lián)席首席科學(xué)家解浚源,自變量機(jī)器人創(chuàng)始人兼CEO王潛,清華大學(xué)助理教授、星海圖首席科學(xué)家趙行,傅利葉智能創(chuàng)始人兼首席執(zhí)行官顧捷,加速進(jìn)化副總裁趙維晨,北京人形機(jī)器人創(chuàng)新中心CTO唐劍……
當(dāng)人形機(jī)器人領(lǐng)域的這些活躍人物,出現(xiàn)在云棲大會(huì)同一場(chǎng)活動(dòng)——2025阿里云具身智能行業(yè)論壇,氣氛變得微妙起來(lái)。
一方面,他們對(duì)一個(gè)終極愿景抱有高度共識(shí):讓機(jī)器人能在家庭和工業(yè)場(chǎng)景中自如完成各類任務(wù),最終邁向通用人工智能的“圣杯”。
然而,當(dāng)話題轉(zhuǎn)向“如何抵達(dá)”這一現(xiàn)實(shí)路徑時(shí),瞬間呈現(xiàn)出緊張感,各家的嘗試天馬行空,甚至互不兼容。
有人認(rèn)為仿真數(shù)據(jù)能解決99%的問(wèn)題,也有人直言最核心的數(shù)據(jù)必須源于現(xiàn)實(shí)世界;有人推崇端到端的統(tǒng)一模型,也有人主張分層系統(tǒng)更為實(shí)際,還有人試圖跳出非此即彼的框架:“別爭(zhēng)了,其實(shí)可以整合到一起。”
就連并未參會(huì)的王興興,也因不久前在另一場(chǎng)大會(huì)上提出的爭(zhēng)議觀點(diǎn),被“請(qǐng)”到了臺(tái)前。
這其實(shí)是一件很有意思且極為重要的事。技術(shù)路徑的分化,標(biāo)志著一個(gè)更具深度的探索階段的到來(lái)。而在這個(gè)過(guò)程中出現(xiàn)的每一條岔路,都可能藏著通向終極答案的鑰匙。
![]()
![]()
數(shù)據(jù)之爭(zhēng)
真機(jī)數(shù)據(jù)還是仿真合成數(shù)據(jù)?
與文本、圖像等可輕松抓取的互聯(lián)網(wǎng)數(shù)據(jù)不同,具身智能依賴的是機(jī)器人與物理世界交互的行為數(shù)據(jù)。
這類數(shù)據(jù)天然稀缺、獲取門(mén)檻極高,已成為行業(yè)共識(shí),但如何破解這一瓶頸成了“非共識(shí)”的問(wèn)題。于是,便有了“真機(jī)數(shù)據(jù)采集”與“仿真數(shù)據(jù)生成”之爭(zhēng)。
第一位上臺(tái)分享的銀河通用張直政,堅(jiān)定地站在仿真合成數(shù)據(jù)一方——這兩天湖濱步行街開(kāi)出的杭州首家機(jī)器人售賣(mài)店,便是這家公司的商業(yè)化嘗試。他認(rèn)為以仿真數(shù)據(jù)為主導(dǎo)的路線,不僅能實(shí)現(xiàn)千倍訓(xùn)練效率的提升,長(zhǎng)期來(lái)看也更具可行性與性價(jià)比優(yōu)勢(shì)。

銀河通用機(jī)器人貨架取商品
年初,銀河通用就已發(fā)布完全基于仿真合成大數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的具身大模型,目前生產(chǎn)出10億級(jí)別的仿真合成數(shù)據(jù),據(jù)說(shuō)內(nèi)部已經(jīng)進(jìn)一步將數(shù)量級(jí)擴(kuò)大至百億和千億級(jí)別。
![]()
沒(méi)有對(duì)上一位演講嘉賓的直接反駁,PPT一放,千尋智能解浚源的立場(chǎng)已不言自明:其中一頁(yè)的標(biāo)題寫(xiě)著:“唯有高質(zhì)量的真實(shí)數(shù)據(jù)才能訓(xùn)練出世界領(lǐng)先的模型。”
![]()
這家?guī)в姓愦?清華基因的公司,構(gòu)建了一套三級(jí)訓(xùn)練體系:先用海量互聯(lián)網(wǎng)視頻預(yù)訓(xùn)練為系統(tǒng)注入先驗(yàn)認(rèn)知,再通過(guò)真實(shí)機(jī)器人采集的模仿學(xué)習(xí)數(shù)據(jù)進(jìn)行動(dòng)作映射,最后通過(guò)強(qiáng)化學(xué)習(xí)將完成度推向接近完美。
真實(shí)數(shù)據(jù)從哪里來(lái)?解浚源展示了其中兩種采集方式:一是遙操作(量小但質(zhì)量高),二是自研可穿戴機(jī)械臂(更靈活,成本僅遙操1/20)。

千尋機(jī)器人Moz1展示S型壓彎
同樣堅(jiān)持真機(jī)數(shù)據(jù)為主導(dǎo)路線的,還有星海圖。這家公司新近發(fā)布的G0模型,便是基于100%開(kāi)放的真實(shí)世界數(shù)據(jù)進(jìn)行訓(xùn)練:機(jī)器人被放在漢庭、如家、711、羅森等真實(shí)場(chǎng)景,自主采集人類行為數(shù)據(jù),并完成一系列復(fù)雜任務(wù)。
真機(jī)數(shù)據(jù)>互聯(lián)網(wǎng)數(shù)據(jù)>仿真數(shù)據(jù),趙行現(xiàn)場(chǎng)還給數(shù)據(jù)價(jià)值排了個(gè)序。
一場(chǎng)論壇遠(yuǎn)不足以平息這場(chǎng)持續(xù)已久的數(shù)據(jù)之爭(zhēng)。什么樣的“數(shù)據(jù)配方”才是最理想的虛實(shí)比例?只有等待后續(xù)實(shí)踐去揭曉了。
![]()
模型之問(wèn)
大模型如何賦能具身智能?
具身智能的“智”,究竟要怎么衡量?
解讀的維度很多:比如空間智能(對(duì)于位置、距離和環(huán)境的精準(zhǔn)感知),時(shí)間智能(記憶過(guò)去、預(yù)測(cè)未來(lái)),又比如執(zhí)行智能(拆解復(fù)雜任務(wù)并自主執(zhí)行),泛化能力(將所學(xué)遷移到新場(chǎng)景),等等。
當(dāng)下一個(gè)熱門(mén)的解決方案,就是VLA(視覺(jué)-語(yǔ)言-動(dòng)作)端到端模型。它試圖讓機(jī)器人通過(guò)攝像頭“看見(jiàn)”世界,通過(guò)自然語(yǔ)言“聽(tīng)懂”人的指令,并直接執(zhí)行相應(yīng)“動(dòng)作”,從而構(gòu)建起“感知-理解-決策-執(zhí)行”的閉環(huán)。
“除此之外,還有大小腦分層架構(gòu)、世界模型,目前技術(shù)路線尚未收斂,并行探索。”北京大學(xué)計(jì)算機(jī)學(xué)院研究員仉尚航現(xiàn)場(chǎng)對(duì)這三類主流算法路徑,做了一個(gè)梳理。
大腦+小腦分層路線,采用多模態(tài)大模型作為“大腦”負(fù)責(zé)高層決策與推理,配以專門(mén)的“小腦”模型處理底層運(yùn)動(dòng)控制,通過(guò)分層協(xié)作實(shí)現(xiàn)更強(qiáng)的任務(wù)處理能力。世界模型路線,則代表更前沿的探索,旨在構(gòu)建對(duì)物理世界的完整建模,通過(guò)預(yù)測(cè)未來(lái)狀態(tài)來(lái)優(yōu)化動(dòng)作決策。
現(xiàn)場(chǎng)的自變量和星海圖,恰好分別代表了端到端與分層模型兩種方向。前者將視覺(jué)、語(yǔ)言、觸覺(jué)、動(dòng)作等所有模態(tài)信息,納入一個(gè)模型處理;后者則采用“大腦”+“小腦”,一方面減輕算法負(fù)擔(dān),另一方面也更符合人體結(jié)構(gòu)。

星海圖機(jī)器人疊被子
并未參會(huì)的王興興,因此前在2025世界機(jī)器人大會(huì)上的觀點(diǎn),在圓桌環(huán)節(jié)意外被cue。當(dāng)時(shí),他在公開(kāi)演講中表示,機(jī)器人數(shù)據(jù)被過(guò)分關(guān)注了,“現(xiàn)在最大的問(wèn)題是模型,并不是數(shù)據(jù)問(wèn)題。”同時(shí),他對(duì)大熱門(mén)的VLA持較為懷疑態(tài)度,認(rèn)為這就是一個(gè)“相對(duì)傻瓜式的架構(gòu)”,在和真實(shí)世界交互時(shí),數(shù)據(jù)質(zhì)量、能采集的數(shù)據(jù)都不太夠用。
有趣的是,剛才還在為端到端與分層路線交鋒的嘉賓,此時(shí)卻立場(chǎng)一致,或委婉或直接地表達(dá)了對(duì)這一觀點(diǎn)的不認(rèn)同。
文 | 童蔚
VIEW MORE
@時(shí)隔8年,又一位未來(lái)“預(yù)言家”來(lái)杭州開(kāi)講 >>
@彈鋼琴是為了更好地洗碗? >>
@今天,阿里一號(hào)位分享了他自己編排的PPT >>
@ 杭州這個(gè)創(chuàng)業(yè)社區(qū),專門(mén)孵化“一人公司”>>
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.