2026年3月29日下午5點(diǎn),在我們抵達(dá)深圳科創(chuàng)學(xué)院四樓時(shí),參加“全球首屆具身智能開發(fā)者大會”的20組選手,已經(jīng)在這里持續(xù)開發(fā)了60個小時(shí)。
現(xiàn)場彌漫著一股咖啡混合著冷氣的味道,隨處可見沒吃完的奶茶和果切,樓道里和墻角支著一個個帳篷,有選手在里面補(bǔ)覺,“前一天熬到凌晨4點(diǎn)”。
![]()
圖片由智能涌現(xiàn)拍攝
和開發(fā)應(yīng)用/軟件的黑客松不同,在這場具身智能開發(fā)者大會上,看得見的,有近百臺高性能六軸機(jī)械臂;看不見的,背后還有100+ PFLOPs的算力支持,以及自變量WALL-OSS、Pi0.5、英偉達(dá)DreamZero等開源基模可供選擇。
![]()
圖片由官方提供
“就沒打過這么富裕的仗!”在B站有33萬粉絲的“同濟(jì)子豪兄”,在看到主辦方提供的賽事支持后這樣感慨。
參賽選手幾乎清一色的00后。現(xiàn)場一支名為“MVP”的隊(duì)伍在當(dāng)天暫列第一,隊(duì)長是一名連續(xù)創(chuàng)業(yè)者,有豐富的大賽經(jīng)驗(yàn),稱自己“自備5090GPU和多款機(jī)械臂”,另外兩名隊(duì)員分別來自深圳大學(xué)和香港科技大學(xué)。
選手要做的,是在三天時(shí)間里,通過采集數(shù)據(jù)、適配算法,讓機(jī)械臂盡可能實(shí)現(xiàn)單個任務(wù)的執(zhí)行成功,比如把草莓蘋果裝進(jìn)不同的籃子;或者是識別物體后,用字母積木拼出該物體的英文名稱,還有更難的——把type-C線插進(jìn)端口。
“之前我們叫全球首屆,還擔(dān)心太大了,后來看了看,確實(shí)不管國內(nèi)還是國外,都不曾有過這樣規(guī)模的比賽。”作為主辦方,自變量機(jī)器人創(chuàng)始人&CEO王潛在決賽日的發(fā)言中說。
72小時(shí)內(nèi),選手需要教會機(jī)械臂識別環(huán)境、做決策、懂操作,難度頗高。王潛自己也說,“這事兒上手確實(shí)挺難”,但他也提到,把參賽時(shí)間極致壓縮,能推大家一把。
![]()
自變量創(chuàng)始人王潛
回歸真實(shí)
具身智能,當(dāng)下有一個癥結(jié):“假”。
你看到的很多機(jī)器人進(jìn)廠打工擰螺絲,或者在零售場景下取貨收款,都是在設(shè)定好程序、環(huán)境前提下的擺拍,一旦換個場地、光線,機(jī)器人便手足無措。
大賽也“不夠真”。自變量CTO王昊就對《智能涌現(xiàn)》說,行業(yè)目前幾類賽事,有的提供純仿真環(huán)境,雖然能控制變量,讓參賽者更易上手,但離現(xiàn)實(shí)世界太遠(yuǎn);還有的賽事只給選手提供數(shù)據(jù),但所有評測過程均由主辦方完成。
“我們允許選手采集數(shù)據(jù)和修改硬件和各種環(huán)境配置,讓大家在模型泛化性上充分理解。”王昊說。
此次比賽設(shè)立A/B榜,選手需要從套環(huán)(抓取)、按指令分類水果(語言理解)、插電源線(精細(xì)操作)、拼寫單詞(長時(shí)序決策)四個中,選擇針對一個任務(wù)持續(xù)攻關(guān)。
而A/B榜的差異是,A榜中,選手可以按照自己設(shè)定好的環(huán)境、任務(wù),完成指定動作即可;但B榜,需要按照完全隨機(jī)的環(huán)境,讓機(jī)器完成任務(wù)。
舉個例子,A榜里的套環(huán),選手可以把木環(huán)放在套桿左邊,一直按照同一個位置,讓機(jī)械臂識別并完成套取;但在B榜里,審核員會隨機(jī)把木環(huán)放在任何位置,還會改變燈光、桌面顏色等環(huán)境指征,看機(jī)器能否在隨機(jī)條件下完成任務(wù)。
也就是說,A榜像開卷考試,考察的是選手對同一個題型的復(fù)刻能力、穩(wěn)定性;但B榜,就是用純黑盒的題型,考驗(yàn)選手訓(xùn)練的模型究竟有多少“泛化性”。
設(shè)立A/B榜,也是為了讓選手回歸真實(shí),讓選手不單單為了“刷榜”,只使用少量數(shù)據(jù)來優(yōu)化特定場景,忽略了模型整體泛化性。
“這個比賽不想讓大家停留在仿真、虛擬世界的畫面里,而是上手動起來,體驗(yàn)物理世界的復(fù)雜性。”自變量算法合伙人甘如怡說到。
回到現(xiàn)實(shí)
在這場具身智能開發(fā)者大賽中,選手們摸到真實(shí)的機(jī)器,采到真實(shí)環(huán)境下的數(shù)據(jù),得到了真實(shí)場景的模型反饋,具身智能得以回歸真實(shí)。
而下一步,就是讓機(jī)器人的智能,回到現(xiàn)實(shí)。
開發(fā)者黑客松代表的,是技術(shù)極客的想象,但技術(shù),總要落地才有價(jià)值。
這次大賽的四個類目中,套環(huán)考驗(yàn)的抓取能力;按指令分類水果中包含語言理解;插電源線中對柔性物體的精細(xì)操作,以及拼單詞背后的長序決策能力,都是機(jī)器人落地工廠、家庭等現(xiàn)實(shí)場景中必備的能力。
![]()
圖片由官方提供
在這場賽事舉辦前夕,自變量還宣布,與58到家合作,在深圳推出智能保潔服務(wù),讓全球首個機(jī)器人保潔員上崗。
“家庭是具身智能的圣杯,它代表最廣泛、最開放的環(huán)境和任務(wù),解決了家庭任務(wù),就代表模型可以實(shí)現(xiàn)完全泛化。”王昊如此形容。
必須承認(rèn)的一個事實(shí)是,讓機(jī)器人完全替代人類完成保潔,還不現(xiàn)實(shí),在自變量與58到家的演示視頻中,機(jī)器人只能實(shí)現(xiàn)整理物品、清潔桌面等基礎(chǔ)動作,而像收納大件床單這種復(fù)雜動作,還需要和真人協(xié)作完成。
那么,機(jī)器人進(jìn)家庭的時(shí)間,是否應(yīng)該等模型足夠成熟后,再逐步實(shí)現(xiàn)呢?王昊并不認(rèn)同這個結(jié)論。
“一開始就直面最復(fù)雜最開放的場景,才能讓模型智能水平,提升到可以解決豐富場景的能力。”王昊說,“不管從什么時(shí)候開始,越早開始越好。”
不論是開發(fā)者大賽還是機(jī)器人落地,自變量的思路都相當(dāng)一致。
具身智能是一個復(fù)雜的系統(tǒng)性工程,從數(shù)據(jù)、算法、模型工具、訓(xùn)練范式,行業(yè)都沒有一個絕對共識,而自變量的法則是,鼓舞更多的人參與進(jìn)來,在嘗試中,讓模型與智能迭代。
在解釋舉辦比賽的初衷時(shí),王潛也用“openclaw”給臺下的開發(fā)者們舉例:“小龍蝦為什么火,并不是因?yàn)橐蝗簩I(yè)人士在做,而是無數(shù)個人開發(fā)者、無數(shù)小團(tuán)隊(duì)一起,把它推成了一個龐大的生態(tài)。”
“我希望能做到具身智能的平權(quán)。”王潛說。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.