陶大程院士在臺(tái)上展示了一段機(jī)器狗在復(fù)雜工廠環(huán)境中自主避障巡檢的視頻。他平靜地解釋道,這背后依賴的不是預(yù)編程地圖,而是模型對(duì)物理世界的“常識(shí)性”理解。“它知道一個(gè)晃動(dòng)的貨箱可能會(huì)傾倒,所以會(huì)選擇繞行,而不是等它砸下來(lái)。”
![]()
大曉機(jī)器人(ACE ROBOTICS)的發(fā)布會(huì)被布置得像一場(chǎng)學(xué)術(shù)研討會(huì)。沒(méi)有炫酷的人形機(jī)器人跳舞,沒(méi)有未來(lái)感的CG渲染。臺(tái)上PPT的關(guān)鍵詞是“數(shù)據(jù)缺口”、“物理規(guī)律”、“世界模型”。商湯科技聯(lián)合創(chuàng)始人、大曉董事長(zhǎng)王曉剛和首席科學(xué)家陶大程,用近乎冷酷的理性,剖析著當(dāng)前具身智能行業(yè)最深的隱痛。
他們拋出了一個(gè)令人不安的對(duì)比:在智能駕駛領(lǐng)域,特斯拉FSD V14 借助世界模型,每日訓(xùn)練量相當(dāng)于人類400萬(wàn)小時(shí)駕駛經(jīng)驗(yàn)。而整個(gè)具身智能行業(yè)擁有的真機(jī)數(shù)據(jù),僅為可憐的10萬(wàn)小時(shí)。
“這是個(gè)斷崖式的缺口。”陶大程說(shuō)。這意味著,按照傳統(tǒng)“有多少人工,才有多少智能”的路徑,想讓機(jī)器人學(xué)會(huì)疊衣服、抓取生鮮,可能需要人類遙控操作數(shù)百年。
在這場(chǎng)關(guān)于機(jī)器人“智力”的競(jìng)賽中,最大的瓶頸不是算力,而是喂養(yǎng)AI的“物理世界經(jīng)驗(yàn)”。大曉機(jī)器人試圖用一種近乎“作弊”的方式,繞過(guò)這個(gè)看似無(wú)解的死結(jié)。
01 “為難人”與“為難機(jī)器”:現(xiàn)有路徑的“死胡同”
在發(fā)布會(huì)上,大曉的科學(xué)家團(tuán)隊(duì)毫不留情地“炮轟”了行業(yè)現(xiàn)行的兩條主流技術(shù)路徑。
![]()
第一條是 “以機(jī)器為中心”的真機(jī)遙操。工程師需要為每一款不同的機(jī)器人本體,進(jìn)行海量的真人遠(yuǎn)程操控?cái)?shù)據(jù)采集。“這本質(zhì)上是‘為難人’。”陶大程指出,它成本極高、效率極低,產(chǎn)出的“智能”被牢牢綁定在特定硬件上,毫無(wú)通用性可言。
第二條是特斯拉、Figure AI等正在探索的 “純視覺(jué)學(xué)習(xí)”。讓機(jī)器人像嬰兒一樣,單純通過(guò)觀看海量人類視頻來(lái)學(xué)習(xí)動(dòng)作。“這本質(zhì)上是‘為難機(jī)器’。”這種路徑缺乏對(duì)三維物理世界力學(xué)規(guī)律、觸覺(jué)反饋和動(dòng)作意圖的理解,如同讓人只看無(wú)聲默片學(xué)開(kāi)飛機(jī),存在巨大的“現(xiàn)實(shí)鴻溝”。
“這兩條路,一條把智能禁錮在軀殼里,另一條讓智能飄在幻象中。”一位現(xiàn)場(chǎng)的技術(shù)觀察者如此總結(jié)。它們共同的困境,在于無(wú)法理解“人所處世界的物理規(guī)律和人類行為的因果一致性”。
當(dāng)行業(yè)巨頭們?cè)趦蓷l“死胡同”里投入重金時(shí),大曉選擇回到最原點(diǎn)提問(wèn):我們到底需要教會(huì)機(jī)器人什么?答案是:不是具體的動(dòng)作,而是理解動(dòng)作背后的“物理常識(shí)”。
02 ACE范式:“以人為中心”的數(shù)據(jù)革命
大曉的答案,是他們首創(chuàng)的“以人為中心”(Human-centric)的ACE具身研發(fā)范式。這個(gè)拗口的名詞,核心是一場(chǎng)數(shù)據(jù)生產(chǎn)方式的革命。
![]()
其關(guān)鍵在于“環(huán)境式數(shù)據(jù)采集”。技術(shù)團(tuán)隊(duì)不再圍著機(jī)器人轉(zhuǎn),而是圍繞“人”來(lái)構(gòu)建一套精密的采集系統(tǒng)。通過(guò)佩戴在頭、手、身體的跨視角多模態(tài)設(shè)備,融合視覺(jué)、觸覺(jué)、語(yǔ)音、力學(xué)數(shù)據(jù),物理級(jí)地建模人類與物體、場(chǎng)景(“人-物-場(chǎng)”)的每一次交互。
“我們采集的不是‘機(jī)器人該如何抓杯子’的數(shù)據(jù),而是‘人類的手在抓不同材質(zhì)、形狀、重量的杯子時(shí),肌肉如何發(fā)力、觸覺(jué)如何反饋、視線如何移動(dòng)’的全套物理規(guī)律。”一位研發(fā)人員解釋道。
基于這套高保真、全要素的“人類行為物理數(shù)據(jù)庫(kù)”,大曉訓(xùn)練出其核心武器——開(kāi)悟世界模型3.0。
這不是一個(gè)單純的動(dòng)作模仿模型,而是一個(gè)“多模態(tài)理解-生成-預(yù)測(cè)”的 “物理規(guī)律模擬器”。它不僅能根據(jù)指令生成逼真的交互視頻,更能“預(yù)測(cè)”一個(gè)動(dòng)作可能引發(fā)的無(wú)數(shù)種物理后果。比如,它能推演出“推倒一個(gè)半滿的紙箱”與“推倒一個(gè)裝滿金屬零件的紙箱”會(huì)產(chǎn)生怎樣不同的軌跡和結(jié)果。
這意味著,開(kāi)發(fā)者可以在模型生成的、符合物理規(guī)律的無(wú)限虛擬場(chǎng)景中訓(xùn)練機(jī)器人,而無(wú)需消耗寶貴的真機(jī)時(shí)間和高昂的試錯(cuò)成本。 大曉宣稱,這一范式能將數(shù)據(jù)采集效率提升至“一年千萬(wàn)小時(shí)”,并通過(guò)世界模型放大,達(dá)到“上億小時(shí)”的訓(xùn)練效果。
![]()
03 “超級(jí)大腦”模組與開(kāi)放生態(tài):從實(shí)驗(yàn)室到工廠的“最后一公里”
有了理解物理世界的“靈魂”,還需要能自主行動(dòng)的“身體”。大曉發(fā)布了 “具身超級(jí)大腦模組A1” ,將其定義為機(jī)器人的“小腦”和“腦干”。
![]()
這個(gè)模組的核心能力是“純視覺(jué)無(wú)圖端到端”的自主移動(dòng)與決策。搭載A1的機(jī)器狗,無(wú)需預(yù)先采集高精地圖,就能在動(dòng)態(tài)、陌生的復(fù)雜環(huán)境(如工廠、電站)中,實(shí)時(shí)理解自然語(yǔ)言指令(如“去檢查第三號(hào)設(shè)備柜的左側(cè)”),并規(guī)劃出安全合理的路徑。
![]()
“它知道一個(gè)晃動(dòng)的貨箱可能會(huì)傾倒,所以會(huì)選擇繞行。”陶大程用這個(gè)例子說(shuō)明,基于世界模型的“常識(shí)”已灌注到實(shí)時(shí)決策中。
更具戰(zhàn)略眼光的,是大曉的 “開(kāi)放生態(tài)”布局。他們不僅將開(kāi)悟世界模型3.0開(kāi)源,更宣布已與沐曦、壁仞等國(guó)產(chǎn)芯片,智元、銀河通用等機(jī)器人本體公司,以及騰訊云、火山引擎等云服務(wù)商達(dá)成深度合作。
![]()
這構(gòu)建了一個(gè)清晰的產(chǎn)業(yè)分工:大曉專注于提供最底層的“世界模型”和“智能模組”(大腦),而芯片商、硬件商、場(chǎng)景方則各司其職,共同完成落地。 這規(guī)避了機(jī)器人公司“既要造大腦,又要造身體,還要找場(chǎng)景”的全棧重負(fù),試圖以“操作系統(tǒng)”般的角色,加速整個(gè)產(chǎn)業(yè)的商業(yè)化進(jìn)程。
結(jié)語(yǔ)
大曉機(jī)器人的發(fā)布會(huì)沒(méi)有提供關(guān)于“機(jī)器人何時(shí)進(jìn)入家庭”的樂(lè)觀時(shí)間表。相反,它用嚴(yán)謹(jǐn)甚至略顯枯燥的技術(shù)語(yǔ)言,揭示了通往通用具身智能道路上最堅(jiān)實(shí)的一塊絆腳石——物理常識(shí)的缺失,以及填充這一空白所需的、海量且高質(zhì)量的“物理交互數(shù)據(jù)”。
![]()
當(dāng)同行們或沉醉于讓機(jī)器人復(fù)刻人類舞蹈,或執(zhí)著于真機(jī)在實(shí)驗(yàn)室完成特定任務(wù)時(shí),大曉選擇了一條更底層、更艱難,但也可能更根本的路徑:先讓AI透徹地理解重力、摩擦力、材質(zhì)剛度、動(dòng)量守恒,理解人類意圖與物理結(jié)果之間的因果鏈條。
王曉剛在結(jié)尾說(shuō):“我們的使命是讓機(jī)器人擁有聰明的‘大腦’和有趣的‘靈魂’。” 而這場(chǎng)發(fā)布會(huì)讓人們看到,所謂“有趣的靈魂”,其基礎(chǔ)恰恰是對(duì)枯燥物理定律的深刻敬畏與精準(zhǔn)建模。
![]()
這場(chǎng)競(jìng)賽的終局,或許不屬于那些能最快做出炫酷Demo的公司,而屬于那些能最有效率地教會(huì)AI理解我們所在的這個(gè)粗糙、復(fù)雜、充滿意外,但又嚴(yán)格遵循規(guī)律的三維物理世界的“授業(yè)者”。大曉的ACE范式,正是一次成為“授業(yè)者”的野心嘗試。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.