![]()
商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、大曉機器人董事長王曉剛
具身智能一直仰仗的VLA技術(shù)線路,在實際開發(fā)過程中正在面臨越來越多的挑戰(zhàn)。
所謂VLA模型,即視覺-語言-動作模型。它的技術(shù)邏輯可以簡單描述為,將人類指令和外界多模態(tài)信息(聲音、圖像、視頻)轉(zhuǎn)化為計算機語言,繼而控制機器人行為。
但在VLA模型的訓(xùn)練中,互聯(lián)網(wǎng)上的靜態(tài)、非結(jié)構(gòu)化文本和圖像數(shù)據(jù),并不是訓(xùn)練所需的核心數(shù)據(jù)。訓(xùn)練VLA模型需要的具身智能數(shù)據(jù),是連續(xù)的、動態(tài)的、三維甚至四維的時空軌跡流。而物理世界數(shù)據(jù)的稀缺與復(fù)雜性,成為了制約VLA模型能力躍升的主要瓶頸。
“具身智能的大腦,靠讀文章、看圖片永遠不可能理解真實的物理世界。”
商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、大曉機器人董事長王曉剛對筆者表示,AI的研究范式,要從以機器為中心轉(zhuǎn)變成以人為中心,通過采集人類的真實行為數(shù)據(jù),學(xué)習(xí)真實的物理規(guī)律,去訓(xùn)練具身智能的世界模型。
“以人為中心”的ACE范式
12月18日,基于“以人為中心”的研究路徑,大曉機器人推出了ACE具身研發(fā)范式。
具體來講,ACE范式就是以人類與物理世界的互動規(guī)律作為研究起點,以環(huán)境式數(shù)據(jù)采集為引擎,構(gòu)建了一套從“環(huán)境式數(shù)據(jù)采集—開悟世界模型3.0—具身交互”的技術(shù)體系。
在環(huán)境式數(shù)據(jù)采集中,通過整合第一視角與第三視角視頻、力觸覺信息、運動軌跡、語音等多模態(tài)數(shù)據(jù),構(gòu)建基于物理基礎(chǔ)的3D資產(chǎn)庫。
在數(shù)據(jù)處理環(huán)節(jié),通過時序一致性對齊、交互動態(tài)軌跡預(yù)測建模與物理正確性仿真校正,將采集到的“人—物—場”信息轉(zhuǎn)化為可直接用于模型訓(xùn)練的動態(tài)場景數(shù)據(jù)。
![]()
同時,以環(huán)境式采集數(shù)據(jù)為基,大曉機器人發(fā)布了首個開源且商業(yè)化應(yīng)用的世界模型——開悟世界模型3.0,形成跨本體的統(tǒng)一世界理解框架,融合物理規(guī)律、人類行為和真機動作,使機器不僅能“理解”物理世界因果規(guī)律,還能“生成”長時動靜態(tài)交互場景。
“在跟物理世界的交互過程中產(chǎn)生智能,這也是世界模型存在的價值。”
王曉剛對筆者表示,至于模型能否覆蓋更多的場景以及人類的更多的動作,這則是大曉機器人的目標。實現(xiàn)這一切核心的關(guān)鍵是,ACE范式能否實現(xiàn)更大范圍的快速擴展,讓更多的廠商和開發(fā)者使用這種方式采集數(shù)據(jù),產(chǎn)生回流。
模型開源,行業(yè)共建
為了讓ACE范式實現(xiàn)更大范圍內(nèi)的適用,大曉機器人宣布“開悟世界模型3.0”面向全行業(yè)開源。
據(jù)介紹,開悟具身智能世界模型產(chǎn)品平臺集成了多模態(tài)生成能力,內(nèi)置支持11大類、54細類,累計328個標簽,覆蓋115個垂類具身場景,開發(fā)者只需輸入簡單指令,就能快速生成可視化的任務(wù)模擬內(nèi)容,以此降低具身智能的開發(fā)門檻。
在具身本體領(lǐng)域,大曉機器人已攜手智元機器人、銀河通用、鈦虎機器人、國地中心等多家具身智能企業(yè),打通ACE技術(shù)范式、世界模型與機器人硬件的適配鏈路,共同打造適用于不同場景的解決方案。
在算力側(cè),開悟世界模型3.0則與沐曦、壁仞科技、中科曙光、輝曦智能、影微創(chuàng)新等多款國產(chǎn)廠商芯片完成適配。
硬件領(lǐng)域,大曉機器人與Insta360、臥龍電驅(qū)、帕西尼等深度綁定,依托硬件廠商的感知等各類硬件,強化世界模型、模組產(chǎn)品對多視角、動態(tài)場景的信息采集能力。
而在具身智能產(chǎn)品的落地節(jié)奏上,王曉剛則認為:
短期內(nèi),以具備自主導(dǎo)航能力的四足機器狗為主,在安防、巡檢等B端場景快速推廣;中期,機器人會聚焦前置倉、閃購倉等物流場景,解決人力密集型作業(yè)痛點;長期來看,機器人將探索家庭場景,但需解決安全性、責(zé)任界定等復(fù)雜問題。
“從明年開始,國內(nèi)將出現(xiàn)大量前置倉與閃購倉,這類場景需要大量人力支持7×24小時服務(wù),而機器人的加入不僅能提升生產(chǎn)效率,還具備較強的可復(fù)制性,能夠充分發(fā)揮其在這類環(huán)境中的優(yōu)勢。”
王曉剛表示,“以人為中心”的ACE范式,大方向是正確的,特斯拉、Figure AI等企業(yè),也在朝著這個方向轉(zhuǎn)變。“這個賽道還沒到收斂階段,仍在不斷涌現(xiàn)新的機會點,接下來的一到兩年會是非常關(guān)鍵的時期。”(作者 | 科技潛線,文 | 饒翔宇 編輯 | 鐘毅)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.