![]()
當(dāng)世界模型首次在端側(cè)實(shí)現(xiàn)實(shí)時(shí)運(yùn)行,具身智能由此真正邁入可規(guī)模化復(fù)制的階段。
在具身智能浪潮回涌的這兩年,仿真、真機(jī)與人類視頻,始終構(gòu)成數(shù)據(jù)來(lái)源的“鐵三角”。從早期研究對(duì)仿真數(shù)據(jù)的高度依賴,到去年各地真機(jī)數(shù)采中心的集中爆發(fā),再到今年,人類視頻正逐漸走向舞臺(tái)中央,成為驅(qū)動(dòng)模型能力躍遷的關(guān)鍵變量。
4月14日,BeingBeyond(智在無(wú)界)發(fā)布最新具身世界模型Being-H0.7。在將人類視頻規(guī)模擴(kuò)展至 20 萬(wàn)小時(shí)的基礎(chǔ)上,該模型首次將人類視頻學(xué)習(xí)建立在“隱式推理”的世界模型范式上,并在 6 項(xiàng)國(guó)際權(quán)威評(píng)測(cè)中取得綜合第一的成績(jī),進(jìn)一步展示了其在連續(xù)動(dòng)態(tài)場(chǎng)景、流體、柔性物體及復(fù)雜物理交互中的能力邊界。
主頁(yè)鏈接:
https://research.beingbeyond.com/being-h07
論文鏈接:
https://research.beingbeyond.com/projects/being-h07/being-h07.pdf
01
從1000到 20 萬(wàn)小時(shí),
人類視頻路線開(kāi)創(chuàng)者的長(zhǎng)期主義
時(shí)間回到 2025 年,整個(gè)行業(yè)仍沉浸在 Physical Intelligence(PI)系列所帶來(lái)的突破之中。沿著這一范式,各大廠商開(kāi)始大規(guī)模建設(shè)真機(jī)數(shù)據(jù)采集體系,試圖以“更多真實(shí)數(shù)據(jù)”驅(qū)動(dòng)模型能力提升。
但在彼時(shí),智在無(wú)界基于長(zhǎng)期多模態(tài)預(yù)訓(xùn)練的經(jīng)驗(yàn),已率先意識(shí)到這一路徑的內(nèi)在瓶頸:數(shù)據(jù)工廠所產(chǎn)生的樣本,在背景、任務(wù)、物體乃至操作軌跡上高度同質(zhì),容易讓模型過(guò)擬合于封閉環(huán)境,難以泛化到真實(shí)世界的復(fù)雜場(chǎng)景。
幾乎同期,NVIDIA 在 GR00T 中提出“數(shù)據(jù)金字塔”框架,將數(shù)據(jù)劃分為塔尖(真實(shí)數(shù)據(jù))、塔身(合成數(shù)據(jù))與塔底(人類視頻)。當(dāng)行業(yè)仍在加碼“塔尖”時(shí),智在無(wú)界則將目光投向塔底——人類視頻所蘊(yùn)含的規(guī)模與多樣性。
正如其創(chuàng)始人、北京大學(xué)盧宗青教授所判斷:
“人類視頻天然與真實(shí)世界對(duì)齊,其分布式采集帶來(lái)的多樣性,是集中式真機(jī)數(shù)采難以替代的。它更有潛力成為具身模型的核心燃料。”
基于這一判斷,盧宗青與其團(tuán)隊(duì)于2025年 7 月發(fā)布了 Being-H0——全球首個(gè)以大規(guī)模人類視頻為核心預(yù)訓(xùn)練數(shù)據(jù),并成功部署到機(jī)器人系統(tǒng)中的具身模型。將數(shù)據(jù)規(guī)模首次提升至 1000 小時(shí),H0標(biāo)志著“人類視頻驅(qū)動(dòng)具身學(xué)習(xí)”路線的正式確立。
作為這一技術(shù)路線的開(kāi)創(chuàng)者,智在無(wú)界并未止步。僅隔數(shù)月,團(tuán)隊(duì)于今年 1 月推出 Being-H0.5,將規(guī)模擴(kuò)展至 1.5 萬(wàn)小時(shí),成為全球首個(gè)邁入“萬(wàn)小時(shí)級(jí)”人類視頻預(yù)訓(xùn)練的玩家。這一進(jìn)展顯著早于 NVIDIA 的 DreamDojo、EgoScale 及 Generalist AI 的 GEN-1 等后續(xù)工作,體現(xiàn)出團(tuán)隊(duì)在該方向上的前瞻布局。借助人類結(jié)構(gòu)作為通用操作模板,H0.5 已展現(xiàn)出顯著的跨本體、跨場(chǎng)景泛化能力。
4月14日,在Generalist AI推出GEN1不到兩周之時(shí),智在無(wú)界推出的Being-H0.7進(jìn)一步將這一路線推向極致——人類視頻總量提升至 20 萬(wàn)小時(shí),全世界僅有GEN-1達(dá)到這一規(guī)模。
![]()
相比前代H0.5,Being-H0.7 最重要的突破是提出了一種世界模型新范式:基于海量人類視頻,以隱式推理的方式進(jìn)行訓(xùn)練 。
以 NVIDIA 的 Cosmos Policy、DreamZero 等為代表的視頻生成式世界模型路線,通過(guò)“生成未來(lái)畫(huà)面”的方式來(lái)輔助動(dòng)作生成。這類方法能得到不錯(cuò)的可視化結(jié)果,但卻存在兩大局限:其一是計(jì)算開(kāi)銷極高,無(wú)法實(shí)時(shí)端側(cè)部署;其二是2D圖像的生成無(wú)法精確對(duì)真實(shí)物理空間進(jìn)行動(dòng)力學(xué)建模(如流體,柔性物體等),容易停留在“視覺(jué)合理”而非“物理正確”。
作為世界模型,Being-H0.7舍棄了這種低效的動(dòng)力學(xué)建模,其設(shè)計(jì)更貼近人類的行為方式:
在高速運(yùn)動(dòng)中,人類并不會(huì)逐幀預(yù)測(cè)未來(lái)畫(huà)面,而是依賴一種長(zhǎng)期經(jīng)驗(yàn)積累形成的“物理直覺(jué)”——對(duì)運(yùn)動(dòng)趨勢(shì)、受力結(jié)果及操作后果的快速判斷。比如看到迎面而來(lái)的乒乓球時(shí),運(yùn)動(dòng)員不會(huì)在腦海中想象下一秒的所有細(xì)節(jié),而是會(huì)下意識(shí)地調(diào)動(dòng)手臂準(zhǔn)確揮動(dòng)球拍。
為了讓模型具有類似“非想象式”的快速判斷能力,Being-H0.7通過(guò)在模型內(nèi)部引入一塊“思考空間”用于潛空間推理,將當(dāng)前觀察、任務(wù)目標(biāo)以及對(duì)未來(lái)的判斷壓縮到這一中間表示中,再由它統(tǒng)一指導(dǎo)未來(lái)的動(dòng)作生成。
![]()
如果說(shuō)隱式推理為模型提供了理解世界的機(jī)制,那么海量人類視頻則提供了能力的“來(lái)源”。
人類的物理直覺(jué)不僅來(lái)自個(gè)體經(jīng)驗(yàn),也源于物種長(zhǎng)期演化積累的運(yùn)動(dòng)經(jīng)驗(yàn)。對(duì)于模型而言,只有在足夠規(guī)模與多樣性的行為數(shù)據(jù)中,才能內(nèi)化類似的規(guī)律。
基于此,智在無(wú)界構(gòu)建了超過(guò) 20 萬(wàn)小時(shí)的人類操作視頻數(shù)據(jù)。通過(guò)對(duì)海量真實(shí)行為的學(xué)習(xí),模型能夠在潛移默化中捕捉物體運(yùn)動(dòng)規(guī)律、交互模式及失敗邊界,從而形成更穩(wěn)定的泛化能力。
在實(shí)驗(yàn)結(jié)果上,Being-H0.7 在 6 項(xiàng)世界權(quán)威具身評(píng)測(cè)中取得綜合第一(其中 4 項(xiàng)登頂全球榜首)。更關(guān)鍵的是,H0.7的世界理解與交互能力已經(jīng)體現(xiàn)在真實(shí)環(huán)境中:它可以在高速傳送帶上完成動(dòng)態(tài)分揀與上架;跟隨移動(dòng)容器進(jìn)行精確傾倒; 預(yù)測(cè)滑動(dòng)物體軌跡并完成接取;也能在狹小空間內(nèi)完成插入、定量倒液,甚至處理柔性物體等任務(wù)。
02
全球首個(gè)端側(cè)實(shí)時(shí)部署
率先突破世界模型商業(yè)瓶頸
作為具身模型賽道的領(lǐng)頭羊,除了在人類視頻學(xué)習(xí)這一技術(shù)路線上的持續(xù)引領(lǐng),以及在數(shù)據(jù)規(guī)模與模型能力上的長(zhǎng)期領(lǐng)先,智在無(wú)界在模型商業(yè)化部署層面,同樣處于全球第一梯隊(duì)。
早在今年 1 月發(fā)布 Being-H0.5-2B 時(shí),智在無(wú)界便率先實(shí)現(xiàn)了模型在 NVIDIA Jetson Orin NX 端側(cè)算力上的實(shí)時(shí)部署,并順利通過(guò)長(zhǎng)時(shí)間運(yùn)行的穩(wěn)定性驗(yàn)證。即便在今天,依然鮮有國(guó)內(nèi)具身模型公司擁有此項(xiàng)能力。
這一工程能力的背后,是團(tuán)隊(duì)長(zhǎng)期積累的大規(guī)模多模態(tài)預(yù)訓(xùn)練與系統(tǒng)落地經(jīng)驗(yàn)。圍繞實(shí)際部署需求,智在無(wú)界自研了一整套推理優(yōu)化體系,覆蓋模型量化、壓縮蒸餾、CUDA 算子編譯以及異步推理調(diào)度等關(guān)鍵環(huán)節(jié),實(shí)現(xiàn)了從訓(xùn)練到部署的全鏈路打通。
在具身智能賽道上,智在無(wú)界始終堅(jiān)持“兩條曲線”并行推進(jìn):一條是以人類視頻為核心的數(shù)據(jù) Scaling Law,不斷抬升模型理解世界的能力上限; 另一條則是推理成本與延遲曲線,持續(xù)壓縮模型在真實(shí)機(jī)器人系統(tǒng)中的部署成本與響應(yīng)時(shí)延。
![]()
在這一理念下,Being-H0.7 的部署被進(jìn)一步優(yōu)化至極致:其平均推理延遲低至3.61 ms/step,推理速度相比業(yè)內(nèi)以效率著稱的模型(如 Fast-WAM)提升超過(guò)10 倍,顯存占用僅為同類方案的約 50%。與 Cosmos-policy、DreamZero 等視頻生成式世界模型相比,其推理效率更是實(shí)現(xiàn)了50 倍以上的提升。
更具標(biāo)志性的是,智在無(wú)界首次在端側(cè)計(jì)算平臺(tái)Orin NX(約 75 TOPS)上,實(shí)現(xiàn)了 Being-H0.7 的實(shí)時(shí)部署。這意味著,其已成為業(yè)內(nèi)首個(gè)在同等算力芯片上完成世界模型實(shí)時(shí)運(yùn)行的團(tuán)隊(duì)。
端側(cè)算力、世界模型、實(shí)時(shí)運(yùn)行——這三者長(zhǎng)期以來(lái)被認(rèn)為難以兼顧,而智在無(wú)界在同一系統(tǒng)中同時(shí)實(shí)現(xiàn),意味著其在推理成本、模型能力與系統(tǒng)效率這三個(gè)關(guān)鍵維度上,均已達(dá)到當(dāng)前行業(yè)的最先進(jìn)水平。
03
人類視頻預(yù)訓(xùn)練+數(shù)采閉環(huán)
驅(qū)動(dòng)通用能力與專家能力的“兩級(jí)躍遷”
從 H0 到 H0.5,再到如今的 Being-H0.7,作為人類視頻路線的開(kāi)創(chuàng)者,智在無(wú)界在不到一年的時(shí)間內(nèi),實(shí)現(xiàn)了模型能力與數(shù)據(jù)規(guī)模的三次迭代。目前,團(tuán)隊(duì)已構(gòu)建起超過(guò) 20 萬(wàn)小時(shí)的人類視頻數(shù)據(jù)體系,并預(yù)計(jì)在今年底進(jìn)一步擴(kuò)展至 100 萬(wàn)小時(shí)量級(jí)。
這一前所未有的數(shù)據(jù)規(guī)模,為 Being-H 系列模型帶來(lái)了高度多樣化的真實(shí)世界分布,顯著提升了跨場(chǎng)景泛化能力,推動(dòng)模型實(shí)現(xiàn)“通用能力”的關(guān)鍵躍遷。相比之下,依賴封閉環(huán)境與集中式采集的數(shù)據(jù)工廠,盡管在規(guī)模與可控性上具備優(yōu)勢(shì),但在分布多樣性與真實(shí)復(fù)雜性方面存在天然瓶頸,難以支撐模型真正走向開(kāi)放世界。
如果說(shuō)大規(guī)模人類視頻數(shù)據(jù)奠定了“通用能力”的基礎(chǔ),那么第一視角人類數(shù)據(jù)的采集體系,則成為模型邁向“專家能力”的關(guān)鍵支點(diǎn)。然而在當(dāng)前行業(yè)中,數(shù)據(jù)采集與模型訓(xùn)練普遍割裂,導(dǎo)致大量高成本數(shù)據(jù)難以被有效利用。“過(guò)去一年我們收集了大量外部數(shù)據(jù),也經(jīng)歷過(guò)一次性丟棄數(shù)千小時(shí)數(shù)據(jù)的情況,”盧宗青指出,“當(dāng)前數(shù)采體系仍處于早期階段,與大模型領(lǐng)域成熟的數(shù)據(jù)管線相比,仍存在明顯差距。”
對(duì)于具身領(lǐng)域來(lái)說(shuō),要彌合這一割裂,就必須同時(shí)具備大規(guī)模預(yù)訓(xùn)練和高質(zhì)量數(shù)據(jù)采集的能力:只有深度參與大規(guī)模預(yù)訓(xùn)練,才能建立對(duì)數(shù)據(jù)的敏感度,從而設(shè)計(jì)出合理的數(shù)據(jù)格式、配比與數(shù)采硬件;高質(zhì)量的數(shù)據(jù)采集體系,則如同為模型提供精準(zhǔn)的“營(yíng)養(yǎng)配方”,決定其能力上限。基于這一認(rèn)知,智在無(wú)界率先打通了“大規(guī)模預(yù)訓(xùn)練—數(shù)據(jù)采集”的閉環(huán),成為業(yè)內(nèi)少數(shù)具備全鏈路能力的團(tuán)隊(duì)。
這一閉環(huán)優(yōu)勢(shì)的集中體現(xiàn)之一,是智在無(wú)界團(tuán)隊(duì)不久前發(fā)布的BeingBeyond U1,作為全球首款 Real DexUMI 設(shè)備,U1,實(shí)現(xiàn)了“無(wú)本體、低成本、真實(shí)場(chǎng)景”的規(guī)模化數(shù)據(jù)采集,可同步獲取視覺(jué)、動(dòng)作與觸覺(jué)等多模態(tài)信號(hào),并將人手精細(xì)操作高保真映射至機(jī)器人靈巧手。相比傳統(tǒng)真機(jī)采集,U1 的數(shù)據(jù)獲取效率提升超過(guò) 10 倍,同時(shí)實(shí)現(xiàn)“所采即所得”,無(wú)需重定向即可直接用于訓(xùn)練,顯著降低了數(shù)據(jù)使用門檻與精度損耗。
這一能力有效彌補(bǔ)了現(xiàn)有數(shù)采方案在工業(yè)流水線等高精度場(chǎng)景中的關(guān)鍵短板,使模型能夠快速掌握復(fù)雜裝配、柔性交互等專家級(jí)技能,在實(shí)際任務(wù)中將成功率提升至 90% 以上。隨著 U1 進(jìn)入真實(shí)的工業(yè)流水線等專業(yè)場(chǎng)景,Being-H0.7 進(jìn)一步完成了從“通用”到“專家”的能力躍遷:一方面依托大規(guī)模人類視頻與世界模型架構(gòu),實(shí)現(xiàn)對(duì)復(fù)雜物理環(huán)境的理解與泛化;另一方面借助高質(zhì)量場(chǎng)景化數(shù)據(jù),深入垂直領(lǐng)域,獲得高精度、可落地的專家能力。
這也揭示了具身智能商業(yè)化的核心路徑:通用能力解決“能用”,而專家能力決定“好用”。以通用能力為底座,以場(chǎng)景化數(shù)據(jù)為抓手,逐步向垂直領(lǐng)域深化,正是具身智能走向規(guī)模化落地的“最后一公里”。
04
尾聲H0.7首個(gè)世界模型商業(yè)化部署
智在無(wú)界重塑具身模型賽道
從“能理解”到“能行動(dòng)”,從“實(shí)驗(yàn)室指標(biāo)”到“真實(shí)世界生產(chǎn)力”,Being-H0.7 的意義,已經(jīng)不止于一次模型性能的躍升,而是對(duì)具身智能落地路徑的一次關(guān)鍵重構(gòu)。當(dāng)世界模型首次在端側(cè)實(shí)現(xiàn)實(shí)時(shí)運(yùn)行,長(zhǎng)期被視為“不可能三角”的能力、成本與效率,開(kāi)始在同一系統(tǒng)中收斂,具身智能也由此真正邁入可規(guī)模化復(fù)制的階段。
更深層次來(lái)看,這一突破并非孤立發(fā)生:其背后是人類視頻預(yù)訓(xùn)練所支撐的通用能力底座,是“隱式推理”所帶來(lái)的世界理解范式躍遷,也是數(shù)據(jù)閉環(huán)體系驅(qū)動(dòng)的專家能力持續(xù)進(jìn)化。三者疊加,使得模型不再只是“會(huì)做任務(wù)”,而是逐漸具備在開(kāi)放環(huán)境中穩(wěn)定工作的能力。
當(dāng)行業(yè)仍在不同路徑之間反復(fù)試探時(shí),智在無(wú)界通過(guò) H0.7 給出了一條更具確定性的答案——以人類視頻為核心燃料,以世界模型為認(rèn)知與行動(dòng)中樞,以端側(cè)部署為落地形態(tài),打通從數(shù)據(jù)到模型、從理解到執(zhí)行的完整鏈路。這不僅是一次模型發(fā)布,更像是具身智能從“技術(shù)競(jìng)賽”走向“產(chǎn)業(yè)基礎(chǔ)設(shè)施”的分水嶺時(shí)刻。隨著 H0.7 的落地,具身模型的競(jìng)爭(zhēng)邏輯,正在被重新定義。
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.