<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      智在無界發布最強具身世界模型,20萬小時人類視頻屠榜6大榜單

      0
      分享至



      機器之心發布

      「人類視頻,是機器人理解并與物理世界交互的最關鍵路徑。」

      這句如今逐漸成為行業共識的判斷,其實最早來自一家國內具身智能初創公司 ——BeingBeyond(智在無界)。

      在過去半年中,這家公司完成了「海量人類視頻訓練」的兩個重要里程碑:相繼發布了全球首個基于1000 小時1 萬小時人類視頻預訓練的具身模型 —— Being-H0 與 H0.5,率先開辟了「大規模人類視頻驅動具身學習」的技術路線。

      隨后,NVIDIA 的 EgoScale、Generalist AI 的 GEN-1 等海外工作陸續跟進,也從側面印證了這一方向的前瞻性。

      作為人類視頻學習路線的開創者,4 月 14 日,智在無界發布第三代旗艦模型 Being-H0.7,該模型將數據規模擴展至20 萬小時人類視頻,并提出一種全新的范式 ——基于潛空間推理的世界模型。在 6 項國際性權威評測中,H0.7 綜合排名全球第一(其中 4 項登頂),同時也是首個覆蓋跨本體、跨場景、連續動態、流體、柔性物體、物理規律與上下文推理等七大關鍵維度的通用世界模型。



      • 主頁鏈接:
      • https://research.beingbeyond.com/being-h07
      • 論文鏈接:
      • https://research.beingbeyond.com/projects/being-h07/being-h07.pdf

      Past?Present?Future

      世界模型的分野

      「世界模型(World Model)」最初其實是一個非常樸素的概念:給定當前狀態和動作,預測下一時刻的狀態。



      早在 2018 年, Jürgen Schmidhuber 就在其《World Models》中系統闡述了用神經網絡建模動力學的思路。但隨著生成模型的發展,一個逐漸流行的誤解也隨之出現:世界模型 = 預測未來畫面(逐像素生成)。

      事實上,無論是 Schmidhuber 的原始設想,還是 Yann LeCun 團隊在 JEPA (Joint Embedding Predictive Architecture),都從未將「像素級預測」視為核心目標。

      原因很簡單,真實世界的「狀態」,遠遠不等同于像素。物體之間的空間關系、柔性物體的形變、液體的流動、摩擦與重力的作用…… 這些決定物理世界運行的關鍵因素,并不能通過逐像素的圖像完全表達。世界模型不應執著于復現「畫面會變成什么樣」,而應學會理解「世界為什么會這樣變化」。

      從產業角度看,NVIDIA 當前的世界模型工作在一定程度上回歸到視頻生成路線,這與其「算力提供方」的角色天然形成協同,但對具身智能而言,這并非最優路徑。

      智在無界認為,一個理想的世界模型應同時具備兩個核心能力:物理世界理解(Physical Understanding)與物理交互(Physical Interaction)。



      現有 AI 模型范式在「物理理解–交互」坐標系中的能力分布,Being-H0.7 在海量人類數據驅動下顯著拓展了世界模型的能力邊界。

      按照這一標準回看過去幾年的 AI 發展路徑:從 LLM 到 VLM,再到 AIGC 時代的 Sora、Genie 3,這些模型對視覺世界的理解不斷加深,但始終停留在二維感知層面,缺乏與真實物理世界的交互能力。

      近幾年,隨著 VLA 路線的興起,π0.5、GR00T、Being-H0.5 等模型通過在視覺語言模型上微調,直接輸出機器人動作。雖然這讓模型具備了執行任務的能力,但也帶來了新的問題:在訓練過程中,多模態理解能力往往被削弱,模型容易過擬合,很多時候是在「背答案」,而非真正基于環境做出判斷。

      為彌補這一缺陷,以英偉達 Cosmos-Policy、DreamZero 為代表的世界模型路線,嘗試通過視頻生成來建模交互。但這類方法不僅計算開銷巨大、難以實時運行,而且基于二維視覺表征的方式,本質上仍然難以真正理解物理世界。

      在這樣的背景下,LeCun (AMI Labs) 提出,應構建更加基礎的世界模型,以提升對真實世界的理解能力。而智在無界則更進一步,提出基于潛空間推理的全新范式,同時拓展世界模型在「理解」和「交互」兩個維度上的能力。

      20 萬小時人類視頻

      H0.7 的「通用世界模型基因」

      傳統 VLA 模型只能基于當前觀測預測動作,缺乏對未來變化的建模能力;而視頻生成式世界模型則依賴像素級預測來「想象」未來,但不僅難以抽象物理規律,還帶來了巨大的計算負擔。

      事實上,人類視覺系統天然會過濾靜態信息、強化對動態變化的感知,大腦中也存在專門處理運動的區域,用于自動抑制背景干擾。基于這一認知,Being-H0.7 不再追求像素級重建,而是試圖學習一種更高效的能力 —— 類似「物理直覺」的快速判斷機制。

      因此,Being-H0.7 選擇了一條不同路徑:不再顯式生成未來畫面,而是提煉那些真正影響未來行動的關鍵信息。

      不同于 VLA 從當前觀察直接映射到動作,或視頻生成式世界模型引入龐大的預測模塊,Being-H0.7 在模型內部引入了一組可學習的中間變量(latent queries),作為一塊預留的「思考空間」(latent reasoning)。在前向的過程中,模型將當前觀測、任務目標以及對未來可能演化的判斷壓縮至這一空間,并由其統一指導最終的動作生成。



      但這一「思考空間」本身并不天然具備對未來的建模能力。為此,Being-H0.7 采用了雙分支設計:一條路徑在「未來可見」的條件下(后驗視角,posterior branch),引導模型學習哪些中間判斷真正有助于動作決策;另一條路徑在「不可見未來」的真實部署條件下(先驗視角,prior branch),約束模型僅基于當前觀測形成盡可能一致的判斷。

      不同于一些工作簡單地將未來信息單向注入世界模型,Being-H0.7 在這兩種視角之間建立持續對齊與相互約束:后驗分支提供未來演化的監督信號,先驗分支嚴格受限于真實可觀測信息。通過不斷對齊,模型逐漸學會在「思考空間」中,自適應地根據當前情景,推理對后續行動真正有用的信息。

      這種推理能力,本質上接近于人類的「物理直覺」。現實世界中,人類并不會逐幀預測未來畫面,而是快速判斷:物體接下來會朝哪個方向運動?接觸關系會如何變化?施加的力會帶來穩定還是失衡?交互過程會推進目標還是偏離?

      人類之所以能夠在很少試錯的情況下掌握這些能力,是因為這種「直覺」早已在長期進化中內化為本能。

      相比之下,僅依賴實驗室數據的機器人系統很難獲得這種能力,更難實現泛化。基于這一洞察,智在無界構建了全球少有的 20 萬小時人類視頻數據集,并據此訓練 Being-H0.7,使模型獲得類似「預訓練基因」的能力,從而真正理解并改變物理世界。



      在實現上,H0.7 的結構反而相對簡潔:兩路視角通過注意力掩碼(attention mask)共享主干上下文,只在 latent queries 處進行對齊,并共同接受動作監督。未來信息無需解碼為未來圖像,而以緊湊表征參與訓練。相比 Cosmos Policy 這類視頻生成式世界模型,H0.7 的訓練成本不到其 1%。

      另外一個強大的優勢則是推理速度的顯著提升,是 Fast-WAM 的 11 倍,是 imagine-then-execute 這類生成式世界模型的 40 倍以上,Being-H0.7是世界上第一個能夠在端側設備上實時穩定部署的世界模型。強大的推理能力賦予了 H0.7 對于外界動態快速的感知能力,能完成如判斷滑落小球軌跡、高速流水線包裝、液體準確傾倒等這些之前 VLA、世界模型都難以勝任的任務。



      在評測方面,不同于多數模型只在單一榜單評測,Being-H0.7 在 6 項全球權威評測榜單上綜合排名世界第一,是目前覆蓋范圍最廣的具身世界模型。在跨本體、跨場景、連續動態、流體、柔性物體、物理規律與上下文推理等七大關鍵維度上,Being-H0.7 均展現出領先的物理理解與泛化能力,其能夠完成復雜的多物體協作、長時序規劃與精細物理交互任務。



      為直觀地展示 Being-H0.7「思考空間」中所包含的信息,可以進一步將觀測圖像與 Being-H0.7 先驗分支的中間變量共同作為條件,基于視頻模型對任務未來狀態進行可視化預測。

      盡管 Being-H0.7 在推理時并不顯式進行像素級未來重建,其隱空間表征中已經蘊含了對未來世界狀態的預測,體現出「隱式具身世界模型」的核心特征。



      真機實驗部分,Being-H0.7 借助世界模型架構,展現出了令人驚喜的表現。做到了更精準的空間感知、物理理解和運動推理能力,更具體地講,實現了以下幾種物理世界級的理解和交互能力:

      • 動態軌跡預測:在高速動態場景下,Being-H0.7 借助物理世界知識和快速推理,能夠預測物體軌跡并精準完成物理世界交互;



      • 物理規律理解:Being-H0.7 通過大規模預訓練構建了豐富的世界知識,能夠準確理解流體物理規律并完成復雜任務指令;



      • 運動推理能力:Being-H0.7 具備物理世界下的動力學推理能力,能夠準確推理物體交互后的空間方位并規劃好動作。



      基于以上能力,Being-H0.7 能夠完成高速運動物體的追蹤和接取、精細流體控制、柔性物體交互等高挑戰性的任務。



      文中視頻鏈接:https://mp.weixin.qq.com/s/4GBE4mjEPHVakZ0sGbuKlg

      世界模型的再定義:從 AMI Labs 到 BeingBeyond

      Our main goal is to build intelligent systems that understand the real world —— AMI Labs

      面對這一愿景,作為開啟「大規模人類視頻驅動具身學習」這一路線的先行者,BeingBeyond 創始人盧宗青表示:

      理解世界不夠,必須學會改變世界。物理世界的理解與交互是不可分割的。如果一個模型只學習「世界會變成什么樣」,而不學習「采取什么行動會導致這種變化」,它本質上仍然是一個被動觀察者,容易退化為「缸中之腦」。

      因此,不同于 LeCun,智在無界采用的技術路徑是:同時建模狀態變化與動作生成(joint prediction of state and action)。在數據層面,這一設計自然對應于第一人稱人類視頻,它不僅提供視覺觀測,同時也包含了人類動作。這樣的數據可規模化獲取,天然適用于具身學習。因而,我認為,大規模人類視頻是通向具身基礎模型的一條可行路徑,使機器人能夠從人類行為中學習如何理解并作用于物理世界。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      比亞迪緊急回應

      比亞迪緊急回應

      中國基金報
      2026-04-14 10:15:25
      “真的投不下去了”,數十萬臺冰柜正在消失!2026年,冰柜怎么從銷量利器淪為費用黑洞了?

      “真的投不下去了”,數十萬臺冰柜正在消失!2026年,冰柜怎么從銷量利器淪為費用黑洞了?

      食品內參
      2026-04-13 10:39:07
      遲重瑞說,現在她走了,我74歲,一個人守著這偌大的家和博物館

      遲重瑞說,現在她走了,我74歲,一個人守著這偌大的家和博物館

      白淺娛樂聊
      2026-04-13 20:40:44
      雷軍曬小米員工運動會,被吐槽:“周末辦活動,占用休息時間”

      雷軍曬小米員工運動會,被吐槽:“周末辦活動,占用休息時間”

      歪歌社團
      2026-04-12 01:34:22
      最差局面出現,伊朗最想要的中國給了?不到24小時,美國喊話中國

      最差局面出現,伊朗最想要的中國給了?不到24小時,美國喊話中國

      流史歲月
      2026-04-13 15:00:08
      徹底談崩!特朗普對華施壓,禁止中伊簽協議,話音剛落中國鄰國出兵

      徹底談崩!特朗普對華施壓,禁止中伊簽協議,話音剛落中國鄰國出兵

      說歷史的老牢
      2026-04-13 10:09:42
      中國跳水隊公布世界杯總決賽名單:陳芋汐、陳藝文在列

      中國跳水隊公布世界杯總決賽名單:陳芋汐、陳藝文在列

      懂球帝
      2026-04-13 22:48:15
      鄭麗文談日本殖民、高市早苗謊言被戳穿!留給賴清德的時間不多了

      鄭麗文談日本殖民、高市早苗謊言被戳穿!留給賴清德的時間不多了

      野史日記
      2026-04-13 10:50:11
      醫生告誡:每天睡前玩手機的人,不用半年時間,睡眠或有這6變化

      醫生告誡:每天睡前玩手機的人,不用半年時間,睡眠或有這6變化

      白話電影院
      2026-04-05 15:34:47
      抵達上海,張繼科上任,體育局邀請,新崗位曝光,樊振東期待

      抵達上海,張繼科上任,體育局邀請,新崗位曝光,樊振東期待

      東球貓貓
      2026-04-14 10:14:02
      北約和多個國家支持美國封鎖霍爾木茲海峽

      北約和多個國家支持美國封鎖霍爾木茲海峽

      一種觀點
      2026-04-13 15:34:58
      退休新規:1980年后生的人面臨雙重壓力。

      退休新規:1980年后生的人面臨雙重壓力。

      歲月有情1314
      2026-04-08 08:02:19
      伊朗請求世界杯三場小組賽場地從美國更改為墨西哥,被FIFA拒絕;伊朗若無緣世界杯,誰會成為遞補?

      伊朗請求世界杯三場小組賽場地從美國更改為墨西哥,被FIFA拒絕;伊朗若無緣世界杯,誰會成為遞補?

      極目新聞
      2026-04-13 13:50:22
      文強死了以后,他家里人日子過得怎么樣?

      文強死了以后,他家里人日子過得怎么樣?

      鑒史錄
      2026-04-13 15:27:52
      美國后院起火,加拿大又掏出殺招,30國或跟進,北約要名存實亡?

      美國后院起火,加拿大又掏出殺招,30國或跟進,北約要名存實亡?

      軍機Talk
      2026-04-13 16:29:09
      反向預言!12年前索尼驚人廣告被挖出:從此不需要手機

      反向預言!12年前索尼驚人廣告被挖出:從此不需要手機

      游民星空
      2026-04-13 13:07:09
      伊朗繳獲美軍先進激光武器,美擔心:如果中俄拿到,恐遭破解!

      伊朗繳獲美軍先進激光武器,美擔心:如果中俄拿到,恐遭破解!

      阿龍聊軍事
      2026-04-13 16:42:45
      陪玩陪睡僅冰山一角,繼迪麗熱巴事件后,圈內人再揭內娛陰暗面

      陪玩陪睡僅冰山一角,繼迪麗熱巴事件后,圈內人再揭內娛陰暗面

      林輕吟
      2026-04-13 17:04:53
      湘南民宅翻修驚現毛主席80年前舊照,專家鑒定彌足珍貴可補史遺缺

      湘南民宅翻修驚現毛主席80年前舊照,專家鑒定彌足珍貴可補史遺缺

      云霄紀史觀
      2026-04-14 02:08:48
      老詹雙喜臨門!東契奇即將歸隊,里夫斯加速復出,火箭別小看湖人

      老詹雙喜臨門!東契奇即將歸隊,里夫斯加速復出,火箭別小看湖人

      世界體育圈
      2026-04-14 11:51:28
      2026-04-14 12:24:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12755文章數 142627關注度
      往期回顧 全部

      科技要聞

      離職同事"煉化"成AI?這屆公司不需要活人了

      頭條要聞

      24歲準新娘診所輸液昏迷近3個月未醒 涉事診所變超市

      頭條要聞

      24歲準新娘診所輸液昏迷近3個月未醒 涉事診所變超市

      體育要聞

      他做對了所有事,卻被整個職業網壇放逐了八年

      娛樂要聞

      宋祖兒劉宇寧戀情大反轉 正主火速辟謠

      財經要聞

      伊朗要求五個中東國家賠償戰爭損失

      汽車要聞

      長城歐拉5限定版純電版上市 限量99臺售價13.38萬元

      態度原創

      健康
      家居
      親子
      房產
      游戲

      干細胞抗衰4大誤區,90%的人都中招

      家居要聞

      復古風格 自然簡約

      親子要聞

      科普|孩子咳個不停,可能是變異哮喘

      房產要聞

      改善標桿,1.5w+起橫掃國興!海口樓市,打出最猛一張牌!

      95%特別好評 蠢貓神作!B站up主純手繪絕美畫卷

      無障礙瀏覽 進入關懷版