<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      英偉達3D模型打造“AI建筑師特工隊”,8位華人合著,包括千問實習生

      0
      分享至


      智東西
      作者 王涵
      編輯 心緣

      智東西2月3日報道,近期,英偉達宣布其全新3D通用模型論文將發表于2026國際3D視覺會議,論文的預印本已于去年7月發表。這篇論文構建出了一種建構3D世界的新范式,驗證了“AI生成的3D合成數據”可規?;娲斯俗祿?/strong>,能夠大幅降低視覺模型預訓練的成本。

      論文的主要成果為3D-GENERALIST模型,該模型使用統一化框架,將3D環境生成的四大核心要素即布局、材質、光照、資產等統一到序貫決策框架中。研究團隊還提出了基于CLIP評分的自改進微調策略,可以讓模型在下一輪生成中能自主修正前序錯誤。

      這篇論文的作者有8位華人,第一二作者都是中國留學生,清華“姚班”出身的斯坦福大學助理教授吳佳俊也名列其中。


      CES 2025上,英偉達正式推出世界基礎模型平臺Cosmos。在CES 2026的演講中,黃仁勛依舊將“Physical AI”作為了整場發布的核心靈魂,正式將Cosmos定位為Physical AI的“底層代碼”與“世界模擬器”。此外,黃仁勛還發布了Cosmos Reason 2,讓AI不僅生成世界,還能用自然語言進行鏈式因果推理。

      3D-GENERALIST這一技術會給英偉達的Cosmos補全哪塊拼圖?又是如何實現技術突破的?我們試圖從論文中尋找答案。

      論文鏈接:https://arxiv.org/abs/2507.06484

      一、現有痛點:只是在生成3D圖像,杯子水杯不能獨立交互

      當前可交互3D環境的創建仍面臨諸多痛點。

      例如,現有技術往往聚焦于3D生成的單一環節,僅優化布局或合成紋理,難以實現全要素的協同優化。

      且現有技術生成的場景缺乏可分離、可操作的物體和表面,即便借助大語言模型或擴散模型的方法,現有成果也難以通過擴展計算資源提升生成質量。生成的數據也不適合需要精準標注的合成數據應用或機器人交互仿真場景,與下游任務對3D環境的質量要求存在差距。

      簡單來說,現有技術只是在生成一個整體的3D圖像,虛擬世界中的杯子、書本沒辦法獨立交互。

      而3D-GENERALIST就是來解決這些痛點的。

      二、研究方法:引入自改進機制,讓擴散模型畫圖、VLM指揮、API執行

      斯坦福和英偉達研究團隊的核心思路就是將一個“設計師”擴展為一個“建筑師團隊”,把搭房子的工作細化,每個步驟交給專門的人去做。

      具體來講,研究團隊首先通過全景擴散模型生成360°引導圖像,這一步就相當于先畫了一張戶型圖,之后的建設都要按照這一圖像來。


      然后,研究團隊提出了“場景性策略”,一共分為三步:

      首先利用HorizonNet提取房間基礎結構,搭好房梁結構,后通過Grounded-SAM技術,在識別好的墻體上,分割出門和窗戶的具體區域。最后再由GPT-4o等VLM(視覺語言模型)標注門窗類型與材質,通過程序化生成構建帶基礎構件的3D房間。

      搭好毛坯房后,研究團隊以VLM作為決策“大腦”,向其輸入含坐標標記、資產名稱標記的多視角場景渲染圖和文本提示。

      隨后VLM會直接輸出代碼形式的具體動作指令,比如添加資產、調整光照、更換材質等,這些代碼指令會對接3D環境的工具API,API自動執行指令,實時更新整個3D房間。


      為了讓虛擬場景中的每一個物體都能實現獨立交互,研究團隊還針對性設計了一套資產級優化策略

      具體來看,團隊先借助GPT-4o識別出場景中可承載小物件的容器類資產,例如桌子、書架等載體,再通過基于網格的表面檢測技術,精準定位這些載體上適合放置物品的有效區域。

      隨后,團隊引入擅長像素級精細推理的視覺語言模型Molmo-7B,進一步確定小物體的具體放置像素點,并通過3D射線轉換,將像素位置換算為高精度的3D空間坐標。

      結合碰撞檢測技術,3D-GENERALIST最終實現如把書擺到桌上、把筆放在書上這類貼合現實邏輯的交互效果。


      此外,3D-GENERALIST背后還有3大關鍵技術做支撐:

      首先研究團隊引入了自改進微調機制,模型在每輪微調中會生成多個候選動作序列,通過CLIP評分篩選出與文本提示最對齊的最優動作,再用該最優動作對VLM進行監督微調,以此提升模型自我修正能力。


      其次,研究團隊還規范了場景領域特定語言,定義了類別、放置位置、材質、光照等核心描述符,規范VLM輸出的動作指令格式,確保其與工具API兼容。

      研究團隊使用的上下文庫收錄能顯著提升CLIP對齊分數的動作代碼片段,生成時隨機采樣作為示例,提升動作序列的多樣性和有效性。

      三、成績驗證:物理合理性99%,合成數據訓練效果接近真實數據

      在模擬就緒3D環境生成任務中,3D-GENERALIST的3D環境生成質量層級全面超越LayoutGPT、Holodeck、LayoutVLM等基線方法。

      物理合理性方面,3D-GENERALIST的無碰撞分數達99.0,邊界內分數達98.0。語義一致性方面,其位置連貫性和旋轉連貫性的分數分別為78.279.1,綜合物理語義對齊分數達67.9,遠高于基線最高值58.8。


      經3輪自改進微調后,3D-GENERALIST的CLIP分數達0.275,顯著高于無微調版本和無上下文庫版本,且能迭代修正場景缺陷。

      資產級策略生成的場景平均CLIP分數達0.282,高于基線方法的0.269,可自然實現小物體的語義對齊和物理合理放置,避免物體重疊。


      自改進微調技術的引入還降低了VLM的視覺幻覺率,在Object HalBench和AMBER基準測試中,微調后模型的幻覺相關指標均優于原始GPT-4o。


      基于3D-GENERALIST生成的合成數據預訓練視覺模型ImageNet-1K Top-1,使用86萬條標簽訓練時,準確率達0.731,超過基于人工構建的HyperSim數據集。

      當標簽量擴展至1217萬條時,ImageNet-1K Top-1準確率提升至0.776,接近基于50億真實數據訓練的模型效果,驗證了其在合成數據規?;缮系膬瀯荨?/p>


      四、研究團隊:8個華人,創企CEO、清華姚班天才,還有Qwen實習生

      除了研究本身,論文的作者欄也十分引人矚目。

      該篇論文的第一作者Fan-Yun Sun是斯坦福大學AI實驗室(SAIL)的計算機科學博士生,隸屬于Autonomous Agents Lab和斯坦福視覺與學習實驗室(SVL)。


      在讀博期間,他也深度參與了英偉達研究院的工作,曾效力于學習與感知研究組、Metropolis深度學習(Omniverse)以及自動駕駛汽車研究組。

      他的研究興趣主要在于生成具身環境與數據,用于訓練機器人和強化學習策略,致力于推動具身、多模態基礎模型及其推理能力的發展。

      此外,他還創辦了AI游戲公司Moonlake,是一家專注于交互式世界構建的前沿人工智能實驗室,融合了多模態推理和世界建模。

      該創企此前已從Threshold Ventures、AIX Ventures和NVentureS(NVIDIA的風險投資部門)籌集了2800萬美元(約合人民幣1.95億元)的種子資金。


      第二作者Shengguang Wu目前是斯坦福大學計算機科學系的博士生,在北京大學獲得碩士學位。


      他此前曾在Qwen團隊擔任研究實習生,并且參與了Qwen 1的研究工作。


      吳佳俊是斯坦福大學計算機科學和心理學的助理教授。2014年他從清華大學交叉信息研究院“姚班”本科畢業,師從屠卓文(Zhuowen Tu)教授。在校期間,他曾三年都是年級名次第一,還擔任了世界頂級的計算機視覺會議CVPR審稿人。


      吳佳俊博士畢業于麻省理工學院,導師是Bill Freeman和Josh Tenenbaum。在加入斯坦福大學之前,他曾是谷歌Research的客座研究員,和Noah Snavely一起工作。

      目前,他的團隊致力于物理場景理解研究——即構建能夠觀察、推理并與物理世界互動的智能機器,以及以下方面:

      1、基于視覺、聽覺與觸覺信號的多模態感知(如物體文件夾、真實影響力項目)

      2、四維物理世界的視覺生成(如三維生成對抗網絡、π生成對抗網絡、點體素擴散模型、SDEdit圖像編輯、奇幻世界)

      3、通過物理概念基底的視覺推理(常采用神經符號化方法,如神經符號視覺問答、形狀程序、動態視覺推理數據集、邏輯視覺推理框架)

      4、運用習得物理場景表征的機器人學與具身人工智能(如機器人廚師、行為模擬平臺)。

      Shangru Li目前是英偉達公司的高級系統軟件工程師,之前曾在騰訊有過工作經歷。

      他2019年本科畢業于廣東外語外貿大學的計算機軟件工程專業,在大三的時候,其曾在騰訊實習。2021年,Shangru Li于美國賓夕法尼亞大學的計算機圖形學和游戲技術專業碩士畢業,此后便一直在英偉達工作。


      此外,還有4位華人研究員參與其中,分別為Haoming Zou、Yu-Hsin Chou、Ethem Can以及Xunlei Wu。

      結語:模型與機器人訓練成本或將進一步降低

      3D-GENERALIST將傳統分離的建模、布局、材質、光照等環節整合為統一的決策序列,并通過自改進機制賦予AI自我改錯的能力。

      這不僅顯著提升了復雜3D場景的構建效率與物理合理性,更關鍵的是,其驗證了高質量合成數據規模化替代人工標注的可行性,將有望降低下游視覺與機器人模型訓練的成本門檻。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      14億人都不會忘卻!揭開核酸大王張核子的真面具:權力變現大公

      14億人都不會忘卻!揭開核酸大王張核子的真面具:權力變現大公

      大魚簡科
      2026-02-07 09:52:29
      黨組織派她潛伏,給她二十根金條,她竟打三年麻將,輸了個精光

      黨組織派她潛伏,給她二十根金條,她竟打三年麻將,輸了個精光

      妙知
      2026-02-21 10:31:50
      三峽大壩收支出爐:運行20余年,總投資近2500億,如今回本了嗎?

      三峽大壩收支出爐:運行20余年,總投資近2500億,如今回本了嗎?

      青梅侃史啊
      2026-02-21 09:46:58
      吳冠蕓同志逝世

      吳冠蕓同志逝世

      吉刻新聞
      2026-02-22 14:06:06
      細菌超 500 億個!很多人舍不得換的洗碗工具,真的該扔了

      細菌超 500 億個!很多人舍不得換的洗碗工具,真的該扔了

      科普中國
      2026-02-21 23:26:53
      曝中國男籃確定13人大名單,趙睿張鎮麟領銜,徐杰曾凡博落選

      曝中國男籃確定13人大名單,趙睿張鎮麟領銜,徐杰曾凡博落選

      中國籃壇快訊
      2026-02-22 14:19:06
      59歲于文華現狀:與丈夫住河北農村,穿著樸素趕大集,愛田園生活

      59歲于文華現狀:與丈夫住河北農村,穿著樸素趕大集,愛田園生活

      銀河史記
      2026-02-20 23:33:34
      開始恐懼了!全國統一的“春節噩夢”來了,網友:從初一吃到十五

      開始恐懼了!全國統一的“春節噩夢”來了,網友:從初一吃到十五

      另子維愛讀史
      2026-02-19 22:04:53
      大S尸骨未寒!小S與具俊曄多張親密照流出,還曾發文:我愛具先生

      大S尸骨未寒!小S與具俊曄多張親密照流出,還曾發文:我愛具先生

      八卦王者
      2026-02-22 15:58:23
      高云翔拿100塊壓歲錢買衣服,大方展示花80元買的3件二手衣服

      高云翔拿100塊壓歲錢買衣服,大方展示花80元買的3件二手衣服

      韓小娛
      2026-02-22 16:17:29
      意甲領頭羊繼續狂飆:豪取7連勝,前2相差10分,遠遠甩開AC米蘭

      意甲領頭羊繼續狂飆:豪取7連勝,前2相差10分,遠遠甩開AC米蘭

      足球狗說
      2026-02-22 02:55:05
      沒人發拜年微信了,這是一個危險的信號

      沒人發拜年微信了,這是一個危險的信號

      茉莉聊聊天
      2026-02-18 10:48:40
      廣東一男子留2年長發回家過年,引起長輩們圍觀都忘記催婚了

      廣東一男子留2年長發回家過年,引起長輩們圍觀都忘記催婚了

      九方魚論
      2026-02-21 08:45:47
      高市早苗緊急表態,2個中俄的友國上了她的當?普京政府火冒三丈

      高市早苗緊急表態,2個中俄的友國上了她的當?普京政府火冒三丈

      東極妙嚴
      2026-02-21 14:14:19
      讓春晚導演給全國道歉,入美國籍回中國撈金,她到底有什么來頭?

      讓春晚導演給全國道歉,入美國籍回中國撈金,她到底有什么來頭?

      青橘罐頭
      2026-02-22 09:25:34
      張蘭再次當奶奶笑得非常開心,她與汪大爺前往與孫子孫女團聚了

      張蘭再次當奶奶笑得非常開心,她與汪大爺前往與孫子孫女團聚了

      觀察鑒娛
      2026-02-22 16:06:34
      歐洲央行:中國繞過了特朗普的關稅墻

      歐洲央行:中國繞過了特朗普的關稅墻

      參考消息
      2026-02-21 19:01:12
      伊朗沒想到,關鍵時刻,為他們出頭的國家,竟然是曾經的“對手”

      伊朗沒想到,關鍵時刻,為他們出頭的國家,竟然是曾經的“對手”

      瘋狂的小歷史
      2026-02-22 15:29:07
      CCTV直播!林詩棟戰日本 王曼昱VS曾尖 王楚欽壓軸 新加坡大滿貫22日賽程出爐

      CCTV直播!林詩棟戰日本 王曼昱VS曾尖 王楚欽壓軸 新加坡大滿貫22日賽程出爐

      好乒乓
      2026-02-22 10:30:10
      馬年第一漲,AI股殺瘋了

      馬年第一漲,AI股殺瘋了

      36氪
      2026-02-22 11:03:04
      2026-02-22 16:47:00
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      11245文章數 116974關注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發射超過10000顆衛星

      頭條要聞

      8歲男童大年初五在虎跳峽墜崖遇難 游客目擊事發全程

      頭條要聞

      8歲男童大年初五在虎跳峽墜崖遇難 游客目擊事發全程

      體育要聞

      75673人見證!邁阿密0-3:梅西孫興慜過招

      娛樂要聞

      裴世矩養侄為刃 看懂兩次放行裴行儼!

      財經要聞

      特朗普新加征關稅稅率從10%提升至15%

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      房產
      健康
      藝術
      數碼
      公開課

      房產要聞

      窗前即地標!獨占三亞灣C位 自貿港總裁行宮亮相

      轉頭就暈的耳石癥,能開車上班嗎?

      藝術要聞

      這本書法,80%的人無法讀懂!網友直言:看到第二字就傻眼!

      數碼要聞

      21歲的老蘋果筆記本開機連上Wi-Fi 竟然還能收到系統更新!網友:畫面美到想舔

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版