![]()
長期以來,3D世界建模領域存在兩大技術“孤島”:生成式模型擅長從文本、單圖創作天馬行空的3D場景,但幾何精度不足、視角一致性差;重建式模型能從多圖、視頻中還原真實3D結構,卻缺乏生成想象力,難以處理稀疏輸入。騰訊此次HY-World 2.0的發布,首次將這兩大能力融合,構建了從“稀疏輸入”到“可交互3D世界”的完整技術閉環。
據騰訊官方文檔,作為3D世界的“第一塊拼圖”,HY-Pano 2.0解決了傳統全景生成依賴相機參數、場景結構破碎的行業痛點。通過Multi-Modal Diffusion Transformer(MMDiT)實現視角到全景的隱式轉換,無需任何相機元數據,就能從單張圖片或一段文本中生成結構連貫、細節豐富的360°全景場景。
(技術報告地址:https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf)
![]()
在文本到全景(T2P)任務中,CLIP-T指標達行業最高的0.258,Q-Align美學評分較競品提升12%;在圖像到全景(I2P)任務中,全指標排名第一,幾何一致性遠超CubeDiff、GenEx等模型。
![]()
有了高質量的全景基礎,如何高效探索3D世界成為新的挑戰。HY-World 2.0設計了語義感知軌跡規劃模塊,通過全景點云、語義掩碼與導航網格的融合分析,自動生成多樣化軌跡模式,實現無碰撞、全覆蓋的相機路徑規劃。這一技術不僅確保了后續3D重建時無視角盲區,更讓AI能夠像人類一樣“聰明地”探索復雜場景——比如自動環繞建筑物拍攝細節,或沿著走廊漫游捕捉完整結構。
![]()
在3D世界擴展階段,最大的技術瓶頸是“多視角一致性”——不同軌跡生成的視頻常常出現物體錯位、光影矛盾等問題。HY-World 2.0通過全局幾何記憶與空間立體記憶雙記憶機制,讓AI能夠“記住”整個3D場景的幾何結構,從而生成視角連貫、細節一致的擴展場景。結合Distribution Matching Distillation蒸餾技術,生成速度提升4倍,在Tanks-and-Temples數據集上,點云F1-score達43.16,超越SEVA、Gen3C等模型30%以上。
![]()
作為全鏈路的核心,HY-World 2.0的通用3D重建模塊支持從多圖、視頻中恢復點云、深度圖、法向量等幾何信息。該模塊通過歸一化位置編碼解決了長期困擾行業的“分辨率泛化”問題,高分辨率下相機姿態AUC@30仍達86.89,較前代產品提升31%;通過深度-法線耦合監督,深度估計AbsRel誤差降至0.162。在效率方面,支持序列并行、混合精度與全分片數據并行,單GPU可處理256視圖,4GPU下128視圖推理時間僅5.6秒,為大規模3D重建提供了可能。
性能逼近閉源商業產品
技術創新最終要靠數據說話,HY-World 2.0在多項核心指標上實現了對開源模型的全面超越,更在部分場景逼近閉源商業模型Marble。在相同全景輸入下,HY-World 2.0生成的3D場景與輸入一致性達94%,而Marble僅為88%,幾何誤差降低25%;在復雜場景如城市建筑、自然景觀中,HY-World 2.0的紋理、光影還原度更接近真實世界,細節表現力遠超競品。
端到端生成速度方面,HY-World 2.0僅需約12分鐘/場景(712秒),遠快于Marble的15分鐘/場景和開源競品平均30分鐘/場景的速度,效率提升50%以上。更值得關注的是,HY-World 2.0是全球首個開源的多模態3D世界模型,全部模型權重、代碼與技術細節已對外開放,這意味著開發者無需依賴昂貴的商業模型,就能快速構建3D生成應用,極大降低了AGI空間智能的開發門檻。
![]()
開源開放的模式也讓HY-World 2.0具備了更強的生態活力,開發者可以基于該模型進行二次開發,推動3D生成技術在更多場景的應用。目前,已有多家游戲、機器人、數字孿生領域的企業與騰訊混元團隊展開合作,探索HY-World 2.0的商業化落地。
技術的價值最終要體現在應用場景中,HY-World 2.0還配套了WorldLens高性能3DGS渲染平臺,支持實時物理反饋和空間交互,為下游應用提供高效的渲染支持。
在游戲開發領域,HY-World 2.0支持實時可交互3D場景生成,內置物理碰撞檢測與角色控制,可直接導入Unity/Unreal引擎,顯著縮短開發周期。一款開放世界游戲的場景建模,傳統方法需要數月時間,而使用HY-World 2.0,開發者只需輸入一段文本描述,就能在約12分鐘內生成可交互的3D場景。
在機器人領域,HY-World 2.0通過重建真實環境生成高精度仿真場景,支持機器人路徑規劃與視覺導航訓練,提升機器人研發效率與仿真精度。目前,已有多家機器人企業基于HY-World 2.0構建了仿真訓練平臺,優化機器人導航算法開發流程。
在數字孿生領域,HY-World 2.0可快速生成工廠、園區、城市等場景的3D數字孿生模型,支持多視角漫游與設備狀態可視化,優化運維流程。一個大型工廠的數字孿生建模,傳統方法需要投入大量人力物力,而使用HY-World 2.0,只需導入工廠的航拍視頻,就能在數小時內生成高精度的3D數字孿生模型。(本文首發鈦媒體APP,作者 | 硅谷Tech_news,編輯 | 秦聰慧)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.