網易首頁 > 網易號 > 正文申請入駐

騰訊混元3D搞了個狠活：單圖生成3D，背面讓用戶說了算

2026-04-04 17:45:06　來源: 摸魚算法

北京舉報

分享至

單張圖生成3D模型，AI最怕什么？

不是分辨率不夠，也不是紋理糊了——是你永遠不知道背面長什么樣。用戶拍了一張沙發的正面照，AI生成的背面可能多出三條腿，或者干脆變成一張平板。這個問題困擾了行業多年，直到最近一組中國高校研究者給出了新解法：與其讓AI瞎猜，不如讓用戶直接告訴它背面該是什么。

數據荒：3D生成的阿克琉斯之踵

圖像生成模型有數十億張網圖可以學，文本模型啃下了整個互聯網的文字，但3D數據呢？稀缺得可憐。這導致一個尷尬局面：AI見過無數貓的照片，卻沒見過多少只貓的完整三維掃描。讓它從單圖重建3D，本質上是在讓它"腦補"——而腦補的結果，往往是物理上不可能存在的形狀。

研究團隊指出，現有方法在生成物體背面時，經常出現結構斷裂、比例失調或與用戶意圖不符的問題。

傳統思路是堆更多3D訓練數據，但這事成本極高。一套專業3D掃描設備動輒上百萬，人工建模更是慢工出細活。有沒有捷徑？研究團隊把目光投向了多模態大語言模型——這些模型雖然沒"見過"多少3D數據，但讀過的東西足夠多，知道"背包應該有肩帶""椅子四條腿才穩"這類常識。

直接讓語言模型輸出3D？不行。語言模型的表征太抽象，缺乏空間信息，喂給3D生成器就是雞同鴨講。

中間商賺差價：圖像生成模型當翻譯

Know3D的解法是在語言模型和3D生成器之間塞一個圖像生成模型，當翻譯。具體配置是：Qwen2.5-VL負責理解用戶指令和輸入圖像，Qwen-Image-Edit把理解轉化為空間結構信息，最后用微軟的Trellis.2生成3D模型。

語言模型讀完文字指令，分析完輸入圖片，把"背面應該有個口袋"這類需求轉述給圖像生成模型。圖像生成模型再輸出帶空間信息的表征，指導3D生成器干活。

關鍵問題是：從圖像生成模型的哪個環節提取信息？

研究團隊測試了三個選項。一是最終輸出前的內部圖像表征，二是用Meta的DINOv3從輸出圖像提取的特征，三是生成過程中的中間狀態。前兩種都依賴像素級結果，如果圖像生成模型畫錯了——比如把單肩包畫成雙肩包——錯誤會原封不動傳進3D模型。

中間狀態贏了，而且贏得很明顯。這些狀態既包含語義信息（知道這是包），又包含空間信息（知道包的大致結構），還不用對最終圖像的像素精度負責。哪怕生成的背面視圖有瑕疵，中間狀態里的結構感足夠讓3D生成器輸出合理結果。

四分之一處的甜蜜點

提取中間狀態的時機很有講究。太早，信息還陷在像素細節里；太晚，噪聲開始主導。消融實驗顯示，在生成進程約25%的位置截取狀態，效果最佳。

這個發現本身就有趣——它暗示圖像生成模型的工作流程可能是：前期搭建結構框架，后期填充紋理細節。3D生成更需要前者。

用戶能控制到什么程度？論文展示的案例中，輸入一張椅子的正面照，用戶可以指定"背面要有橫條靠背""椅腿是彎曲的"等細節，最終3D模型會忠實反映這些要求。相比傳統方法只能被動接受AI的"腦補"，Know3D把背面設計的主動權交還給了用戶。

這對電商、游戲、建筑可視化等場景意義重大。設計師不再需要為了一張背面參考圖去翻遍圖庫，用幾句話描述就能鎖定想要的效果。

開源與閉源的微妙博弈

Know3D的技術棧全鏈路基于開源或開放權重模型：阿里的Qwen系列語言模型和圖像編輯模型，微軟的Trellis.2 3D生成器。這種組合降低了復現門檻，也繞開了某些閉源模型的使用限制。

但研究團隊也坦誠，當前版本對復雜交互物體的處理仍有局限。如果用戶要求"背包背面要有一個能打開的卡扣"，且這個卡扣在輸入圖像中完全不可見，模型有時會生成結構合理但功能存疑的結果——它知道卡扣長什么樣，但不一定理解"能打開"意味著什么。

另一個待優化點是生成速度。三階段流水線（語言理解→圖像翻譯→3D生成）比端到端模型慢，如何在保持可控性的前提下壓縮延遲，是工程化的關鍵。

論文最后提到，團隊正在探索將這一框架擴展到視頻生成和4D動態場景。如果單圖到3D的背面可控，那么視頻序列到動態3D的時序一致性，或許是下一個攻關方向。

當AI終于愿意聽用戶描述"背面應該是什么樣"，3D生成的工作流會被改寫嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

毫秒級搜索10億生物序列！騰訊×浙大合作推出最強生物序列搜索AI工具——ERAST

生物世界 2026-04-06 15:07:19
0 跟貼 0
6小時，200美元，0人類代碼：Anthropic把AI編程推過了臨界點

新智元 2026-03-31 12:34:21
27 跟貼 27

告別昂貴賬單，Token直降68%，多智能體動態協作編程來了

機器之心Pro 2026-04-07 13:16:40
0 跟貼 0

SpatialActor通過解耦語義與幾何，為具身智能注入強魯棒空間基因

機器之心Pro 2025-12-05 13:50:29
0 跟貼 0
「AI殺死Git」？前GitHub掌門人開啟AI原生操作系統

新智元 2026-04-05 10:43:35
8 跟貼 8

Codeforces難題不夠刷？謝賽寧等造了AI出題機，能生成原創編程題

機器之心Pro 2025-10-20 14:17:05
0 跟貼 0

Meta員工空轉AI只為浪費token！燒的多掙的多，日均消耗2萬億

量子位 2026-04-07 17:13:17
0 跟貼 0
7個頂級AI集體撒謊，為救“同伴”篡改文件、偷運數據

鈦媒體APP 2026-04-07 11:01:25
0 跟貼 0

李飛飛李曼玲團隊發布空間理論：AI的空間智能還在三歲小孩階段

DeepTech深科技 2026-03-31 15:06:46
0 跟貼 0
一夜變天:GPT-Image-2流出,昔日王者Nano Banana Pro被拉下神壇？

機器之心Pro 2026-04-07 11:19:35
0 跟貼 0
燒Token成KPI，8.5萬Meta員工狂刷60萬億Token，爭榜一大哥

機器之心Pro 2026-04-07 13:24:24
0 跟貼 0
Claude爆火研究漏引華人團隊成果，已挨打立正道歉

量子位 2026-04-07 17:03:51
0 跟貼 0
Karpathy開源第二大腦方案，有望替代向量數據庫，讓AI永不失憶

DeepTech深科技 2026-04-05 16:24:52
0 跟貼 0
USC團隊發布HumDex：攻克人形機器人數據瓶頸，低成本靈巧操控

機器之心Pro 2026-04-07 14:32:19
0 跟貼 0
邀請函｜ICLR 2026中稿先講，在這場預講會遇見你的學術同行

DeepTech深科技 2026-04-07 18:37:24
0 跟貼 0
虎嗅【作·嗅之星】周榜第307～308期

虎嗅APP 2026-04-07 01:00:05
0 跟貼 0
騰訊開發AI產品「探夢DreamNow」，包含互動影游

鞭牛士 2026-04-07 09:14:05
1 跟貼 1
這家虹口游戲企業憑什么拿下騰訊年度第一？

上海虹口 2026-04-07 12:10:22
0 跟貼 0
美巨頭終于被趕出中國！壟斷30年，曾叫囂：絕不培養中國員工

小夢兒來說事 2026-04-05 14:33:00
0 跟貼 0
字節與鵝廠的健身房大戰落幕，鵝廠勝！

鞭牛士 2026-04-07 17:56:09
0 跟貼 0
微軟提出Computer-Using World Model，教智能體理解動作的后果

機器之心Pro 2026-03-09 11:59:44
0 跟貼 0
中金公司股權結構煥新：騰訊阿里離場，易方達、貝萊德等入局；今年以來新發“10億基”突破百只｜券商基金早參

每日經濟新聞 2026-04-07 10:00:05
1 跟貼 1
易中天，獲獎勵20萬元

極目新聞 2026-04-06 21:04:19
25149 跟貼 25149
河南小伙，被中東大佬下300輛戰車模型，全村都上了！

乘風笑浪 2026-04-06 14:56:09
3 跟貼 3
騰訊“自砍一刀”的游戲，又進暢銷榜TOP3了

游戲日報 2026-04-07 18:40:44
0 跟貼 0
敢和騰訊搶賽道？這游戲除了妹子很“大”外，還有哪里能打的？

17173游戲網 2026-04-07 14:24:09
0 跟貼 0
完球了，GPT-4o之母宣布離職OpenAI

量子位 2026-04-07 17:19:50
1 跟貼 1
陳麗華47歲倒追遲重瑞財富傳承披露：1兒2女均在富華

極目新聞 2026-04-07 12:39:33
1721 跟貼 1721
鬼手想點誰就點誰？LaSM讓GUI智能體把注意力「收回來」

機器之心Pro 2026-04-07 14:27:35
0 跟貼 0
男子和小老外結婚三年，開始健身女友這樣理解，婆婆秒接受指令！

搞笑大蘑菇 2026-04-05 13:19:09
0 跟貼 0
楊元慶，捐贈2億元！

證券時報 2026-04-06 22:44:23
880 跟貼 880
“祖先給的特權”，河南網友稱祖墳在景區祭祖免票，景區回應：沒過檢票口，一般是附近住戶的祖墳

大風新聞 2026-04-06 15:06:12
2008 跟貼 2008
Claude災難級大宕機，全球開發者集體炸鍋！Anthropic三連翻車被怒噴

新智元 2026-04-07 13:48:58
1 跟貼 1
AI時代的人才快車道：大廠已經來搶人了？

財經網科技 2026-04-07 15:14:41
0 跟貼 0
鄭麗文率團抵達上海開啟大陸參訪行程

環球網資訊 2026-04-07 13:18:07
41 跟貼 41
“Claude Code更新廢了”！思考深度降67%，無法勝任復雜工程任務

量子位 2026-04-07 14:07:07
0 跟貼 0
中科曙光：2026年第一季度凈利潤約2.25億元，同比增加20.88%

每日經濟新聞 2026-04-07 18:53:29
0 跟貼 0
毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體 2026-04-05 08:48:13
2610 跟貼 2610
小龍蝦裝在怎樣的池塘？養蝦達人10天速成班來了！

量子位 2026-03-21 07:45:16
0 跟貼 0
高盛下調2026年銅價預期料供應過剩規模擴大

財聯社 2026-04-07 19:00:17
0 跟貼 0

手機 / 數碼

房產 / 家居

騰訊混元3D搞了個狠活：單圖生成3D，背面讓用戶說了算

數據荒：3D生成的阿克琉斯之踵

中間商賺差價：圖像生成模型當翻譯

四分之一處的甜蜜點

開源與閉源的微妙博弈

滿嘴謊言！OpenAI奧特曼黑料大起底

英媒：伊朗最高領袖病重昏迷 無法參與任何國家決策

英媒：伊朗最高領袖病重昏迷 無法參與任何國家決策

官宣簽約“AI球員”，這支球隊被罵慘了...

女首富陳麗華離世 被曝生前已分好遺產

10萬億財政轉移支付，被誰拿走了？

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

可樂、魚腥草進教室…武漢商學院這堂“食品感官分析”課，夯爆了

2026年清明節假期國內出游1.35億人次

干細胞抗衰4大誤區,90%的人都中招

MINISFORUM銘凡推出M1 Lite迷你主機：搭載酷睿Ultra 5 125U

雅致愜意 感知生活之美

英媒：伊朗最高領袖病重昏迷無法參與任何國家決策

英媒：伊朗最高領袖病重昏迷無法參與任何國家決策

女首富陳麗華離世被曝生前已分好遺產

不止是大極狐首款MPV問道V9靜態體驗

雅致愜意感知生活之美