![]()
單張圖生成3D模型,AI最怕什么?
不是分辨率不夠,也不是紋理糊了——是你永遠不知道背面長什么樣。用戶拍了一張沙發的正面照,AI生成的背面可能多出三條腿,或者干脆變成一張平板。這個問題困擾了行業多年,直到最近一組中國高校研究者給出了新解法:與其讓AI瞎猜,不如讓用戶直接告訴它背面該是什么。
數據荒:3D生成的阿克琉斯之踵
圖像生成模型有數十億張網圖可以學,文本模型啃下了整個互聯網的文字,但3D數據呢?稀缺得可憐。這導致一個尷尬局面:AI見過無數貓的照片,卻沒見過多少只貓的完整三維掃描。讓它從單圖重建3D,本質上是在讓它"腦補"——而腦補的結果,往往是物理上不可能存在的形狀。
研究團隊指出,現有方法在生成物體背面時,經常出現結構斷裂、比例失調或與用戶意圖不符的問題。
傳統思路是堆更多3D訓練數據,但這事成本極高。一套專業3D掃描設備動輒上百萬,人工建模更是慢工出細活。有沒有捷徑?研究團隊把目光投向了多模態大語言模型——這些模型雖然沒"見過"多少3D數據,但讀過的東西足夠多,知道"背包應該有肩帶""椅子四條腿才穩"這類常識。
直接讓語言模型輸出3D?不行。語言模型的表征太抽象,缺乏空間信息,喂給3D生成器就是雞同鴨講。
中間商賺差價:圖像生成模型當翻譯
Know3D的解法是在語言模型和3D生成器之間塞一個圖像生成模型,當翻譯。具體配置是:Qwen2.5-VL負責理解用戶指令和輸入圖像,Qwen-Image-Edit把理解轉化為空間結構信息,最后用微軟的Trellis.2生成3D模型。
語言模型讀完文字指令,分析完輸入圖片,把"背面應該有個口袋"這類需求轉述給圖像生成模型。圖像生成模型再輸出帶空間信息的表征,指導3D生成器干活。
關鍵問題是:從圖像生成模型的哪個環節提取信息?
研究團隊測試了三個選項。一是最終輸出前的內部圖像表征,二是用Meta的DINOv3從輸出圖像提取的特征,三是生成過程中的中間狀態。前兩種都依賴像素級結果,如果圖像生成模型畫錯了——比如把單肩包畫成雙肩包——錯誤會原封不動傳進3D模型。
中間狀態贏了,而且贏得很明顯。這些狀態既包含語義信息(知道這是包),又包含空間信息(知道包的大致結構),還不用對最終圖像的像素精度負責。哪怕生成的背面視圖有瑕疵,中間狀態里的結構感足夠讓3D生成器輸出合理結果。
四分之一處的甜蜜點
提取中間狀態的時機很有講究。太早,信息還陷在像素細節里;太晚,噪聲開始主導。消融實驗顯示,在生成進程約25%的位置截取狀態,效果最佳。
這個發現本身就有趣——它暗示圖像生成模型的工作流程可能是:前期搭建結構框架,后期填充紋理細節。3D生成更需要前者。
用戶能控制到什么程度?論文展示的案例中,輸入一張椅子的正面照,用戶可以指定"背面要有橫條靠背""椅腿是彎曲的"等細節,最終3D模型會忠實反映這些要求。相比傳統方法只能被動接受AI的"腦補",Know3D把背面設計的主動權交還給了用戶。
這對電商、游戲、建筑可視化等場景意義重大。設計師不再需要為了一張背面參考圖去翻遍圖庫,用幾句話描述就能鎖定想要的效果。
開源與閉源的微妙博弈
Know3D的技術棧全鏈路基于開源或開放權重模型:阿里的Qwen系列語言模型和圖像編輯模型,微軟的Trellis.2 3D生成器。這種組合降低了復現門檻,也繞開了某些閉源模型的使用限制。
但研究團隊也坦誠,當前版本對復雜交互物體的處理仍有局限。如果用戶要求"背包背面要有一個能打開的卡扣",且這個卡扣在輸入圖像中完全不可見,模型有時會生成結構合理但功能存疑的結果——它知道卡扣長什么樣,但不一定理解"能打開"意味著什么。
另一個待優化點是生成速度。三階段流水線(語言理解→圖像翻譯→3D生成)比端到端模型慢,如何在保持可控性的前提下壓縮延遲,是工程化的關鍵。
論文最后提到,團隊正在探索將這一框架擴展到視頻生成和4D動態場景。如果單圖到3D的背面可控,那么視頻序列到動態3D的時序一致性,或許是下一個攻關方向。
當AI終于愿意聽用戶描述"背面應該是什么樣",3D生成的工作流會被改寫嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.