![]()
作者 | 董道力
郵箱 | dongdaoli@pingwest.com
在大模型的進化路徑上,多模態(tài)往往是層層遞進的過程:從文字,到圖片,再到視頻、空間,直至“一切”。每往前一步,都意味著數(shù)據(jù)維度的指數(shù)級擴展、算力的成倍消耗,以及訓練難度的急劇攀升。
從這個角度看,視頻生成被視為“皇冠上的明珠”,因為它不僅要求單幀畫面過關(guān),還必須在時序上保持連續(xù)和自然。能做出高質(zhì)量視頻的團隊,往往也能在圖像層面有強大積累。
因此,當 Vidu 在視頻生成領域頻頻被關(guān)注時,人們自然會聯(lián)想到:如果它能生出流暢的視頻,那么在靜態(tài)圖像領域,會不會直接形成“降維打擊”?
9 月 9 日,生數(shù)科技正式上線了「參考生圖」功能。這是 Vidu 體系在視頻之外的又一次延展。不同于常見的“輸入文字 → 輸出圖片”的方式,Vidu 引入了參考圖機制:用戶不僅能用文字描述需求,還能上傳多張參考圖,作為模型生成的依據(jù)。
對 AI 生圖來說,最大的不確定性往往在于“跑偏”:人物換臉時五官崩塌、產(chǎn)品換殼后比例失衡、跨風格融合時違和感強烈。增加參考圖,就像給模型多加了幾條“護欄”,不僅能約束生成結(jié)果,還能讓 AI 理解更多語義、細節(jié)和風格。
實測 vidu「參考生圖」
我們對 Vidu 進行了多輪測試,涵蓋了從娛樂性“玩梗”到實際的電商場景。
參考數(shù)量“天花板”
在參考數(shù)量上,Vidu 允許一次上傳多達7 張參考圖,而業(yè)內(nèi)普遍支持的只有 1–3 張,在復雜場景下卻是決定性優(yōu)勢。
用 VIdu 開發(fā)人員的話來說:多參考生圖的關(guān)鍵在于不僅要理解每個主體中的每個細節(jié),對于圖片每個元素有著原子式的理解,能保持更多主體每個特征的一致,還要理解整個主體,理解每個主體之間的關(guān)系。
任務 1:同類素材融合
我上傳了 4 張運動員照片(籃球與足球的“詹庫連線”)。成品中,球員神態(tài)自然,衣服顏色、隊徽、裝飾元素都大體還原。雖然個別地方有 bug,比如“6”被識別成了 “s”,但考慮到只用到單角度圖片,表現(xiàn)已屬不俗。
![]()
在對比其他產(chǎn)品時,差異立竿見影。很多平臺在 2 張圖之后就開始“力不從心”:要么強行把人物拼接在畫布邊角,要么直接舍棄某些參考元素。而 Vidu 可以同時“消化”多元素,在構(gòu)圖時保持自然。
![]()
任務 2: 跨類型素材融合
進一步嘗試跨類型組合。比如上傳馬斯克頭像、機器人參考素材。Vidu 能較好地保持馬斯克的神態(tài),還能讓人物和機器人擺放到提示要求的位置。雖然最終畫面略顯僵硬,但邏輯是成立的。
![]()
跨類型組合幾乎是實際生產(chǎn)中最常見的需求。廣告主往往希望把品牌、人物、場景和商品糅合在一張圖里,傳統(tǒng)方法要么靠攝影棚,要么靠 PS 美工,而 Vidu 的“多參考”機制為此提供了新的路徑。
![]()
電商海報神器
任務 3:電商海報
電商運營最頭疼的,就是“只有一張裸圖”。節(jié)日海報、主題促銷、活動宣傳都需要大量素材,但預算有限、時間緊張時,只能硬著頭皮湊。
在 Vidu 里,只要上傳單一產(chǎn)品,再加上幾個關(guān)鍵詞,就能生成頗具創(chuàng)意的海報。比如上傳一張月餅照片,再輸入“兔子、花燈、月球”。生成結(jié)果不僅畫面完整,還細致到陰影邏輯:月餅下方有光影,兔子腳下的燈籠也能投射出柔和的影子。
![]()
對 AI 生圖來說,“影子”往往是最難的細節(jié),很多工具即便生成出漂亮的畫面,也常常忽略光影關(guān)系,讓成品顯得虛假。而 Vidu 在這一點上的表現(xiàn),說明其底層空間理解能力已經(jīng)達到較高水準。
![]()
任務 4:給模特換產(chǎn)品,給圖片加包裝
做電商的同學經(jīng)常會遇到一個場景,模特已經(jīng)拍好圖,但手里拿的不是最新款產(chǎn)品。要重新拍攝,成本和時間都很高。
![]()
在 Vidu 中,我們嘗試讓模特保持動作,僅替換手中的手機。第一次測試結(jié)果不理想,模特姿勢總有變化。但當輸入更明確的參考圖時,AI 可以基本維持動作,順利替換產(chǎn)品。
![]()
我們再來看一下產(chǎn)品細節(jié),可以看到,“SONY”“XPERIA”等品牌文字,以及閃光燈位置都被精確復制,幾乎沒有偏差。唯一的小瑕疵是顏色較淡的 NFC 標志被識別錯誤。
![]()
在這一點上,Vidu 已經(jīng)接近實用級別,它或許還不能完全替代拍攝,但能大幅縮短修改流程,降低成本。
任務 5:元素跨界融合
跨界做海報也是電商常見的需求,但往往會遇到跨的步子太大導致風格不統(tǒng)一等問題。
比如你有一張李白的復古圖片,想要讓他拿著產(chǎn)品,很可能會導致突兀。但在 vidu 這你只需要明確畫風就能將二者很好的融合。
![]()
AI 生圖也有上下文
如果說「參考生圖」是解決“單張圖如何變得更合理”的問題,那么「主體」功能則把問題往前推了一步:如何在多張圖、多場景中保持同一個角色的一致性。
在 Vidu 的設計里,用戶可以上傳 1–3 張同一人物、物體或場景的照片,系統(tǒng)會為其建立一個“主體檔案”。這意味著,你不僅能臨時參考幾張圖片,還能在之后的所有生成任務中,持續(xù)調(diào)用這個角色。
![]()
為什么這很重要?因為一致性,向來是 AI 生圖最大的痛點。過去生成十張圖,模特的臉型可能有十種版本,產(chǎn)品的細節(jié)每次都走樣。主體功能的出現(xiàn),就像在 AI 的記憶里安了一卷底片,讓角色有了穩(wěn)定的身份。
對于電商商家來說,這意味著:一次上傳模特,就能在圣誕海報、中秋海報、夏季促銷圖中反復復用;對于內(nèi)容創(chuàng)作者來說,則是虛擬 IP 的長線運營基礎,一個角色能跨越無數(shù)作品保持統(tǒng)一風格。
從“參考”到“主體”,Vidu 的邏輯已經(jīng)不再是“幫你生一張圖”,而是悄然在構(gòu)建一個數(shù)字資產(chǎn)庫:每個人物、每個產(chǎn)品都可以被召回、被復用。這不只是生成,更是內(nèi)容工業(yè)化流水線的開端。
從功能到產(chǎn)業(yè)
Vidu 的「參考生圖」與「主體」功能,正在把 AI 生圖從“好玩”推向“好用”。它不僅滿足了用戶的娛樂性需求,更切中電商、廣告、內(nèi)容創(chuàng)作等行業(yè)的實際痛點:一致性、效率和成本。
過去,品牌要為一次節(jié)日營銷臨時組織拍攝,動輒花費數(shù)十萬;如今,運營團隊只需上傳幾張參考圖,就能在數(shù)小時內(nèi)完成一整套物料。對于設計師而言,這不是替代,而是擴展——讓他們可以把精力放在創(chuàng)意與策略上,而非機械性的重復勞動。
從行業(yè)視角看,這意味著電商內(nèi)容生產(chǎn)正進入一個新的階段:素材資產(chǎn)化,創(chuàng)意流水線化。在這個階段,AI 工具不再只是輔助,而是成為基礎設施。誰能率先掌握這類工具,誰就能在激烈的市場競爭中贏得先機。
Vidu 正在提供這樣一種可能性:讓企業(yè)把有限的資源投入到品牌和創(chuàng)意價值上,把重復性的執(zhí)行交給 AI。對于一個內(nèi)容消耗速度日益加快的時代,這可能正是下一輪增長的關(guān)鍵。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.