
本文刊發(fā)于《現(xiàn)代電影技術(shù)》2024年第10期
專家點(diǎn)評(píng)
《生成式AI驅(qū)動(dòng)的電影技術(shù)創(chuàng)新——SIGGRAPH 2024 AIGC相關(guān)研究綜述》通過(guò)總結(jié)SIGGRAPH 2024會(huì)議的最新研究成果,從泛化性、穩(wěn)定性、可控性三個(gè)核心維度分析了當(dāng)下生成式AI的研究方向與技術(shù)特點(diǎn),探討了其在虛擬角色動(dòng)作生成、群體動(dòng)畫(huà)模擬、三維資產(chǎn)生成等方面的創(chuàng)新應(yīng)用,突顯了人工智能生成內(nèi)容(AIGC)技術(shù)在推動(dòng)電影制作流程革新中的重要潛力。作者認(rèn)為AI生成技術(shù)將成為提升電影制作效率、豐富影像表現(xiàn)力的關(guān)鍵工具,但同時(shí)也面臨生成質(zhì)量仍不穩(wěn)定、計(jì)算資源需求過(guò)高等現(xiàn)實(shí)問(wèn)題。文章為電影技術(shù)的未來(lái)發(fā)展提供了富有前瞻性的洞見(jiàn),并對(duì)AIGC如何提升電影制作中的創(chuàng)意表達(dá)與生產(chǎn)效率展開(kāi)了深入探討。該綜述引發(fā)更深層次的思考在于,AIGC技術(shù)的廣泛應(yīng)用將對(duì)電影行業(yè)的創(chuàng)作模式產(chǎn)生何種影響?一方面,生成式AI的高效生成能力能夠大幅減少傳統(tǒng)電影制作中的手動(dòng)勞動(dòng),賦予創(chuàng)作者更多的時(shí)間和空間去探索新的藝術(shù)表達(dá)方式;另一方面,AI技術(shù)的介入是否會(huì)削弱電影創(chuàng)作中的人文關(guān)懷和藝術(shù)獨(dú)特性。這一點(diǎn)值得電影行業(yè)從業(yè)者和技術(shù)開(kāi)發(fā)者共同思考和探討。總之,這一綜述對(duì)于電影行業(yè)的從業(yè)者與技術(shù)研究人員具有重要的參考價(jià)值,有助于推動(dòng)生成式AI在影視領(lǐng)域的進(jìn)一步應(yīng)用和發(fā)展。
——王嵐君
天津大學(xué)新媒體與傳播學(xué)院研究員、博士生導(dǎo)師
作 者 簡(jiǎn) 介
劉紹龍
北京師范大學(xué)藝術(shù)與傳媒學(xué)院博士后,主要研究方向:圖形學(xué)、虛擬現(xiàn)實(shí)、計(jì)算機(jī)動(dòng)畫(huà)、數(shù)字藝術(shù)。
北京師范大學(xué)藝術(shù)與傳媒學(xué)院碩士研究生在讀,主要研究方向:人工智能藝術(shù)、虛擬現(xiàn)實(shí)與混合現(xiàn)實(shí)。
段佳鑫
摘要
SIGGRAPH會(huì)議長(zhǎng)期以來(lái)一直是電影產(chǎn)業(yè)與先進(jìn)技術(shù)融合的關(guān)鍵推動(dòng)力。本文聚焦SIGGRAPH 2024所展示的生成式人工智能(Generative AI)技術(shù)在影像內(nèi)容創(chuàng)作中的應(yīng)用,系統(tǒng)梳理了計(jì)算機(jī)圖形學(xué)(CG)與人工智能交叉領(lǐng)域的最新研究進(jìn)展,并從泛化性、穩(wěn)定性和可控性三個(gè)核心維度對(duì)生成式AI技術(shù)的現(xiàn)狀進(jìn)行深入分析,探討了其在電影制作中的創(chuàng)新應(yīng)用及其面臨的挑戰(zhàn)。此外,本文對(duì)生成式AI在未來(lái)電影技術(shù)發(fā)展中的角色進(jìn)行了深度審視與前瞻預(yù)測(cè),旨在為讀者提供一個(gè)從技術(shù)迭代的視角理解生成式AI技術(shù)的適用性及其對(duì)未來(lái)電影產(chǎn)業(yè)的影響。
關(guān)鍵詞
圖形學(xué);人工智能;SIGGRAPH;AI內(nèi)容生成;電影技術(shù)
國(guó)際計(jì)算機(jī)圖形與交互技術(shù)會(huì)議(SIGGRAPH)是計(jì)算機(jī)圖形學(xué)(CG)領(lǐng)域的頂級(jí)會(huì)議之一,匯集了來(lái)自世界各地的研究人員、實(shí)踐者和藝術(shù)家,會(huì)議展示了計(jì)算機(jī)圖形圖像技術(shù)、交互技術(shù)、虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)、數(shù)字藝術(shù)、動(dòng)畫(huà)、人工智能(AI)等領(lǐng)域的最新進(jìn)展。2024年會(huì)議延續(xù)其作為創(chuàng)新與前沿研究中心的傳統(tǒng),共接收252篇科研成果,較去年增長(zhǎng)36%,相關(guān)研究的火熱程度和研究者參與度逐年增長(zhǎng)。這些成果中包含大量生成式AI(Generative AI)等新興技術(shù),探討計(jì)算機(jī)圖形學(xué)(CG)、機(jī)器視覺(jué)與人工智能的交叉領(lǐng)域,突顯計(jì)算機(jī)視覺(jué)與計(jì)算機(jī)圖形學(xué)之間日益擴(kuò)展的重疊部分。正如組委會(huì)所提到的,SIGGRAPH 展示的論文主題正在不斷演變,AI的進(jìn)展擴(kuò)大了計(jì)算機(jī)視覺(jué)(CV)和計(jì)算機(jī)圖形學(xué)間共享主題的范圍,尤其是基于生成式 AI 的應(yīng)用。
近年來(lái),生成式AI正迅速成為電影技術(shù)領(lǐng)域的重要推動(dòng)力。其核心優(yōu)勢(shì)在于高質(zhì)量新穎內(nèi)容的低成本生成,涵蓋不同維度的數(shù)字資產(chǎn)生成,從而受到電影制作多個(gè)環(huán)節(jié)的廣泛關(guān)注,并被作為輔助工具引入影視內(nèi)容生產(chǎn)中。本次會(huì)議恰恰展示了成熟的計(jì)算機(jī)圖形學(xué)研究對(duì)于生成式影像內(nèi)容的新應(yīng)用探索。基于近期的研究,擴(kuò)散模型(Diffusion Model)、GPT大模型等生成模型框架已得到深入探討和廣泛推廣,相關(guān)研究成果正從對(duì)模型架構(gòu)的理論性探索轉(zhuǎn)向具體生產(chǎn)應(yīng)用,尤其關(guān)注性能優(yōu)化、穩(wěn)定可控及交互形式的研發(fā)。這一轉(zhuǎn)向預(yù)示著技術(shù)迭代進(jìn)入了優(yōu)化階段,進(jìn)一步推動(dòng)生成模型在多領(lǐng)域,尤其是影像內(nèi)容創(chuàng)作相關(guān)領(lǐng)域?qū)嶋H應(yīng)用中的深化。為了更好地總結(jié)本次會(huì)議中生成式AI技術(shù)、計(jì)算機(jī)圖形學(xué)技術(shù)以及電影技術(shù)應(yīng)用的融合成果,本文從泛化性、穩(wěn)定性和可控性三個(gè)方面進(jìn)行描述和展望,以便讀者從全局視角判斷生成式AI技術(shù)在電影領(lǐng)域的適用性和發(fā)展前景,進(jìn)而激發(fā)新的研究思路。
1跨模態(tài)泛化性與多任務(wù)擴(kuò)展
生成式AI技術(shù)的泛化能力可解釋為其在不同領(lǐng)域、不同任務(wù)和不同數(shù)據(jù)類型上都能有效應(yīng)用并保持優(yōu)異性能。例如,擴(kuò)散模型框架在圖像、視頻生成等不同生成任務(wù)中展現(xiàn)出一致的適用性與魯棒性。在本次會(huì)議中,這種跨任務(wù)適應(yīng)能力已擴(kuò)展到動(dòng)作、頭像、表情、群體動(dòng)畫(huà)(Crowd Animation)、特殊圖像等內(nèi)容生成領(lǐng)域,不僅涵蓋了電影影像的表層特征,還深入到與視覺(jué)效果和感知體驗(yàn)密切相關(guān)的垂直領(lǐng)域。技術(shù)發(fā)展正與電影制作需求步調(diào)一致,這體現(xiàn)了生成式AI技術(shù)在電影制作中的應(yīng)用正從廣度向深度發(fā)展。
1.1 虛擬角色的動(dòng)作生成
虛擬角色的動(dòng)作生成與編輯一直是計(jì)算機(jī)圖形學(xué)經(jīng)典話題,與傳統(tǒng)基于自回歸方式預(yù)測(cè)下一個(gè)動(dòng)作信號(hào)的方法,以及文生圖、圖生圖等應(yīng)用場(chǎng)景不同,生成式AI方法將虛擬角色的骨骼信息或面部關(guān)鍵點(diǎn)作為學(xué)習(xí)對(duì)象,利用自然語(yǔ)言或引導(dǎo)信息,通過(guò)嘗試引入擴(kuò)散模型框架進(jìn)行內(nèi)容生成、風(fēng)格化等處理。Sun等[1]提出從局部到全局的文本生成人物運(yùn)動(dòng)的擴(kuò)散模型框架,該框架首先采用大語(yǔ)言模型將人物全局運(yùn)動(dòng)描述分解為身體各部位的描述,如胳膊叉腰、腿部伸直等,然后由部分肢體運(yùn)動(dòng)編碼器對(duì)局部語(yǔ)義進(jìn)行對(duì)齊,這樣既能保證人體局部運(yùn)動(dòng)的準(zhǔn)確性,又能保證整體動(dòng)作的連貫性。Chen等[2]提出一種運(yùn)動(dòng)擴(kuò)散概率模型用以生成高質(zhì)量和多樣化的角色動(dòng)畫(huà),其核心基于條件自回歸運(yùn)動(dòng)擴(kuò)散模型(Conditional Autoregressive Motion Diffusion Model,CAMDM),包括單獨(dú)的條件標(biāo)記化、對(duì)過(guò)去運(yùn)動(dòng)的無(wú)分類器指導(dǎo)以及啟發(fā)式未來(lái)軌跡擴(kuò)展。該方法輸入歷史動(dòng)作,經(jīng)由簡(jiǎn)單用戶控制即可生成一系列不同動(dòng)作,展現(xiàn)出良好的實(shí)時(shí)性與交互性。Zhang等[3]提出一個(gè)能夠生成長(zhǎng)時(shí)間運(yùn)動(dòng)序列的方法,將運(yùn)動(dòng)的時(shí)間軸與擴(kuò)散過(guò)程的時(shí)間軸融合,使用 U?Net 架構(gòu)以自回歸方式合成內(nèi)容,從而形成任意時(shí)長(zhǎng)的運(yùn)動(dòng)序列,這對(duì)虛擬角色的運(yùn)動(dòng)連續(xù)一致性和運(yùn)動(dòng)過(guò)程中的引導(dǎo)控制有很大幫助。Cohan等[4]研究了擴(kuò)散模型在生成由關(guān)鍵幀引導(dǎo)的不同人體運(yùn)動(dòng)的潛力,提出一個(gè)簡(jiǎn)單且統(tǒng)一的中間運(yùn)動(dòng)擴(kuò)散模型,以適應(yīng)時(shí)間稀疏的關(guān)鍵幀、部分姿勢(shì)規(guī)范及文本提示。該方法符合以關(guān)鍵幀為核心的傳統(tǒng)三維動(dòng)畫(huà)制作方法,將關(guān)鍵幀繁瑣的手動(dòng)調(diào)節(jié)調(diào)整為自然語(yǔ)言交互的文本提示,對(duì)電影動(dòng)畫(huà)和后期制作人員更友好,提高了制作效率。
1.2 群體動(dòng)畫(huà)的模擬生成
群體動(dòng)畫(huà)模擬是后期CG特效、虛擬攝制、游戲制作等流程的主要部分,是模擬展示大型場(chǎng)景的必要手段,未來(lái)將應(yīng)用于虛擬現(xiàn)實(shí)(VR)影像、虛擬攝制等前沿影像制作工作流程中。前期工作主要為通過(guò)物理模擬等傳統(tǒng)圖像學(xué)的計(jì)算分析方法,但需要美術(shù)團(tuán)隊(duì)和工程團(tuán)隊(duì)進(jìn)行視覺(jué)環(huán)境創(chuàng)建、智能角色設(shè)計(jì)、復(fù)雜系統(tǒng)構(gòu)建等工作支持,仍屬勞動(dòng)密集型制作環(huán)節(jié)。為加速群體動(dòng)畫(huà)內(nèi)容的創(chuàng)建,Ji等[5]提出一種可根據(jù)與環(huán)境設(shè)置兼容的文本進(jìn)行驅(qū)動(dòng)的人群動(dòng)畫(huà)行為自動(dòng)生成方法,該方法引入擴(kuò)散模型,將環(huán)境地圖和描述多組代理行為的通用腳本作為輸入,再利用大語(yǔ)言模型將腳本規(guī)范化為結(jié)構(gòu)化句子,后將每個(gè)結(jié)構(gòu)化句子輸入至潛在擴(kuò)散模型,以預(yù)測(cè)用于導(dǎo)航代理組的速度場(chǎng),從而從高級(jí)文本描述生成多智能體導(dǎo)航場(chǎng)景。
長(zhǎng)遠(yuǎn)而言,未來(lái)群體動(dòng)畫(huà)的模擬將出現(xiàn)以生成式模型為框架的實(shí)時(shí)自動(dòng)生成方法,單一智能體(Agent)的行為和群體行為將會(huì)集成在一個(gè)框架中,越來(lái)越多的可交互編輯方法將出現(xiàn)在未來(lái)研究中,以加速虛擬攝制、動(dòng)畫(huà)和游戲的生產(chǎn)。
1.3 三維資產(chǎn)重建與生成
3D頭像制作領(lǐng)域,目前的關(guān)注熱點(diǎn)包括基于多幅照片的3D肖像重建與基于文本驅(qū)動(dòng)的3D頭像生成。該領(lǐng)域目前面對(duì)的挑戰(zhàn)有優(yōu)化生成網(wǎng)格模型過(guò)飽和、過(guò)度平滑等問(wèn)題。在重建方法中,Wu等[6]提出一種基于神經(jīng)渲染的3D肖像生成器。該方法采用新穎的金字塔三網(wǎng)格3D表示(Pyramid Tri?grid 3D Representation)以減輕“網(wǎng)格狀”偽影,并通過(guò)學(xué)習(xí)360°肖像分布作為方法框架的穩(wěn)健先驗(yàn)。此外,該方法通過(guò)擴(kuò)散模型的指導(dǎo)生成高質(zhì)量、視圖一致、逼真且規(guī)范的3D肖像。與該方法類似的還有Liu等[7]提出的可直接通過(guò)文本引導(dǎo)生成特定幾何形狀和紋理的數(shù)字資產(chǎn)的HeadArtist框架。具體而言,該方法將生成過(guò)程分解為幾何生成和紋理生成,其分別引入DMTet網(wǎng)格[8]和 Magic3D[9]用于表達(dá)幾何信息和構(gòu)建紋理空間,通過(guò)基于標(biāo)記點(diǎn)引導(dǎo)的ControlNet網(wǎng)絡(luò)構(gòu)造自評(píng)分蒸餾器(Self Score Distillation),并優(yōu)化參數(shù)化 3D 頭部模型。該方法能保持生成3D頭像的多樣性,同時(shí)避免過(guò)飽和與過(guò)度平滑的問(wèn)題,可使3D頭像數(shù)字資產(chǎn)形狀合理、無(wú)偽影且富有更逼真的紋理,可編輯性也顯著增強(qiáng)。此外,Jang等[10]基于StyleGAN框架提出一種三維面部卡通風(fēng)格化方法,通過(guò)輸入真實(shí)人物面部圖像,可輸出具有明顯卡通風(fēng)格的三維面部數(shù)據(jù)。該方法支持基于生成式對(duì)抗網(wǎng)絡(luò)(GAN)的3D面部表情編輯,因此可在二維GAN的潛在空間中直接對(duì)3D面部進(jìn)行創(chuàng)意構(gòu)建與編輯,可應(yīng)用于動(dòng)畫(huà)電影、數(shù)字人等人物角色制作流程,以提高生產(chǎn)效率。
通過(guò)語(yǔ)音合成帶有微表情且細(xì)節(jié)豐富的三維面部動(dòng)畫(huà),不僅是影視特效、三維動(dòng)畫(huà)制作中所需的重要技術(shù)儲(chǔ)備,也是未來(lái)虛擬數(shù)字人突破恐怖谷(Uncanny Valley)效應(yīng)的技術(shù)路徑。已有基于生成式模型的能力過(guò)于依賴大規(guī)模、高質(zhì)量的訓(xùn)練數(shù)據(jù),且數(shù)據(jù)缺乏情感變化和性格特征多樣性。Zhao等[11]提出一種具有細(xì)粒度面部表情和頭部姿勢(shì)的通用神經(jīng)表示以及多身份4D面部掃描數(shù)據(jù),基于上述神經(jīng)表示提出可生成高質(zhì)量口型同步的擴(kuò)散模型,從而生成可表達(dá)文本、圖像甚至音樂(lè)中微妙人類情感的面部動(dòng)畫(huà)。該方法的輸入數(shù)據(jù)包括對(duì)話、音樂(lè)、演講等不同音頻源,也包括文本、圖片等。在此方法的幫助下,數(shù)字人和生成式影像可具有更豐富的情感表達(dá),并在情緒安撫、情感治療等功能上邁出重要一步。
特殊圖像生成是一種人工智能生成內(nèi)容(AIGC)的創(chuàng)意應(yīng)用,其指生成利用視覺(jué)錯(cuò)位形成的圖像,比如狗的頭像旋轉(zhuǎn)180°后變成了樹(shù)懶。在創(chuàng)意探索過(guò)程中,Burgert等[12]利用擴(kuò)散模型提出視覺(jué)錯(cuò)位圖像生成框架,名為“擴(kuò)散錯(cuò)覺(jué)” (Diffusion Illusions)。該框架將圖像的錯(cuò)覺(jué)形式轉(zhuǎn)化為通過(guò)翻轉(zhuǎn)、旋轉(zhuǎn)或隱藏等方式產(chǎn)生的不同畫(huà)面內(nèi)容,利用特定的損失函數(shù)為生成圖像提供合適的對(duì)齊信號(hào)。該方法為非線性電影帶來(lái)啟發(fā),比如將該方法從圖像維度提升至視頻維度,用戶可將該方法生成的視頻畫(huà)面進(jìn)行旋轉(zhuǎn)、疊加,從而形成新的畫(huà)面內(nèi)容或語(yǔ)義符號(hào),最終形成非線性敘事結(jié)構(gòu)。未來(lái)該類方法能夠?yàn)榻换ナ诫娪昂碗娪坝螒蚧I(lǐng)域理論和實(shí)踐提供基礎(chǔ)。
2生成質(zhì)量穩(wěn)定性與可靠性優(yōu)化
在電影領(lǐng)域相關(guān)應(yīng)用中,生成式AI的穩(wěn)定性主要表現(xiàn)在生成內(nèi)容的精確性、連貫性及高效性。當(dāng)前的研究已從初步模型提出和驗(yàn)證逐步進(jìn)入模型優(yōu)化和應(yīng)用階段。研究者們?cè)谔岣吣P托省⑸少|(zhì)量、連貫性、一致性、魯棒性、多模態(tài)生成能力,節(jié)省計(jì)算資源和訓(xùn)練時(shí)間等方面取得了顯著進(jìn)展,這也為生成式AI在電影領(lǐng)域的應(yīng)用推廣奠定了基礎(chǔ)。
2.1 精確性優(yōu)化
生成內(nèi)容的精確性是指AI能夠生成高質(zhì)量、細(xì)節(jié)準(zhǔn)確的內(nèi)容,滿足影視制作的預(yù)期標(biāo)準(zhǔn),這是AI生成質(zhì)量穩(wěn)定性的重要體現(xiàn)。盡管基于擴(kuò)散的文本到圖像(T2I)模型在近期取得了重要突破,但目前方法仍難以確保生成圖像與文本提示高度一致,尤其在涉及具有不同屬性(例如不同形狀、大小和顏色)的多個(gè)對(duì)象生成時(shí),內(nèi)容生成的完整性仍存在挑戰(zhàn),如提示詞為“一個(gè)戴著皇冠的獅子”,其在實(shí)現(xiàn)智能生成獅子的同時(shí),很難生成一個(gè)皇冠。Bao等[13]分析上述問(wèn)題原因,發(fā)現(xiàn)其可能由于擴(kuò)散模型中注意力激活分?jǐn)?shù)(Attention Activation Scores)對(duì)于某些注意力有明顯較低的情況,或?qū)?yīng)于不同對(duì)象的注意力遮罩存在大量重疊。為解決該問(wèn)題,該方法通過(guò)結(jié)合分離損失和增強(qiáng)損失兩個(gè)損失函數(shù)提出了一種組合微調(diào)策略,從而實(shí)現(xiàn)更高的文本圖像對(duì)齊成功率和更真實(shí)的圖像生成效果,更好地生成多對(duì)象畫(huà)面內(nèi)容,允許用戶通過(guò)自然語(yǔ)言更精確地控制畫(huà)面內(nèi)容。同樣,Ma等[14]提出名為“Subject?Diffusion”的開(kāi)放域個(gè)性化圖形生成擴(kuò)散模型,僅使用一張參考圖像即可生成高保真主題驅(qū)動(dòng)的圖像,測(cè)試時(shí)無(wú)需微調(diào)。換言之,利用該模型可通過(guò)提示詞對(duì)輸入的參考圖片進(jìn)行修改,使其加入更多如類型、風(fēng)格、場(chǎng)景等個(gè)性化主題。
電影影像中通常包含大量的人物角色近景或特寫(xiě)肖像畫(huà)面,這些畫(huà)面通過(guò)表情和動(dòng)作細(xì)節(jié)傳遞信息和情感,這要求生成式人工智能在計(jì)算上述畫(huà)面時(shí)具有更穩(wěn)定的畫(huà)面和更精確的控制。為了解決上述問(wèn)題,Xie等[15]提出X?Portrait這一新穎的零樣本(Zero Shot)學(xué)習(xí)框架,其利用圖像擴(kuò)散先驗(yàn)來(lái)實(shí)現(xiàn)富有表現(xiàn)力的頭像動(dòng)畫(huà),通過(guò)關(guān)于局部面部運(yùn)動(dòng)的引導(dǎo)運(yùn)動(dòng)注意力(Guided Motion Attention)增強(qiáng)對(duì)微妙面部表情的解釋。該方法展示出感知質(zhì)量、運(yùn)動(dòng)豐富性、身份一致性和領(lǐng)域泛化等能力,實(shí)現(xiàn)了對(duì)微妙、極端面部表情(例如撅嘴和單眼眨眼)和大范圍頭部平移、旋轉(zhuǎn)的準(zhǔn)確表達(dá),即使在夸張的風(fēng)格化角色頭像生成過(guò)程中依然具有良好魯棒性。該方法很好地解決了電影(包括動(dòng)畫(huà)電影)中大量正反打?qū)υ掔R頭的高效生成,在實(shí)現(xiàn)情感有效傳遞的同時(shí)提高了電影生產(chǎn)效率。
2.2 連貫性優(yōu)化
生成內(nèi)容的一致性與連貫性對(duì)敘事效果、角色形象、觀影體驗(yàn)具有至關(guān)重要的影響,此前保持一致性的方法通常依賴于目標(biāo)角色的多個(gè)預(yù)存圖像或繁瑣的人工干預(yù)過(guò)程。Avrahami等[16]提出一種全自動(dòng)解決方案,該方法首先根據(jù)提供的提示詞生成圖像庫(kù)并使用預(yù)訓(xùn)練的特征提取器將它們嵌入歐幾里得空間中,隨后對(duì)這類嵌入進(jìn)行聚類并選擇最合適的一類作為提取一致身份的個(gè)性化方法輸入,之后使用生成的模型完成下一個(gè)圖像庫(kù)的生成,該圖像應(yīng)表現(xiàn)出更高一致性,同時(shí)仍然描述輸入提示,并重復(fù)迭代這個(gè)過(guò)程直到收斂。該方法最大的特點(diǎn)是無(wú)需目標(biāo)角色的任何圖像作為輸入,且畫(huà)面一致性效果突出。基于該方法,生成的角色在各種背景畫(huà)面中均能保持一致性,配合使用ControlNet模型,可基本實(shí)現(xiàn)虛擬角色的生成、表演與舞臺(tái)調(diào)度。Guo等[17]提出一個(gè)輕量化基于文本煙道的圖生視頻解決方案I2V?Adapter。該方法保留了預(yù)訓(xùn)練模型的先驗(yàn)知識(shí),使模型顯著減少新任務(wù)訓(xùn)練時(shí)間,有助于模型微調(diào),提高了生成視頻的泛化能力。此外,其通過(guò)引入一種新穎的幀相似性先驗(yàn)(Frame Similarity Prior)來(lái)平衡生成視頻的穩(wěn)定性和運(yùn)動(dòng)幅度,同時(shí)增強(qiáng)了模型可控性和生成視頻的多樣性。從實(shí)驗(yàn)結(jié)果可以看出,該方法生成的視頻具有較強(qiáng)連貫性,保證了角色等圖像身份方面的一致性,在生成具有運(yùn)動(dòng)范圍視頻時(shí)效果更好且扭曲誤差低,使其能夠在確保足夠運(yùn)動(dòng)精度的前提下生成帶有更多動(dòng)態(tài)效果的視頻。上述特征充分說(shuō)明該方法在畫(huà)面質(zhì)量和生產(chǎn)效率上得到了進(jìn)化。在可見(jiàn)的未來(lái),該方法有望結(jié)合幀插值和空間超分辨率模塊生成更長(zhǎng)持續(xù)時(shí)間、更穩(wěn)定連貫、更高分辨率的視頻。Zhao等[18]對(duì)3D頭像生成中提高保真度和效率發(fā)起挑戰(zhàn),他們提出了能夠融合多個(gè)輸入,且無(wú)需額外優(yōu)化的重建框架。該方法引入了可動(dòng)畫(huà)3D GAN先驗(yàn)以及創(chuàng)新的神經(jīng)紋理編碼器,旨在更好地保留重建頭像的細(xì)節(jié),恢復(fù)被遮擋的面部區(qū)域以及準(zhǔn)確地對(duì)動(dòng)態(tài)特征進(jìn)行建模,這對(duì)電影制作過(guò)程中保持頭像的身份一致性有很大幫助。
2.3 高效性優(yōu)化
生成內(nèi)容的高效性涉及生成內(nèi)容的速度和計(jì)算資源的使用效率。穩(wěn)定的生成式AI不僅在生成高質(zhì)量?jī)?nèi)容時(shí)表現(xiàn)穩(wěn)定,還能高效地完成生成任務(wù),優(yōu)化計(jì)算資源的使用,提高整體制作效率。Gu等[19]提出一種引導(dǎo)濾波器(Filter?Guided Diffusion)框架,通過(guò)根據(jù)示例圖像的結(jié)構(gòu)調(diào)節(jié)圖像擴(kuò)散,從而向生成圖像的擴(kuò)散模型添加高質(zhì)量引導(dǎo)。該框架所實(shí)現(xiàn)的速度和多樣性,使其能在比現(xiàn)有零樣本方法更短的時(shí)間內(nèi)生成更高質(zhì)量的結(jié)果。擴(kuò)散模型實(shí)質(zhì)存在一個(gè)產(chǎn)生噪聲和去除噪聲的過(guò)程,針對(duì)上述過(guò)程的優(yōu)化,Huang等[20]討論了相關(guān)噪聲和訓(xùn)練圖像之間的相關(guān)性對(duì)生成擴(kuò)散模型的影響,并將具有時(shí)變?cè)肼暤拇_定性擴(kuò)散過(guò)程引入擴(kuò)散模型框架中,該方法生成的圖像更自然,細(xì)節(jié)更豐富,偽影更少。
3生成內(nèi)容可控性與創(chuàng)作自由度提升
在AI輔助電影生產(chǎn)的過(guò)程中,生成式AI技術(shù)的可控性直接影響了生產(chǎn)者對(duì)內(nèi)容的把控以及藝術(shù)家創(chuàng)作的自由度,其包括對(duì)畫(huà)面內(nèi)容的控制、風(fēng)格形式的控制、鏡頭語(yǔ)言的控制等。在本次會(huì)議中,多個(gè)研究者從創(chuàng)作者角度探索了針對(duì)數(shù)字資產(chǎn)細(xì)節(jié)的人機(jī)交互控制方法,提升了AI輔助電影創(chuàng)作的能力以及電影生產(chǎn)的人機(jī)協(xié)同效率,同時(shí)也能保留藝術(shù)家對(duì)藝術(shù)表達(dá)的獨(dú)特性和個(gè)性化特征。
3.1 視頻生成的可控性
利用生成式AI生成視頻技術(shù)直接影響影視行業(yè)生產(chǎn)流程、成本資源和觀眾體驗(yàn)等方面。隨著Sora、可靈、Luma等基于Diffusion Transformers(DiT)框架的文生視頻大模型出現(xiàn),畫(huà)面質(zhì)量、內(nèi)容長(zhǎng)度均得到大幅提升,利用AI創(chuàng)作影像將會(huì)變成主流創(chuàng)作方式。然而作為生產(chǎn)力工具,其還存在可控性不足的問(wèn)題,比如影像畫(huà)面的運(yùn)動(dòng)通常包含了畫(huà)面中對(duì)象的運(yùn)動(dòng)和攝影機(jī)運(yùn)動(dòng),且這兩種運(yùn)動(dòng)通常會(huì)同時(shí)出現(xiàn),由于先前的方法通常缺乏對(duì)影像對(duì)象和攝影機(jī)運(yùn)動(dòng)同時(shí)進(jìn)行控制,導(dǎo)致專業(yè)影像制作者的創(chuàng)作可操作性大大降低,為此Yang等[21]提出了Direct?a?Video系統(tǒng),其通過(guò)解耦算法控制物體和相機(jī)運(yùn)動(dòng),從而允許用戶像導(dǎo)演一樣在生成影像過(guò)程中獨(dú)立指定多個(gè)對(duì)象的運(yùn)動(dòng)并控制攝影機(jī)的平移和縮放運(yùn)動(dòng),顯著提升了對(duì)生成畫(huà)面的可控性。針對(duì)影像中物體運(yùn)動(dòng)的控制,團(tuán)隊(duì)提出使用模型固有先驗(yàn)的空間交叉注意力調(diào)制實(shí)現(xiàn);針對(duì)相機(jī)運(yùn)動(dòng),團(tuán)隊(duì)引入了新的時(shí)間交叉注意層,以解釋定量的相機(jī)運(yùn)動(dòng)參數(shù),該方法優(yōu)勢(shì)在于可通過(guò)自我監(jiān)督和輕量級(jí)訓(xùn)練方法學(xué)習(xí)相機(jī)運(yùn)動(dòng)。相反,在推理過(guò)程中,可采用免訓(xùn)練方法來(lái)控制對(duì)象運(yùn)動(dòng),避免了對(duì)運(yùn)動(dòng)注釋和視頻基礎(chǔ)數(shù)據(jù)集的密集收集需要。此外,該方法在精確控制方面也有諸多優(yōu)勢(shì),比如可同時(shí)對(duì)相機(jī)的平移和縮放進(jìn)行控制,增加了相機(jī)可調(diào)參數(shù),以及更容易控制多個(gè)對(duì)象的運(yùn)動(dòng),能避免語(yǔ)義的混合和缺失。未來(lái),在該方法基礎(chǔ)上可延伸出基于草圖的相機(jī)精確運(yùn)動(dòng)調(diào)節(jié),使通過(guò)故事板直接生產(chǎn)影像的可能性進(jìn)一步增加。
基于交互方式進(jìn)行可控性內(nèi)容修改的相關(guān)研究大多針對(duì)圖像展開(kāi),例如拖動(dòng)修改圖像生成技術(shù)[22]和特定區(qū)域修改技術(shù)[23],但生成視頻的交互內(nèi)容修改技術(shù)仍存在技術(shù)空缺。在本次會(huì)議中Shi等[24]提出一種用于一致且可控的文本引導(dǎo)圖像到視頻生成 (I2V) 的新穎框架,將困難的圖像到視頻生成任務(wù)分解為兩個(gè)階段:第一階段訓(xùn)練一個(gè)基于擴(kuò)散的運(yùn)動(dòng)場(chǎng)預(yù)測(cè)器,重點(diǎn)是推導(dǎo)合理的運(yùn)動(dòng);第二階段則完成視頻渲染,為有效擴(kuò)大時(shí)間感受野,該方法提出通過(guò)運(yùn)動(dòng)引導(dǎo)時(shí)間注意力。該框架能避免具有較大視點(diǎn)變化的相機(jī)運(yùn)動(dòng)、非剛性運(yùn)動(dòng)情況下的失幀,使視頻生成功能更為準(zhǔn)確且魯棒。最值得討論的是該方法支持用戶使用稀疏軌跡和運(yùn)動(dòng)畫(huà)筆更精確地控制影像的運(yùn)動(dòng)軌跡和動(dòng)畫(huà)區(qū)域,其運(yùn)動(dòng)筆刷(Motion Brush)功能可控制影像中的區(qū)域運(yùn)動(dòng),例如讓影像中角色頭發(fā)更加飄逸且整體畫(huà)面沒(méi)有違和感,而運(yùn)動(dòng)拖拽功能(Motion Drag)則可通過(guò)繪制路徑精確控制畫(huà)面中的對(duì)象運(yùn)動(dòng),例如可讓影像中的貓根據(jù)繪制路徑進(jìn)行轉(zhuǎn)頭。對(duì)于電影技術(shù)而言,該方法嘗試使用可交互方式對(duì)影像進(jìn)行控制,盡管仍存在復(fù)雜運(yùn)動(dòng)或多對(duì)象交互情況下失幀的現(xiàn)象,但在生成影像可控性探索方面邁出了一大步。
在影像制作過(guò)程中,畫(huà)面構(gòu)圖對(duì)于增強(qiáng)敘事、引導(dǎo)注意力、體現(xiàn)影片風(fēng)格等方面起著積極作用。在引導(dǎo)圖像生成過(guò)程中,用戶常常使用景深信息約束畫(huà)面構(gòu)圖,這一過(guò)程需要用戶提供深度圖作為輸入,然而提供這種深度信息對(duì)于用戶而言本身就是一個(gè)挑戰(zhàn)。Bhat等[25]為此提出一個(gè)基于深度的快速引導(dǎo)圖像生成方法LooseControl,并提供兩種交互式編輯模式,即場(chǎng)景邊界控制(Scene Boundary Control)和三維盒控制(3D Box Control)。在該創(chuàng)意生成和編輯的新模式下,用戶能夠以更有效和漸進(jìn)的方式探索構(gòu)圖設(shè)計(jì)空間。
3.2 圖像生成的可控性
針對(duì)靜態(tài)圖像中的對(duì)象生成,除了控制畫(huà)面整體風(fēng)格,另一類方法是控制形象的視覺(jué)外觀。Alaluf等[26]提出基于外觀遷移的視覺(jué)外觀控制,將概念的視覺(jué)外觀從一個(gè)圖像轉(zhuǎn)移到另一個(gè)圖像中存在的概念,例如將第一張圖中斑馬的外觀轉(zhuǎn)移到第二張圖的長(zhǎng)頸鹿圖像上。該方法首先需要輸入外觀圖像和結(jié)構(gòu)圖像,如斑馬和長(zhǎng)頸鹿,然后將圖像反轉(zhuǎn)到文生圖預(yù)訓(xùn)練擴(kuò)散模型的潛在空間中。之后在去噪過(guò)程的每個(gè)時(shí)間步驟,通過(guò)將結(jié)構(gòu)圖像對(duì)應(yīng)的查詢與外觀圖像的鍵值相乘以計(jì)算修改后的自注意力圖。該方法的優(yōu)勢(shì)在于零樣本學(xué)習(xí),不需要優(yōu)化或訓(xùn)練,適用于科幻電影形象概念設(shè)計(jì),尤其適合推理構(gòu)建物種融合等硬科幻世界觀。若該方法能擴(kuò)展到時(shí)間維度,在生成影像中直接融合或遷移外觀,讓科幻形象的運(yùn)動(dòng)遵循物理規(guī)律,可使塑造的角色運(yùn)動(dòng)更真實(shí)。
影像中的照明和材質(zhì)是關(guān)鍵藝術(shù)元素,其不僅有助于觀眾看清畫(huà)面內(nèi)容,更是創(chuàng)造氛圍、傳達(dá)情感、塑造角色形象以及推動(dòng)故事情節(jié)發(fā)展的重要工具,因此控制生成畫(huà)面中的光線效果也是AI影像藝術(shù)生成的重要基礎(chǔ)。然而現(xiàn)有方法很難通過(guò)文本提示詞來(lái)詳細(xì)描述和控制光環(huán)境的參數(shù)。為解決此問(wèn)題,Zeng等[27]提出基于擴(kuò)散模型的圖像光線控制方法。該方法首先生成臨時(shí)圖片并對(duì)其進(jìn)行前后景分割,之后通過(guò)將目標(biāo)光照傳遞到名為DiLightNet的細(xì)化擴(kuò)散模型,通過(guò)推斷前景對(duì)象的粗略形狀計(jì)算出輻射度提示,重新修改和細(xì)化生成圖像中的前景對(duì)象,最終重新合成與前景物體上光照一致的背景。簡(jiǎn)言之,該方法同時(shí)考慮了提示詞和畫(huà)面主題對(duì)象的形狀,從而讓合成的圖像更具有物理真實(shí)感。將該方法應(yīng)用于電影制作中將提升后期特效合成環(huán)節(jié)的效率,通過(guò)背景重繪來(lái)控制整個(gè)畫(huà)面的燈光效果,也增強(qiáng)了工具的可控性。此類照明控制方法未來(lái)有望直接應(yīng)用于文生視頻的模型中。此外,Luo等[28]利用生成式AI對(duì)圖像進(jìn)行內(nèi)蘊(yùn)屬性分解,例如反照率(Albedo)、著色(Shading)、法線(Normal)等圖形學(xué)概念。該方法創(chuàng)新性地將內(nèi)蘊(yùn)屬性形式化分解為利用預(yù)先訓(xùn)練的文生圖模型的條件生成問(wèn)題,并提出新穎的ControlNet架構(gòu),將不同數(shù)據(jù)源與不通過(guò)聯(lián)合學(xué)習(xí)框架同類型的注釋相結(jié)合,聯(lián)合預(yù)測(cè)多種內(nèi)蘊(yùn)屬性。與之類似的方法還有Zeng等[29]提出的RGB→X 擴(kuò)散模型,該方法可僅指定應(yīng)遵循的某些內(nèi)蘊(yùn)屬性,來(lái)引導(dǎo)模型推理其余畫(huà)面的合理版本。利用上述方法可對(duì)輸入的圖像進(jìn)行重新照明和設(shè)置紋理材質(zhì),將圖形學(xué)渲染的基本元素與生成式AI框架相結(jié)合,使得對(duì)圖像的生成控制可以像圖形學(xué)渲染邏輯一樣進(jìn)行處理。
3.3 三維生成的可控性
在三維數(shù)字資產(chǎn)方面,為提高三維內(nèi)容生成的可控性,Liu等[30]將草圖交互方式引入文生三維內(nèi)容生成框架中,提出基于草圖的多視圖圖像生成擴(kuò)散模型,能夠在生成高質(zhì)量三維對(duì)象的同時(shí)允許可控的神經(jīng)輻射場(chǎng)(NeRF)編輯。為進(jìn)一步支持本地修改編輯,該方法開(kāi)發(fā)了從粗到細(xì)的編輯框架:粗略階段生成初始結(jié)果以更好地標(biāo)記編輯區(qū)域,而精細(xì)階段則通過(guò)局部渲染策略生成高質(zhì)量的編輯結(jié)果,該方法在三維內(nèi)容的可控生成上取得了顯著提升。編輯紋理是三維內(nèi)容創(chuàng)建流程的另一重要組成部分。Guerrero-Viu等[31]操縱(Constrastive Language?Image Pre?training,CLIP)圖像嵌入來(lái)調(diào)節(jié)擴(kuò)散生成從而編輯紋理內(nèi)容。該方法使用簡(jiǎn)單文本提示(例如,“老化木材”到“新木材”)定義編輯方向,并使用紋理先驗(yàn)將其映射到CLIP圖像嵌入空間,為進(jìn)一步改進(jìn)一致性保留,其將這些方向投影至CLIP子空間,以最大限度地減少由糾纏紋理屬性引發(fā)的一致性變化。最終方法可僅使用自然語(yǔ)言提示創(chuàng)建任意滑塊用以動(dòng)態(tài)編輯紋理材質(zhì)。
4總結(jié)與展望
從技術(shù)發(fā)展角度,傳統(tǒng)圖形學(xué)先后融合深度學(xué)習(xí)方法、生成式框架,其渲染圖片的方式和人工智能生成圖像的方式也將逐漸融合,從以生成式框架方法生產(chǎn)資產(chǎn)加以傳統(tǒng)圖形學(xué)控制畫(huà)面的方式進(jìn)行協(xié)作,形成新的研究領(lǐng)域和應(yīng)用工具,讓智能延伸到圖形底層邏輯,如幾何表達(dá)、光照著色等。基于生成式AI框架的技術(shù)迭代,DiT框架等前沿方法彌補(bǔ)了以往技術(shù)在內(nèi)容生成過(guò)程中的不足,如基于回歸的方法多樣性、生動(dòng)性不足;GAN較難訓(xùn)練,依賴精確且冗余的參數(shù)調(diào)節(jié)等缺陷。經(jīng)過(guò)技術(shù)迭代,近期研究則聚焦如何提升技術(shù)泛化性、穩(wěn)定性與可控性,以及如何將上述特征與垂直領(lǐng)域應(yīng)用相結(jié)合,這將驅(qū)使未來(lái)畫(huà)面內(nèi)容的每一個(gè)像素逐漸依賴于生成式AI技術(shù)的處理與渲染。然而這一轉(zhuǎn)變也伴隨著新的挑戰(zhàn)且需進(jìn)一步探索的領(lǐng)域,如數(shù)據(jù)管理、計(jì)算資源的優(yōu)化和模型可解釋性等。未來(lái),不管是模型的個(gè)性化訓(xùn)練與微調(diào),還是模型推理階段的復(fù)雜計(jì)算,算力需求仍是限制條件,如何在不損失生成質(zhì)量的情況下有效應(yīng)用這些技術(shù)依然是關(guān)注熱點(diǎn)。
從電影生產(chǎn)角度而言,由于生成式AI技術(shù)泛化性、穩(wěn)定性與可控性的提升,其將正式成為電影生產(chǎn)過(guò)程中主流的輔助工具,且這一趨勢(shì)預(yù)計(jì)將長(zhǎng)期持續(xù)。由于生成式AI技術(shù)逐漸與傳統(tǒng)圖形學(xué)主題結(jié)合,通過(guò)利用自身的跨模態(tài)泛化能力滲透到電影制作領(lǐng)域更深的工作流程中,如鏡頭語(yǔ)言表達(dá)、燈光色彩編輯等,為虛擬攝制、后期特效、游戲開(kāi)發(fā)、數(shù)智人等工具集中填充了更多輔助功能。從本次SIGGRAPH會(huì)議成果來(lái)看,研究方向即以確保AI能夠提供高質(zhì)量、連貫和高效的生成結(jié)果為主導(dǎo),這也是AI作為電影生產(chǎn)輔助工具的基本要求。更重要的是,越來(lái)越多的研究從創(chuàng)作者角度出發(fā),結(jié)合影像內(nèi)容創(chuàng)作流程需求,對(duì)可控性、交互性、可編輯性等方向進(jìn)行技術(shù)探索。新的輔助工具也必將催生新的生成模式和工作流程,比如借助跨模態(tài)生成能力,目前的內(nèi)容生成方法已模糊了二維與三維數(shù)字資產(chǎn)生產(chǎn)模式的邊界,對(duì)于電影理論而言,由技術(shù)瑕疵導(dǎo)致的AI風(fēng)格“缺陷美”將逐漸改善,AI影像審美將回歸傳統(tǒng),AI影像評(píng)判依然要遵從敘事結(jié)構(gòu)、情感傳遞、創(chuàng)作意圖、受眾體驗(yàn)等因素。
從電影產(chǎn)業(yè)角度來(lái)看,目前的生成式AI技術(shù)聚焦生產(chǎn)效率的優(yōu)化,而減少?gòu)碾娪氨旧碇指淖儭T跓o(wú)法保證影像生成質(zhì)量的情況下,AI生成的成本效益或許會(huì)先波及“短平快”的自媒體和網(wǎng)絡(luò)劇。就像2009年的《阿凡達(dá)》電影,與動(dòng)作捕捉技術(shù)一樣,越來(lái)越多的AI輔助部門(mén)出現(xiàn)在電影演職員表中,基于AI實(shí)時(shí)捕捉和渲染的硬件與解決方案也會(huì)出現(xiàn)在電影市場(chǎng)中,生成式AI技術(shù)在電影中的發(fā)展也取決于導(dǎo)演和制片的“膽識(shí)”。
未來(lái),生成式AI技術(shù)除了作為輔助工具外,也會(huì)催生新的影像表達(dá)形式,如非線性敘事AI影像、基于生理數(shù)據(jù)AI影像、具身感知AI影像等。生成式AI是幫助未來(lái)影像跨越維度的通道,這一維度跨越體現(xiàn)在可交互性、可定制化等。通過(guò)生成式AI技術(shù),影像創(chuàng)作能夠突破傳統(tǒng)的敘事和表達(dá)限制,探索更多創(chuàng)新形式和可能性。盡管我們?cè)诩夹g(shù)革新帶來(lái)的興奮中不斷前行,但我們必須銘記,電影的核心依然在于敘事內(nèi)容和情感表達(dá)。
參考文獻(xiàn)
(向下滑動(dòng)閱讀)
[1] Sun H, Zheng R, Huang H B, et al. LGTM: Local?to?Global Text?Driven Human Motion Diffusion Model[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?9.
[2] Chen R, Shi M, Huang S, et al. Taming Diffusion Probabilistic Models for Character Control[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?10.
[3] Zhang Z, Liu R, Hanocka R, et al. TEDi: Temporally?Entangled Diffusion for Long?Term Motion Synthesis[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.
[4] Cohan S, Tevet G, Reda D, et al. Flexible Motion In?betweening with Diffusion Models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?9.
[5] Ji X, Pan Z, Gao X, et al. Text?Guided Synthesis of Crowd Animation[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.
[6] Wu Y, Xu H, Tang X, et al. Portrait3D: Text?Guided High?Quality 3D Portrait Generation Using Pyramid Representation and GANs Prior[J]. ACM Transactions on Graphics.2024,43(4): 1?12.
[7] Liu H, Wang X, Wan Z, et al. HeadArtist: Text?conditioned 3D Head Generation with Self Score Distillation[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?12.
[8] Shen T, Gao J, Yin K, et al Deep Marching Tetrahedra: a Hybrid Representation for High?Resolution 3D Shape Synthesis[C]//Advances in Neural Information Processing Systems: Volume 34. Curran Associates, Inc,2021: 6087?6101.
[9] Lin C H, Gao J, Tang L, et al. Magic3D: High?Resolution Text?to?3D Content Creation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023:300?309.
[10] Jang W, Jung Y, Kim H, et al. Toonify3D: StyleGAN?based 3D Stylized Face Generator[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.
[11] Zhao Q, Long P, Zhang Q, et al. Media2Face: Co?speech Facial Animation Generation With Multi?Modality Guidance[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?13.
[12] Burgert R, Li X, Leite A, et al. Diffusion Illusions: Hiding Images in Plain Sight[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.
[13] Bao Z, Li Y, Singh K K, et al. Separate?and?Enhance: Compositional Finetuning for Text?to?Image Diffusion Models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?10.
[14] Ma J, Liang J, Chen C, et al. Subject?Diffusion: Open Domain Personalized Text?to?Image Generation without Test?time Fine?tuning[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?12.
[15] Xie Y, Xu H, Song G, et al. X?Portrait: Expressive Portrait Animation with Hierarchical Motion Attention[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.
[16] Avrahami O, Hertz A, Vinker Y, et al. The Chosen One: Consistent Characters in Text?to?Image Diffusion Models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?12.
[17] Guo X, Zheng M, Hou L, et al. I2V?Adapter: A General Image?to?Video Adapter for Diffusion Models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?12.
[18] Zhao X, Sun J, Wang L, et al. InvertAvatar: Incremental GAN Inversion for Generalized Head Avatars[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?10.
[19] Gu Z, Yang E, Davis A. Filter?Guided Diffusion for Controllable Image Generation[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?10.
[20] Huang X, Salaun C, Vasconcelos C, et al. Blue noise for diffusion models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.
[21] Yang S, Hou L, Huang H, et al. Direct?a?Video: Customized Video Generation with User?Directed Camera Movement and Object Motion[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?12.
[22] Mou C, Wang X, Song J, et al. DiffEditor: Boosting Accuracy and Flexibility on Diffusion?based Image Editing[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024:8488?8497.
[23] Li Y, Zhou P, Sun J, et al. Multi?Region Text?Driven Manipulation of Diffusion Imagery[J]. Proceedings of the AAAI Conference on Artificial Intelligence,2024,38(4): 3261?3269.
[24] Shi X, Huang Z, Wang F Y, et al. Motion?I2V: Consistent and Controllable Image?to?Video Generation with Explicit Motion Modeling[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.
[25] Bhat S F, Mitra N, Wonka P. LOOSECONTROL: Lifting ControlNet for Generalized Depth Conditioning[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.
[26] Alaluf Y, Garibi D, Patashnik O, et al. Cross?Image Attention for Zero?Shot Appearance Transfer[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?12.
[27] Zeng C, Dong Y, Peers P, et al. DiLightNet: Fine?grained Lighting Control for Diffusion?based Image Generation[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?12.
[28] Luo J, Ceylan D, Yoon J S, et al. IntrinsicDiffusion: Joint Intrinsic Layers from Latent Diffusion Models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.
[29] Zeng Z, Deschaintre V, Georgiev I, et al. RGB?X: Image decomposition and synthesis using material? and lighting?aware diffusion models[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.
[30] Liu F L, Fu H, Lai Y K, et al. SketchDream: Sketch?based Text?To?3D Generation and Editing[J]. ACM Trans. Graph, 2024, 43(4): 44:1?44:13.
[31] Guerrero-Viu J, Hasan M, Roullier A, et al. TexSliders: Diffusion?Based Texture Editing in CLIP Space[C]//Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers ’24. Denver CO USA: ACM: 1?11.
【本文項(xiàng)目信息】中國(guó)博士后科學(xué)基金第75批面上資助“基于AI agent的智能敘事模型研究”(2024M750215)的成果。
![]()
![]()
主管單位:國(guó)家電影局
主辦單位:電影技術(shù)質(zhì)量檢測(cè)所
標(biāo)準(zhǔn)國(guó)際刊號(hào):ISSN 1673-3215
國(guó)內(nèi)統(tǒng)一刊號(hào):CN 11-5336/TB
投稿系統(tǒng):ampt.crifst.ac.cn
官方網(wǎng)站:www.crifst.ac.cn
期刊發(fā)行:010-63245081
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.