在人工智能領域,將文字故事轉(zhuǎn)化為圖像序列一直是個極具挑戰(zhàn)性的任務。傳統(tǒng)方法往往只關注單句文本到圖像的轉(zhuǎn)換,卻忽視了故事中跨句的上下文信息,導致生成的圖像序列缺乏連貫性。想象一下,當AI讀到"樹林被雪覆蓋"后,應該能在后續(xù)圖像中保持這一背景元素,而不是憑空生成新場景。一項突破性研究提出了創(chuàng)新的記憶架構和文本增強技術,使AI能更好地理解故事脈絡,捕捉字里行間的隱含信息,從而生成既符合語義又保持連貫的圖像序列。這一技術不僅超越了現(xiàn)有方法,甚至在某些方面挑戰(zhàn)了那些需要海量計算資源的大型模型。
![]()
故事難解讀
故事可視化是一個讓計算機根據(jù)一段文字故事生成一系列圖像的任務,聽起來簡單,實際做起來卻困難重重。想象一下,當我們閱讀故事時,往往能自然地在腦海中形成連貫的畫面,這是因為我們不僅理解當前正在閱讀的句子,還能將前文提到的信息串聯(lián)起來,形成完整的背景和場景。
在故事可視化領域,研究人員發(fā)現(xiàn)傳統(tǒng)的人工智能模型在處理這類任務時存在明顯短板。這些模型通常是針對單句文本到單張圖像的轉(zhuǎn)換而設計的,當面對多句話組成的故事段落時,它們會將每個句子孤立處理,忽略了句子之間的上下文關聯(lián)。
以一個簡單的例子來說明這個問題:假設故事的第一句是"盧比注意到了什么。樹林被雪覆蓋了。",第二句是"盧比向波羅羅解釋了他的花發(fā)生了什么。"如果模型只關注第二句生成圖像,很可能會忽略第一句中提到的"樹林被雪覆蓋"這一重要背景信息,導致生成的圖像與整體故事不符。
這種上下文信息斷裂的現(xiàn)象在StoryGAN等早期故事可視化模型中尤為明顯。這些模型雖然能生成與單句相關的圖像,但缺乏捕捉跨句上下文的能力,導致生成的圖像序列在場景背景、角色一致性等方面存在不連貫性。
語言的多樣性也給故事可視化帶來了額外挑戰(zhàn)。同一個場景可以有多種不同的描述方式,但在訓練數(shù)據(jù)中,每個圖像通常只對應一種文本描述。這導致模型難以適應不同的語言表達方式,泛化能力受限。例如,"波羅羅、克朗、波比和艾迪坐在桌子周圍喝果汁"和"波羅羅的朋友們圍坐在桌邊,波比站著"描述的可能是同一個場景,但用詞和句式不同,傳統(tǒng)模型可能會將它們理解為不同的場景。
近年來,大型預訓練模型如DALL-E、CogView等在單句文本到圖像的轉(zhuǎn)換任務上取得了突破性進展,但這些模型通常需要數(shù)十億參數(shù)和海量訓練數(shù)據(jù),計算資源需求極高。此外,它們在處理多句組成的故事時,仍然面臨上下文理解的挑戰(zhàn)。例如,StoryDALL-E雖然是基于DALL-E微調(diào)的,但其參數(shù)量達到了13億,訓練數(shù)據(jù)量為1400萬文本-圖像對,對普通研究者來說幾乎無法復現(xiàn)。
正是在這樣的背景下,一種新的技術方案應運而生,它不依賴于超大規(guī)模模型和數(shù)據(jù),而是通過巧妙的架構設計和訓練策略,解決故事可視化中的上下文理解問題。
記憶保連貫
![]()
為了解決故事可視化中的上下文理解問題,研究人員提出了一種基于雙向Transformer框架的創(chuàng)新記憶架構。這一架構能夠在生成圖像序列時,有效地捕捉和利用跨句上下文信息,保持圖像的語義連貫性。
這個記憶架構的核心是一種名為"上下文記憶"的模塊,它能夠在生成圖像時選擇性地使用故事段落中的上下文信息。與傳統(tǒng)的Transformer不同,這種架構不僅關注當前輸入的文本,還能記住并利用之前句子中的關鍵信息,從而生成更加連貫的圖像序列。
具體來說,這種記憶架構包含兩個關鍵創(chuàng)新:部分層次記憶增強(PMA)和注意力加權記憶(AWM)。在傳統(tǒng)的記憶增強Transformer中,記憶連接通常存在于所有層中,這不僅計算成本高,而且可能會引入噪聲。而PMA只在Transformer的最后一層引入記憶連接,這樣既減少了計算復雜度,又能保證有效利用高層次的抽象特征。
實驗數(shù)據(jù)顯示,與全層次記憶連接相比,PMA在Pororo-SV測試集上的FID(Frchet Inception Distance)指標從61.23降低到59.05,角色F1分數(shù)從47.21提高到49.72,幀準確率從19.21%提高到21.79%,同時參數(shù)量從1.18億減少到9580萬,這證明了PMA在提高性能的同時還降低了計算成本。
注意力加權記憶(AWM)則是另一個關鍵創(chuàng)新。在故事中,并非所有歷史信息對當前圖像生成都同等重要。AWM機制通過注意力機制對歷史信息進行加權,重點關注與當前句子相關的上下文。例如,當生成描述雪地場景的圖像時,AWM會優(yōu)先關注之前提到"樹林被雪覆蓋"的信息,而弱化其他不相關的細節(jié)。
在記憶更新過程中,模型會先對當前隱藏狀態(tài)和之前的記憶狀態(tài)應用交叉注意力,得到一個上下文相關的表示。然后,通過門控循環(huán)單元(GRU)更新記憶狀態(tài),準備傳遞給下一個時間步。為了避免圖像內(nèi)容對文本理解的干擾,模型還使用了記憶注意力掩碼,只選擇文本標記作為記憶內(nèi)容。
這種記憶連接方案的優(yōu)勢在實際生成效果中清晰可見。例如,在一個關于艾迪和波羅羅打雪仗的故事中,沒有記憶模塊的模型在生成圖像序列時會出現(xiàn)背景突變的情況,而使用上下文記憶的模型則能保持背景的一致性,從第一幀到最后一幀都維持在雪地場景中。
通過人類偏好研究,研究者邀請了100名評估者對比有無記憶模塊生成的圖像序列。結果顯示,61.2%的評估者更傾向于使用記憶模塊的模型生成的圖像序列,認為它們在時間一致性和語義相關性方面表現(xiàn)更好。這一結果有力地證明了上下文記憶在生成連貫圖像序列中的關鍵作用。
與現(xiàn)有技術相比,這種記憶架構在不使用大規(guī)模預訓練模型的情況下,取得了顯著的性能提升。在Pororo-SV數(shù)據(jù)集上,它的FID指標達到52.13,比之前最好的VLC-StoryGAN(84.96)和VP-CSV(65.51)有大幅改進,同時在角色F1分數(shù)、幀準確率、BLEU-2/3和R-Precision等多項指標上都取得了明顯提升。這表明,通過巧妙的架構設計,即使是規(guī)模相對較小的模型也能在故事可視化任務中取得卓越表現(xiàn)。
文本增巧變
![]()
在解決了上下文記憶問題后,研究人員面臨的另一個挑戰(zhàn)是如何讓模型更好地應對語言的多樣性。想象一下,人們描述同一個場景時,可能會使用完全不同的詞匯和句式,這對AI系統(tǒng)來說是個大麻煩。在現(xiàn)實中,為每個圖像收集多種不同的文本描述成本太高,所以大多數(shù)故事可視化數(shù)據(jù)集中,一個圖像通常只對應一種描述方式。
為了解決這個問題,研究人員提出了一種名為"在線文本增強"的創(chuàng)新方法。與傳統(tǒng)的離線數(shù)據(jù)增強不同,這種方法不需要預先準備好多種描述,而是在模型訓練過程中動態(tài)生成多樣化的偽文本描述。
離線增強是一種常見的數(shù)據(jù)擴充方法,它通常使用預訓練好的圖像描述模型為每個圖像生成一個固定的替代描述。這種方法雖然能在一定程度上增加數(shù)據(jù)多樣性,但生成的描述往往缺乏變化,無法覆蓋自然語言的豐富表達方式。
在線文本增強則打破了這一限制。借助雙向Transformer架構的優(yōu)勢,模型不僅能從文本生成圖像,還能從圖像生成文本。在訓練過程中,對于每張訓練圖像,模型會在每個訓練周期動態(tài)生成不同的偽文本描述,并將這些描述作為額外的監(jiān)督信號來訓練文本到圖像的生成模型。
這個過程具體是這樣工作的:在訓練初期,模型的圖像到文本生成能力還很弱,生成的偽文本質(zhì)量不高,但隨著訓練的進行,生成的偽文本質(zhì)量逐漸提高,描述也越來越準確多樣。例如,對于同一個顯示"盧比邀請她的朋友們進來"的圖像,在不同訓練周期中可能會生成"波羅羅、艾迪、克朗、波比站在門口"、"他們在屋里交談"等不同的描述。
這些動態(tài)生成的多樣化描述極大地豐富了模型的訓練數(shù)據(jù),使模型能夠?qū)W習到同一場景的不同表達方式,從而在推理階段更好地應對語言變化。實驗結果顯示,相比于使用離線增強的模型,在線文本增強將FID指標從54.51降低到52.13,角色F1分數(shù)從51.32提高到53.25,幀準確率從22.31%提高到24.72%。
值得注意的是,在線文本增強不僅提高了模型對語言變化的適應能力,還通過中間目標加速了模型的收斂過程。在實際實驗中,研究人員觀察到使用在線增強的模型比基準模型更快達到較好的性能水平。
![]()
在線文本增強的另一個優(yōu)勢是它不需要額外的標注數(shù)據(jù)或外部模型,完全依靠模型自身的雙向生成能力來實現(xiàn)數(shù)據(jù)增強,這使得該方法特別適合數(shù)據(jù)有限的場景。通過查看生成的偽文本樣例,可以看到它們確實能捕捉到圖像中的關鍵視覺元素和語義信息,如角色、動作和場景,為模型提供了豐富的學習材料。
比拼見高低
為了全面評估所提出方法的性能,研究人員在Pororo-SV和Flintstones-SV兩個故事可視化基準數(shù)據(jù)集上進行了廣泛的實驗,并與多種現(xiàn)有方法進行了比較。
在Pororo-SV數(shù)據(jù)集上,CMOTA(上下文記憶和在線文本增強的組合)取得了顯著的性能提升。具體來說,CMOTA的FID得分為52.13,遠低于之前最好的方法VLC-StoryGAN(84.96)和VP-CSV(65.51),表明它生成的圖像質(zhì)量更高、更逼真。在角色一致性方面,CMOTA的角色F1分數(shù)達到53.25,幀準確率為24.72%,也大幅超過了之前的方法。在全局語義匹配指標上,CMOTA的BLEU-2/3分數(shù)和R-Precision值分別為4.58/1.90和7.34,同樣優(yōu)于現(xiàn)有方法。
當提高圖像分辨率到128128時,CMOTA-HR的性能進一步提升,特別是在角色F1分數(shù)(58.86)、幀準確率(28.89%)和R-Precision(16.36)等指標上有大幅提高,這表明高分辨率有助于捕捉更多視覺細節(jié),生成更準確的圖像。
在Flintstones-SV數(shù)據(jù)集上,CMOTA同樣表現(xiàn)出色。它的FID得分為36.71,遠低于StoryGAN(127.19)、DuCo-StoryGAN(78.02)和VLC-StoryGAN(72.87),角色F1分數(shù)和幀準確率分別達到79.74和66.01%,BLEU-2/3分數(shù)和R-Precision值分別為19.85/12.98和10.50,在所有指標上都大幅領先于現(xiàn)有方法。
特別值得一提的是,CMOTA即使在不使用專門的角色中心模塊的情況下,也能在角色一致性方面表現(xiàn)出色。通過分析Pororo-SV數(shù)據(jù)集中不同角色的分類F1分數(shù),發(fā)現(xiàn)CMOTA在所有角色上都優(yōu)于DuCo-StoryGAN和VLC-StoryGAN,且隨著角色在訓練數(shù)據(jù)中出現(xiàn)頻率的降低,其優(yōu)勢更加明顯。這表明CMOTA能更好地捕捉和保持跨句的角色信息。
為了驗證CMOTA的各個組件的有效性,研究人員進行了一系列消融研究。從單向Transformer開始,逐步添加部分層次記憶連接、注意力加權記憶、雙向訓練和在線增強,觀察每個組件對性能的影響。結果顯示,每個組件都對性能有積極貢獻,特別是部分層次記憶連接和在線文本增強帶來了最顯著的提升。
![]()
即使與大型預訓練模型相比,CMOTA也表現(xiàn)出了競爭力。研究人員將CMOTA與基于DALL-E的StoryDALL-E進行了比較,后者有13億參數(shù),訓練數(shù)據(jù)為1400萬文本-圖像對。盡管CMOTA在圖像質(zhì)量(FID)指標上略遜于完全微調(diào)的StoryDALL-E,但在角色F1分數(shù)和幀準確率上反而優(yōu)于它,表明CMOTA在語義理解方面具有獨特優(yōu)勢。更令人驚訝的是,CMOTA的FID指標(55.26)優(yōu)于僅更新30%參數(shù)的StoryDALL-E提示調(diào)整版本(61.23),且參數(shù)量僅為其7.4%。
為了獲得人類對生成質(zhì)量的主觀評價,研究人員在亞馬遜機械土耳其平臺上進行了大規(guī)模人類偏好研究,邀請100名評估者從視覺質(zhì)量、時間一致性和語義相關性三個方面評估CMOTA和VLC-StoryGAN生成的圖像序列。結果顯示,在6464分辨率下,63.6%、59.0%和57.9%的評估者分別在這三個方面更偏好CMOTA的生成結果。在128128分辨率下,這些比例進一步提高到76.6%、75.7%和74.6%,表明高分辨率下CMOTA的優(yōu)勢更加明顯。
從視覺上看,CMOTA生成的圖像序列在背景一致性、角色保持和視覺質(zhì)量方面都優(yōu)于之前的方法。例如,在描述艾迪尋找治療方法的故事中,CMOTA能夠保持一致的室內(nèi)背景和角色形象,而之前的方法則出現(xiàn)背景混亂或角色不一致的問題。
![]()
總的來說,這些實驗結果證明了上下文記憶和在線文本增強在故事可視化任務中的有效性,CMOTA不僅在各種客觀指標上超越了現(xiàn)有方法,也在人類主觀評價中獲得了高度認可。
參考資料
Ahn, D., Kim, D., Song, G., Kim, S. H., Lee, H., Kang, D., &; Choi, J. (2023). Story Visualization by Online Text Augmentation with Context Memory. ICCV 2023.
Li, Y., Min, M. R., Shen, D., Carlson, D., &; Carin, L. (2018). Video generation from text. AAAI 2018.
Wang, X., Girshick, R., Gupta, A., &; He, K. (2018). Non-local neural networks. CVPR 2018.
Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., Chen, M., &; Sutskever, I. (2021). Zero-shot text-to-image generation. ICML 2021.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., &; Polosukhin, I. (2017). Attention is all you need. NeurIPS 2017.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.