視頻處理的世界中,有一個(gè)惱人的問題困擾著技術(shù)人員多年——當(dāng)我們將圖像處理技術(shù)簡單地應(yīng)用到視頻上時(shí),常常會(huì)產(chǎn)生令人不適的時(shí)間閃爍。想象一下,你拍攝的風(fēng)景視頻經(jīng)過風(fēng)格化處理后,每一幀都美輪美奐,但播放起來卻像是在閃爍的燈光下觀看,這種不連貫感會(huì)大大削弱視覺體驗(yàn)。以往的解決方案都需要原始未處理的視頻作為參考,這顯然限制了其實(shí)用性。而今,一種不依賴原始視頻,直接從帶有閃爍的視頻中學(xué)習(xí)恢復(fù)自然動(dòng)態(tài)的方法應(yīng)運(yùn)而生,它如何突破傳統(tǒng)限制、實(shí)現(xiàn)更加自然流暢的視頻體驗(yàn)?這正是本文要探討的核心問題。
![]()
閃爍之源
視頻與圖像的本質(zhì)區(qū)別在于時(shí)間維度。當(dāng)我們把針對(duì)靜態(tài)圖像設(shè)計(jì)的處理方法簡單地應(yīng)用到視頻的每一幀上時(shí),就忽視了視頻幀之間的時(shí)間連接,這種做法往往會(huì)導(dǎo)致嚴(yán)重的時(shí)間不一致性,也就是我們常說的"閃爍"現(xiàn)象。
這種閃爍可能來自多種原因。比如,對(duì)于相鄰的兩幀畫面,盡管內(nèi)容幾乎相同,但由于全局或局部統(tǒng)計(jì)數(shù)據(jù)的輕微變化,圖像處理方法可能會(huì)產(chǎn)生截然不同的結(jié)果。以視頻著色為例,一輛車在某段視頻中出現(xiàn),消失后再次出現(xiàn),幀間處理可能會(huì)在第一次出現(xiàn)時(shí)將其著成藍(lán)色,第二次出現(xiàn)時(shí)又變成紅色。這種不一致性會(huì)給觀眾帶來明顯的視覺干擾。
另一個(gè)導(dǎo)致閃爍的因素是應(yīng)用程序的多模態(tài)性。對(duì)于內(nèi)容相似的圖像,可能存在多個(gè)有效的處理方案。例如在藝術(shù)風(fēng)格遷移中,同一場(chǎng)景可能會(huì)有多種風(fēng)格化表現(xiàn)形式。當(dāng)這些不同的解決方案被應(yīng)用到連續(xù)的視頻幀時(shí),就會(huì)產(chǎn)生明顯的時(shí)間閃爍。
目前,有幾種針對(duì)特定任務(wù)的時(shí)間一致性修正方法,如針對(duì)風(fēng)格遷移、上色、去噪等具體應(yīng)用場(chǎng)景的專門技術(shù)。但由于這些應(yīng)用的復(fù)雜性,真正能解決盲目時(shí)間一致性修正問題的方法屈指可數(shù)。
Bonneel等人在2015年首次研究了盲目時(shí)間一致性修正問題,提出了一種基于梯度域最小化的方法,將逐幀處理的視頻與未處理的視頻進(jìn)行比較,以最小化幀之間的扭曲誤差。Lai等人在2018年擴(kuò)展了這一方法,利用循環(huán)卷積神經(jīng)網(wǎng)絡(luò)并引入了感知懲罰,限制恢復(fù)視頻與逐幀處理視頻之間的感知內(nèi)容偏差。Lei等人提出的深度視頻先驗(yàn)(DVP)將深度圖像先驗(yàn)擴(kuò)展到時(shí)間維度,提出通過訓(xùn)練CNN生成處理后的視頻,而不使用光流。
這些方法都依賴于未處理視頻的可用性,以隱式提取一致的運(yùn)動(dòng)動(dòng)態(tài)作為恢復(fù)指南。雖然這種方法有效,但這種隱式定義限制了以前提出的方法只能應(yīng)用于那些原始對(duì)應(yīng)視頻可用的視頻,并且會(huì)引入對(duì)原始視頻的固有偏見,可能會(huì)損害翻譯效果和處理視頻的質(zhì)量。
例如,在某些情況下,修正后的視頻可能會(huì)過度向原始視頻靠攏,導(dǎo)致處理效果被削弱。比如在風(fēng)格化視頻中,修正過程可能會(huì)減少藝術(shù)風(fēng)格的強(qiáng)度,使得畫面更接近原始內(nèi)容。這種偏向原始視頻的固有偏差在當(dāng)前可用的方法中非常常見。
自學(xué)自用
![]()
為了克服上述限制,我們的目標(biāo)是僅從時(shí)間不一致的視頻中學(xué)習(xí)并推斷一致的運(yùn)動(dòng)表示。這樣做不僅消除了在測(cè)試階段對(duì)原始視頻的需求,還減輕了當(dāng)前可用方法中常見的對(duì)原始視頻的固有偏見。
基于此思路,我們提出了一種雙分支網(wǎng)絡(luò)架構(gòu),將內(nèi)容處理和運(yùn)動(dòng)處理分離開來。這種架構(gòu)的核心思想是,通過精心設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu),我們可以從不一致的視頻中直接學(xué)習(xí)到一致的運(yùn)動(dòng)表示,而不需要原始視頻作為參考。
具體來說,我們的方法在網(wǎng)絡(luò)中集成了光流估計(jì)網(wǎng)絡(luò),并通過端到端的方式進(jìn)行微調(diào)。與以往將小型光流估計(jì)網(wǎng)絡(luò)整合到特定任務(wù)中的方法不同,我們采用了一種兩次傳遞機(jī)制,并添加了一個(gè)編碼器,鼓勵(lì)生成一致的動(dòng)態(tài)。
這種雙通道策略允許我們的模型從時(shí)間不一致的幀中回歸出一致的運(yùn)動(dòng)動(dòng)態(tài)。通過這種設(shè)計(jì),我們的網(wǎng)絡(luò)能夠有效地利用推斷出的一致運(yùn)動(dòng)表示,僅通過考慮測(cè)試時(shí)的時(shí)間不一致視頻就能恢復(fù)視頻中的自然時(shí)間動(dòng)態(tài)。
我們的網(wǎng)絡(luò)包含一個(gè)類似UNet的結(jié)構(gòu),有多個(gè)編碼器流和單個(gè)解碼器流。解碼器包含來自內(nèi)容流的跳連接,以鼓勵(lì)更好的重建。網(wǎng)絡(luò)的瓶頸部分包含一個(gè)循環(huán)瓶頸塊,用于傳輸和操作生成幀的信息到時(shí)間上相距較遠(yuǎn)的幀。
運(yùn)動(dòng)分支由兩次通過PWCNet(共享權(quán)重)組成,隨后是一個(gè)常規(guī)的類編碼器架構(gòu)。這種兩通道策略與附加的編碼器一起,使所提出的模型能夠從時(shí)間不一致的幀中回歸一致的運(yùn)動(dòng)動(dòng)態(tài)。
值得注意的是,通過我們的方法,從時(shí)間一致和不一致視頻中估計(jì)出的"修改"流是非常相似的,這表明網(wǎng)絡(luò)可以有效地利用推斷出的一致運(yùn)動(dòng)表示來恢復(fù)視頻中的自然時(shí)間動(dòng)態(tài),而不需要在測(cè)試時(shí)考慮原始視頻。
另一個(gè)好處是,這種分離的表示允許用戶通過迭代安排進(jìn)一步提高恢復(fù)的時(shí)間一致性水平。這種靈活性使我們的方法能夠適應(yīng)各種不同的應(yīng)用場(chǎng)景,從風(fēng)格遷移到上色,再到圖像增強(qiáng)等多種視頻處理任務(wù)。
綜上所述,我們提出的方法通過從不一致視頻中學(xué)習(xí)一致運(yùn)動(dòng)表示,成功解決了視頻處理中的時(shí)間一致性問題,同時(shí)避免了對(duì)原始視頻的依賴。這種方法不僅擴(kuò)大了應(yīng)用范圍,還保留了處理效果的完整性,為視頻處理技術(shù)提供了一個(gè)新的思路。
巧設(shè)目標(biāo)
![]()
要讓機(jī)器學(xué)會(huì)恢復(fù)視頻的自然流動(dòng)感,我們需要設(shè)計(jì)特殊的目標(biāo)函數(shù),就像教會(huì)孩子做事需要給他明確的規(guī)則和獎(jiǎng)勵(lì)一樣。在這項(xiàng)研究中,所設(shè)計(jì)的目標(biāo)函數(shù)可以分為兩大類:局部鄰域損失和長期時(shí)間損失。
局部鄰域損失主要關(guān)注相鄰幀之間的連貫性。當(dāng)我們處理像風(fēng)格轉(zhuǎn)換這樣的應(yīng)用時(shí),處理前后的視頻內(nèi)容可能差異巨大,簡單的內(nèi)容匹配重建損失并不適用。因此,研究者提出了一種流梯度損失,它利用光流的空間梯度來監(jiān)督運(yùn)動(dòng)邊界的重建,這恰恰是閃爍現(xiàn)象最明顯的區(qū)域。
這種流梯度損失不直接比較原始光流,而是比較光流的梯度信息。這樣做減少了高維光流中的冗余信息,只保留了消除時(shí)間閃爍所需的局部時(shí)空信息。具體而言,流梯度損失的計(jì)算公式為:
Lfg = ∑(t=2到T) ||?(of(Ot, Ot-1)), ?(of(It, It-1))||1
其中,Lfg表示流梯度損失,of表示光流估計(jì)網(wǎng)絡(luò),?表示空間梯度操作,T是序列中的總幀數(shù)。
不過,單靠光流損失還不足以完全糾正時(shí)間一致性,因?yàn)楣饬鞣匠炭赡苡卸鄠€(gè)解決方案。為了解決這個(gè)問題,研究者添加了一個(gè)非局部光流重建損失:
Lrecon = ∑(t=2到T) Ct||Ot - t||1
這里,t表示通過光流扭曲前一幀Ot-1得到的估計(jì),Ct是一個(gè)遮擋掩碼,用于排除遮擋區(qū)域的影響。這個(gè)損失函數(shù)確保生成的幀與前一幀具有相似的內(nèi)容,并且合成幀之間的運(yùn)動(dòng)動(dòng)態(tài)與時(shí)間一致的對(duì)應(yīng)幀相似。
除此之外,研究者還引入了常規(guī)的短期感知相似性損失,以最小化合成幀與原始處理幀之間的偏差:
Lp = ∑t∑l||φl(Ot) - φl(Pt)||1
這里,φl(.)表示VGG-16網(wǎng)絡(luò)中直到relu_4_3層的層,該網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上訓(xùn)練。
前面提到的損失函數(shù)擅長處理相鄰幀,但對(duì)于遠(yuǎn)距離幀的一致性卻無能為力。想象一輛車在視頻中出現(xiàn),消失,然后再次出現(xiàn)的場(chǎng)景。幀間處理方法可能在第一次賦予它藍(lán)色,第二次卻變成紅色。局部損失函數(shù)只能確保每段中的顏色一致,但不能保證兩段之間的顏色一致。
![]()
為了解決這個(gè)問題,研究者在模型中引入了一個(gè)遞歸模塊,并添加了強(qiáng)制模型生成時(shí)間上連貫的幀的顯式約束。與之前的方法不同,它們簡單地試圖最小化當(dāng)前幀與序列第一幀的偏差,對(duì)于包含大量變化幀的視頻來說是不夠的。因此,研究者引入了一種雙向懲罰,通過局部鄰域損失在后向方向上強(qiáng)制時(shí)間平滑,通過提出的長期損失在前向方向上強(qiáng)制時(shí)間平滑。
這個(gè)被稱為常數(shù)損失的長期損失定義為:
Lconstancy = ∑(p=1到T-2)∑(t=p+2到T) Ct?p||Ot - w(Op, of(It-1, Ip))||1
不同于簡單的長期時(shí)間約束,這個(gè)損失項(xiàng)考慮了序列中所有幀的幀間閃爍,并提供了一個(gè)能夠懲罰整個(gè)序列中時(shí)間差異的強(qiáng)有力的監(jiān)督信號(hào)。
最終的損失函數(shù)是這些損失的加權(quán)和:
Ltotal = λ1Lfg + λ2Lrecon + λ3Lp + λ4Lconstancy
這里,λs定義了每個(gè)損失在優(yōu)化階段的貢獻(xiàn)。通過這種強(qiáng)時(shí)間懲罰和提出的流梯度損失的結(jié)合,提出的網(wǎng)絡(luò)學(xué)會(huì)生成更平滑的視頻,盡管在測(cè)試時(shí)只能訪問逐幀處理的視頻。
實(shí)績卓著
經(jīng)過嚴(yán)格的實(shí)驗(yàn)評(píng)估,這種不依賴原始視頻的時(shí)間一致性恢復(fù)方法取得了令人印象深刻的結(jié)果。研究者在兩個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了測(cè)試:DAVIS視頻分割數(shù)據(jù)集和從Videovo.net收集的視頻。這些視頻經(jīng)過了多種應(yīng)用處理,包括藝術(shù)風(fēng)格遷移、上色、圖像增強(qiáng)、內(nèi)在圖像分解和圖像到圖像的翻譯任務(wù)。
在實(shí)驗(yàn)階段,研究者測(cè)試了各種光流估計(jì)網(wǎng)絡(luò)。最終選擇了中等大小的PWC-Net網(wǎng)絡(luò)和更多的優(yōu)化迭代,并設(shè)計(jì)了一個(gè)迭代安排,在每次迭代中持續(xù)減少扭曲誤差。
對(duì)于量化評(píng)估,研究者使用了時(shí)間扭曲誤差作為主要指標(biāo)。較低的時(shí)間扭曲誤差表示較好的時(shí)間一致性。在DAVIS和VIDEVO數(shù)據(jù)集上,該方法在所有測(cè)試的應(yīng)用中都產(chǎn)生了最低的平均時(shí)間扭曲誤差,超過了之前的方法,包括Bonneel等人、Lai等人和DVP的方法。
例如,在DAVIS數(shù)據(jù)集上,對(duì)于WCT(antimono)應(yīng)用,該方法的扭曲誤差為0.0026,而Bonneel的方法為0.0029,Lai的方法為0.0031,DVP的方法為0.0022。在VIDEVO數(shù)據(jù)集上,對(duì)于相同的應(yīng)用,該方法的扭曲誤差為0.0015,與Bonneel的方法相當(dāng),但低于Lai的方法(0.0021)。
![]()
需要注意的是,時(shí)間扭曲誤差并不考慮生成幀的感知質(zhì)量,會(huì)給模糊的視頻分配較低的值。為了驗(yàn)證該方法的有效性,研究者還使用了一種專門用于評(píng)估視頻中運(yùn)動(dòng)平滑度的指標(biāo),并在由DVP處理的評(píng)估數(shù)據(jù)集的一部分上進(jìn)行了測(cè)試。
針對(duì)感知質(zhì)量,研究者還使用了LPIPS指標(biāo)。在DAVIS數(shù)據(jù)集上,該方法的平均LPIPS為0.0524,接近Lai方法的0.0445,但明顯優(yōu)于Bonneel方法的0.1369和DVP方法的0.2414。在VIDEVO數(shù)據(jù)集上,結(jié)果也類似:該方法為0.0556,Lai方法為0.0521,Bonneel方法為0.1523,DVP方法為0.2167。
不過,僅僅依靠這些指標(biāo)并不能全面評(píng)估結(jié)果的質(zhì)量和一致性,因此研究者還進(jìn)行了用戶研究作為評(píng)估的主要標(biāo)準(zhǔn)。
在第一個(gè)全面用戶研究中,36名參與者被要求判斷150個(gè)不同場(chǎng)景的視頻,這些視頻由各種方法處理。平均而言,41%的用戶更喜歡由該方法恢復(fù)的視頻。
在第二個(gè)因素化用戶研究中,用戶被要求判斷隨機(jī)選擇的15個(gè)視頻,并記錄他們選擇的理由。大約86%的參與者表示,他們選擇視頻的依據(jù)是較少的閃爍和更好的質(zhì)量保持。在這些極具挑戰(zhàn)性的任務(wù)中,平均約47%的用戶更喜歡通過該方法處理的視頻。
在質(zhì)性比較中,由Bonneel等人的方法產(chǎn)生的結(jié)果在發(fā)生遮擋和去遮擋的視頻序列中未能保持感知質(zhì)量。由DVP處理的幀明顯模糊,并失去了翻譯效果。與Lai等人的方法相比,該方法能夠更忠實(shí)地保留恢復(fù)幀中的感知質(zhì)量,不會(huì)根據(jù)原始視頻翻轉(zhuǎn)對(duì)象的顏色/外觀。
![]()
所提出的方法在處理非常低幀率的視頻時(shí)確實(shí)存在一些困難,在風(fēng)格轉(zhuǎn)換視頻的情況下,一些更細(xì)微的不一致性(如更細(xì)的筆觸)會(huì)丟失,這使得結(jié)果視頻看起來有點(diǎn)單調(diào)。
總的來說,通過從時(shí)間不一致的視頻中推斷和利用一致的運(yùn)動(dòng)表示,研究者提出了一種任務(wù)無關(guān)的時(shí)間一致性校正框架,可以恢復(fù)自然的視頻動(dòng)態(tài),而不需要在測(cè)試時(shí)從未處理的視頻中提取視頻動(dòng)態(tài)。這種方法不僅擴(kuò)大了其在更廣泛的應(yīng)用中的適用性,還避免了在當(dāng)前為此任務(wù)提出的方法中明顯的翻譯效果的妥協(xié)。
參考資料
Ali, M. K., Kim, D., &; Kim, T. H. (2025). Task Agnostic Restoration of Natural Video Dynamics. ICCV.
Bonneel, N., et al. (2015). Blind Video Temporal Consistency.
Lai, W. S., et al. (2018). Learning Blind Video Temporal Consistency.
Lei, C., et al. (2020). Deep Video Prior.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.