在人工智能與計算機視覺領域,視頻處理一直是一個挑戰(zhàn)性極高的任務。當深度神經(jīng)網(wǎng)絡需要在資源受限的設備上實時處理視頻流時,計算效率問題尤為突出。目前的解決方案大多關注于避免重復計算或使用光流進行特征變換,但鮮有研究關注量化技術與視頻處理的結合。ResQ殘差量化方案從一個全新的角度切入:利用相鄰視頻幀之間的殘差表示進行低位量化。這種方法基于一個關鍵發(fā)現(xiàn):幀間殘差的數(shù)據(jù)分布具有更低的方差,因此更適合低精度量化。這使得我們能夠在保持精度的同時,顯著降低計算成本。這種優(yōu)雅的解決方案是如何工作的?它與傳統(tǒng)方法相比優(yōu)勢何在?讓我們一起探索這個創(chuàng)新的視頻加速技術。
![]()
視頻計算瓶頸
視頻處理在我們的手機、智能家居和自動駕駛汽車里變得越來越普遍。這些設備需要實時分析視頻內容,比如識別行人、分割道路或追蹤物體。問題是,這些任務需要大量計算資源,而移動設備的電池和處理能力有限。
拿一個普通的高清視頻來說,每秒可能有30張圖像需要處理。如果對每一幀都用完整的神經(jīng)網(wǎng)絡處理,就像在手機上開了30個重型應用同時運行,很快就會耗盡電池并讓設備發(fā)熱。2023年的研究數(shù)據(jù)顯示,在一個常見的人體姿態(tài)估計任務中,傳統(tǒng)方法每秒需要處理約553十億次位操作(GBOPs)。這個數(shù)字對于大多數(shù)移動設備來說都是不可接受的。
研究人員想出了幾種方法來解決這個問題。最早的方法是"深度特征流",它只對視頻中的關鍵幀進行完整計算,然后用光流估計來預測其他幀的結果。這樣做可以減少計算量,但光流本身也需要不少計算資源。想象一下,你不是直接看30張照片,而是只仔細看一張,然后根據(jù)物體移動的方向猜測其他29張的樣子。
另一種方法叫"TDNet",它把一個大網(wǎng)絡分成幾個小網(wǎng)絡,輪流處理不同的幀。這就像把一個大任務分給幾個人輪流做,每個人只負責一部分工作。這種方法有效,但需要重新設計整個網(wǎng)絡結構。
更近期的研究關注于利用視頻幀之間的相似性。比如"Skip-Convolutions"發(fā)現(xiàn),相鄰幀之間大部分區(qū)域變化很小,可以只計算變化的部分。這就像你只需要關注視頻中移動的物體,而不是靜止的背景。這種方法理論上可以節(jié)省大量計算,但在實際設備上實現(xiàn)稀疏計算比較困難。
量化技術是另一個加速神經(jīng)網(wǎng)絡的常用方法。它把原本需要32位浮點數(shù)表示的網(wǎng)絡參數(shù)和激活值轉換成8位甚至更低位數(shù)的整數(shù)。這就像把高精度的照片轉成像素更粗的版本,雖然會損失一些細節(jié),但可以大大減少存儲和計算需求。許多研究表明,大多數(shù)神經(jīng)網(wǎng)絡在8位精度下幾乎不會損失準確率。
不過,現(xiàn)有的量化方法通常是獨立處理每一幀,沒有考慮視頻幀之間的關系。這就浪費了視頻數(shù)據(jù)中的一個重要特性:相鄰幀高度相似。特別是在監(jiān)控攝像頭或者行車記錄儀這類場景中,大部分背景可能幾乎不變,只有少量物體在移動。
殘差優(yōu)勢探索
ResQ提出的核心思想是將視頻處理與量化技術結合起來,特別關注幀間殘差的量化。殘差,簡單來說就是兩個相鄰幀之間的差值。當一個畫面中大部分內容與前一幀相似時,殘差中大部分值會接近于零,只有發(fā)生變化的區(qū)域會有明顯的非零值。
研究團隊發(fā)現(xiàn)了一個關鍵特性:這些殘差的數(shù)據(jù)分布通常比原始幀的分布更加集中,方差更小。在隨機抽取的HRNet模型的10個層中,殘差的方差普遍低于原始幀的方差。這個特性使得殘差特別適合低位量化。
為了理解這種優(yōu)勢,我們可以從量化誤差的角度分析。在神經(jīng)網(wǎng)絡量化中,浮點數(shù)值x被映射到固定精度的值x^,這個過程引入量化誤差ε = x - x^。量化誤差直接影響模型的準確率:誤差越大,準確率可能越低。
當量化權重時,量化誤差ε_w表示為x * (w - w),其中w是原始權重,w是量化后的權重。由于殘差的幅度較小,用它與量化權重相乘產(chǎn)生的誤差也會較小。同樣,對于激活值量化,誤差ε_x表示為(x - x^) * w。量化尺度s與數(shù)據(jù)的范圍和方差成正比,因此殘差的較小方差意味著更小的量化尺度,從而導致更小的量化誤差。
為了直觀理解,可以把量化過程想象成把連續(xù)的數(shù)值映射到離散的柱狀圖中。原始幀的數(shù)值分布得很廣,需要很寬的柱狀圖才能覆蓋,而殘差的數(shù)值則集中在中間,可以用更窄的柱狀圖表示。窄柱狀圖意味著每個柱子代表的數(shù)值范圍更小,量化誤差也就更小。
![]()
ResQ量化方案的核心是利用這種差異,在處理視頻時使用兩套不同的量化器:一套用于關鍵幀,使用較高精度(如8位);另一套用于殘差幀,使用較低精度(如4位或更低)。這兩套量化器在推理過程中相互配合,將關鍵幀的高精度信息與殘差幀的補充信息結合起來。
具體來說,ResQ遵循sigma-delta公式,將第t幀的輸出表示為z_t = (x_t - x_k) * w + x_k * w,其中x_k是關鍵幀的激活值。通過分配屬性,這可以重寫為z_t = δ_t * w + z_k,其中δ_t是相對于關鍵幀的殘差,z_k是關鍵幀的輸出。在固定點實現(xiàn)中,關鍵幀使用參數(shù)Φ_w和Φ_a量化,而殘差幀使用參數(shù)Θ_w和Θ_a量化。
實驗結果證明了這種方法的有效性。在人體姿態(tài)估計任務中,使用ResQ的W8A8→W8A4配置(關鍵幀8位,殘差幀4位)比傳統(tǒng)的獨立幀量化在相同計算復雜度下提高了約1.5個百分點的PCK@0.2分數(shù)。類似地,在語義分割任務中,ResQ的W8A8→W4A4配置在BOPs減少70%的情況下,幾乎保持了原始精度。
最令人印象深刻的是,在視頻目標分割任務中,當傳統(tǒng)的4位量化完全失效(精度接近于零)時,ResQ的W8A8→W4A8配置仍能保持73.4%的J-Mean分數(shù),這清楚地證明了殘差量化在處理復雜視頻任務時的魯棒性。
這種方法的一個主要優(yōu)勢是它不需要改變原始網(wǎng)絡架構或訓練過程。它可以應用于任何現(xiàn)成的模型,只需最小的修改。相比之下,像TDNet或Skip-Convolutions這樣的方法需要重新設計網(wǎng)絡或實現(xiàn)特殊的稀疏計算操作。
智能位寬調整
視頻中的場景變化多端。在一些靜態(tài)場景中,比如固定攝像頭拍攝的安保監(jiān)控畫面,背景幾乎不變,只有偶爾路過的行人或車輛產(chǎn)生變化。而在動作電影或體育比賽的鏡頭中,畫面可能瞬息萬變。這種場景多樣性對殘差量化提出了新的挑戰(zhàn):如何針對不同的場景動態(tài)調整量化策略?
傳統(tǒng)的ResQ方案對所有殘差幀使用相同的量化位寬,無論其內容如何。這種"一刀切"的方法并不是最優(yōu)的。在靜態(tài)場景中,殘差非常小,甚至接近于零,使用固定的低位寬可能仍然浪費計算資源。而在變化劇烈的場景中,過低的位寬又可能導致精度損失。
動態(tài)殘差量化(Dynamic-ResQ)正是針對這種情況設計的。它核心思想是根據(jù)殘差內容的特性,自適應地選擇最合適的量化位寬。與VideoIQ等依賴復雜循環(huán)策略模型的方法不同,Dynamic-ResQ基于一個簡單而有效的洞察:量化誤差與殘差內容直接相關。
具體來說,Dynamic-ResQ為每一層準備多個不同位寬的量化器池,從最低位寬到最高位寬(例如0位、4位和8位)。在推理過程中,系統(tǒng)會根據(jù)殘差內容為每個像素選擇最合適的量化器。這種選擇是通過一個策略函數(shù)π完成的,該函數(shù)將殘差δ映射到量化器索引Π。
![]()
策略函數(shù)的設計基于量化誤差的估計。對于量化器池中的每個量化器Θ??,系統(tǒng)計算使用該量化器處理殘差時的誤差圖??。理想情況下,這個誤差應該計算為(δ-q(δ;Θ??))*?,即量化誤差通過量化權重的投影。但這種計算在實踐中相當耗時。
為了簡化計算,研究人員使用楊氏卷積不等式來近似誤差,即??≤‖δ-q(δ;Θ??)‖‖?‖。這個不等式將誤差上限表示為量化誤差范數(shù)與權重范數(shù)的乘積,大大簡化了計算。
有了每個量化器的誤差估計,策略函數(shù)就可以做出明智的決策。它從最低位寬開始,逐步考慮使用更高位寬是否值得。具體來說,如果增加位寬帶來的誤差減少小于預設閾值τ,那么就停止在當前位寬。這個過程可以形式化為Π = min{i=1,…,n | ??-????<;τ}。
在實際應用中,這種策略表現(xiàn)出色。通過可視化決策結果,可以看到移動物體通常被分配更高的位寬,而背景和靜態(tài)區(qū)域則使用較低位寬,從而在不犧牲準確率的情況下減少計算成本。
值得注意的是,Dynamic-ResQ可以在不同粒度上實現(xiàn),如幀級、區(qū)域級或像素級。研究團隊選擇了像素級方案,在保持計算效率的同時提供最大的靈活性,能夠適應殘差幀中的任何空間差異。
![]()
從實現(xiàn)角度看,策略函數(shù)的計算開銷很小,因為它主要涉及簡單的范數(shù)計算和比較操作。在實驗中使用的閾值τ=0.0003表現(xiàn)良好,適用于各種任務和模型。
實驗結果顯示,在人體姿態(tài)估計任務中,Dynamic-ResQ的W8A8→W8A{0,4,8}配置(即動態(tài)選擇0位、4位或8位)比固定位寬的ResQ進一步降低了約35%的計算量,同時保持了相似的準確率。這種顯著的效率提升證明了動態(tài)調整策略的有效性。
全面驗證測試
理論上的優(yōu)勢需要通過實際性能來驗證。研究團隊在三個具有代表性的視頻感知任務上進行了廣泛測試:人體姿態(tài)估計、語義分割和視頻目標分割。這些任務覆蓋了從單人跟蹤到多物體理解的廣泛應用場景。
在人體姿態(tài)估計任務中,團隊使用了JHMDB數(shù)據(jù)集,該數(shù)據(jù)集包含316個視頻片段,共計11,000多幀,每幀標注了單個人物的15個關節(jié)點位置。基準模型是HRNet-w32,在MPII Human Pose數(shù)據(jù)集上預訓練,然后在JHMDB上微調。
實驗結果令人印象深刻。在相同的計算復雜度下,ResQ的W8A8→W8A4配置比標準幀量化提高了約1.5個百分點的PCK@0.2分數(shù)。更引人注目的是,Dynamic-ResQ的W8A8→W8A{0,4,8}配置在保持94.1%PCK分數(shù)的同時,將計算量減少到176 GBOPs,比最接近的競爭對手Skip-Convolutions低約3倍。
![]()
特別值得一提的是,ResQ和Dynamic-ResQ都只使用了后訓練量化(PTQ),不需要任何形式的微調,這與大多數(shù)需要監(jiān)督訓練過程的競爭方法形成鮮明對比。這種"即插即用"的特性使得ResQ特別適合在現(xiàn)有系統(tǒng)上快速部署。
在語義分割任務中,團隊使用了Cityscapes數(shù)據(jù)集,包含2,975個訓練視頻和500個驗證視頻,每個視頻片段中的一幀被標注為19個語義類別。實驗使用了多種不同的骨干網(wǎng)絡,包括輕量級的HRNet-w18s和不同變體的DDRNet。
結果表明,ResQ在所有測試的骨干網(wǎng)絡上都優(yōu)于現(xiàn)有方法。特別是在DDRNet-23slim上,W8A8→W4A4配置的ResQ在BOPs減少約70%的情況下,幾乎保持了與浮點模型相同的mIoU分數(shù)。Dynamic-ResQ在這個任務上的表現(xiàn)更為突出,顯著超越了幀量化和靜態(tài)ResQ,在低位寬區(qū)域幾乎完全恢復了幀量化的災難性下降。
一個有趣的現(xiàn)象是,在某些情況下,ResQ甚至提高了模型的mIoU分數(shù)。研究人員認為,這是因為通過將關鍵幀表示傳播到未來時間步,ResQ成功地學會了利用時間上下文。這表明殘差量化不僅能提高效率,還可能增強模型對視頻序列的理解能力。
關于時間穩(wěn)定性,即隨著與關鍵幀距離增加可能出現(xiàn)的性能下降,實驗顯示ResQ表現(xiàn)出色。在DDRNet23s上測量了最多10幀的殘差處理效果,結果顯示ResQ比包括DFF、Skip Convolutions和Delta Distillation在內的競爭方法更加穩(wěn)健,提升幅度在0.5到1個百分點之間。
在視頻目標分割(VOS)任務上,團隊選擇了空間時間記憶網(wǎng)絡(STM)作為基礎模型,在DAVIS-2016(單目標分割)和DAVIS-2017(多目標分割)基準上進行測試。結果同樣證明了ResQ的有效性。當標準8位量化已經(jīng)對浮點模型產(chǎn)生損失時,進一步降低到4位使幀量化模型完全失效(J-Mean接近零)。而ResQ的W8A8→W4A8配置在保持73.4%的J-Mean的同時,減少了約33%的計算量。更引人注目的是,Dynamic-ResQ在單目標基準上僅損失1個百分點的J-Mean,在多目標基準上僅損失0.6個百分點,同時節(jié)省了約35-40%的計算量。
![]()
盡管ResQ在各種任務上表現(xiàn)優(yōu)異,研究人員也坦承該方法存在一些局限性。一個潛在的缺點是需要將表示傳播到未來時間步,這會導致內存開銷增加,可能在內存受限的應用中影響延遲。此外,實現(xiàn)位置特定的量化操作并不簡單,需要專門的硬件或卷積的聚集-分散實現(xiàn),類似于之前用于稀疏處理的方法。最后,雖然ResQ能夠降低視頻處理的平均成本,但峰值計算量并未減少。
總體而言,這些實驗結果強有力地支持了ResQ和Dynamic-ResQ的有效性。在各種視頻感知任務中,它們都實現(xiàn)了比現(xiàn)有方法更好的準確率與效率權衡,證明了殘差量化作為加速視頻處理的新方法的潛力。
參考資料
Abati, D., Ben Yahia, H., Nagel, M., &; Habibian, A. (2023). ResQ: Residual Quantization for Video Perception. ICCV 2023.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.