殘差量化：視頻感知加速的新思路

2025-05-17 23:30:17　來源: 清風鑒史

廣東舉報

分享至

在人工智能與計算機視覺領域，視頻處理一直是一個挑戰(zhàn)性極高的任務。當深度神經(jīng)網(wǎng)絡需要在資源受限的設備上實時處理視頻流時，計算效率問題尤為突出。目前的解決方案大多關注于避免重復計算或使用光流進行特征變換，但鮮有研究關注量化技術與視頻處理的結合。ResQ殘差量化方案從一個全新的角度切入：利用相鄰視頻幀之間的殘差表示進行低位量化。這種方法基于一個關鍵發(fā)現(xiàn)：幀間殘差的數(shù)據(jù)分布具有更低的方差，因此更適合低精度量化。這使得我們能夠在保持精度的同時，顯著降低計算成本。這種優(yōu)雅的解決方案是如何工作的？它與傳統(tǒng)方法相比優(yōu)勢何在？讓我們一起探索這個創(chuàng)新的視頻加速技術。

視頻計算瓶頸

視頻處理在我們的手機、智能家居和自動駕駛汽車里變得越來越普遍。這些設備需要實時分析視頻內容，比如識別行人、分割道路或追蹤物體。問題是，這些任務需要大量計算資源，而移動設備的電池和處理能力有限。

拿一個普通的高清視頻來說，每秒可能有30張圖像需要處理。如果對每一幀都用完整的神經(jīng)網(wǎng)絡處理，就像在手機上開了30個重型應用同時運行，很快就會耗盡電池并讓設備發(fā)熱。2023年的研究數(shù)據(jù)顯示，在一個常見的人體姿態(tài)估計任務中，傳統(tǒng)方法每秒需要處理約553十億次位操作（GBOPs）。這個數(shù)字對于大多數(shù)移動設備來說都是不可接受的。

研究人員想出了幾種方法來解決這個問題。最早的方法是＂深度特征流＂，它只對視頻中的關鍵幀進行完整計算，然后用光流估計來預測其他幀的結果。這樣做可以減少計算量，但光流本身也需要不少計算資源。想象一下，你不是直接看30張照片，而是只仔細看一張，然后根據(jù)物體移動的方向猜測其他29張的樣子。

另一種方法叫＂TDNet＂，它把一個大網(wǎng)絡分成幾個小網(wǎng)絡，輪流處理不同的幀。這就像把一個大任務分給幾個人輪流做，每個人只負責一部分工作。這種方法有效，但需要重新設計整個網(wǎng)絡結構。

更近期的研究關注于利用視頻幀之間的相似性。比如＂Skip-Convolutions＂發(fā)現(xiàn)，相鄰幀之間大部分區(qū)域變化很小，可以只計算變化的部分。這就像你只需要關注視頻中移動的物體，而不是靜止的背景。這種方法理論上可以節(jié)省大量計算，但在實際設備上實現(xiàn)稀疏計算比較困難。

量化技術是另一個加速神經(jīng)網(wǎng)絡的常用方法。它把原本需要32位浮點數(shù)表示的網(wǎng)絡參數(shù)和激活值轉換成8位甚至更低位數(shù)的整數(shù)。這就像把高精度的照片轉成像素更粗的版本，雖然會損失一些細節(jié)，但可以大大減少存儲和計算需求。許多研究表明，大多數(shù)神經(jīng)網(wǎng)絡在8位精度下幾乎不會損失準確率。

不過，現(xiàn)有的量化方法通常是獨立處理每一幀，沒有考慮視頻幀之間的關系。這就浪費了視頻數(shù)據(jù)中的一個重要特性：相鄰幀高度相似。特別是在監(jiān)控攝像頭或者行車記錄儀這類場景中，大部分背景可能幾乎不變，只有少量物體在移動。

殘差優(yōu)勢探索

ResQ提出的核心思想是將視頻處理與量化技術結合起來，特別關注幀間殘差的量化。殘差，簡單來說就是兩個相鄰幀之間的差值。當一個畫面中大部分內容與前一幀相似時，殘差中大部分值會接近于零，只有發(fā)生變化的區(qū)域會有明顯的非零值。

研究團隊發(fā)現(xiàn)了一個關鍵特性：這些殘差的數(shù)據(jù)分布通常比原始幀的分布更加集中，方差更小。在隨機抽取的HRNet模型的10個層中，殘差的方差普遍低于原始幀的方差。這個特性使得殘差特別適合低位量化。

為了理解這種優(yōu)勢，我們可以從量化誤差的角度分析。在神經(jīng)網(wǎng)絡量化中，浮點數(shù)值x被映射到固定精度的值x^，這個過程引入量化誤差ε = x - x^。量化誤差直接影響模型的準確率：誤差越大，準確率可能越低。

當量化權重時，量化誤差ε_w表示為x * （w - w），其中w是原始權重，w是量化后的權重。由于殘差的幅度較小，用它與量化權重相乘產(chǎn)生的誤差也會較小。同樣，對于激活值量化，誤差ε_x表示為（x - x^） * w。量化尺度s與數(shù)據(jù)的范圍和方差成正比，因此殘差的較小方差意味著更小的量化尺度，從而導致更小的量化誤差。

為了直觀理解，可以把量化過程想象成把連續(xù)的數(shù)值映射到離散的柱狀圖中。原始幀的數(shù)值分布得很廣，需要很寬的柱狀圖才能覆蓋，而殘差的數(shù)值則集中在中間，可以用更窄的柱狀圖表示。窄柱狀圖意味著每個柱子代表的數(shù)值范圍更小，量化誤差也就更小。

ResQ量化方案的核心是利用這種差異，在處理視頻時使用兩套不同的量化器：一套用于關鍵幀，使用較高精度（如8位）；另一套用于殘差幀，使用較低精度（如4位或更低）。這兩套量化器在推理過程中相互配合，將關鍵幀的高精度信息與殘差幀的補充信息結合起來。

具體來說，ResQ遵循sigma-delta公式，將第t幀的輸出表示為z_t = （x_t - x_k） * w + x_k * w，其中x_k是關鍵幀的激活值。通過分配屬性，這可以重寫為z_t = δ_t * w + z_k，其中δ_t是相對于關鍵幀的殘差，z_k是關鍵幀的輸出。在固定點實現(xiàn)中，關鍵幀使用參數(shù)Φ_w和Φ_a量化，而殘差幀使用參數(shù)Θ_w和Θ_a量化。

實驗結果證明了這種方法的有效性。在人體姿態(tài)估計任務中，使用ResQ的W8A8→W8A4配置（關鍵幀8位，殘差幀4位）比傳統(tǒng)的獨立幀量化在相同計算復雜度下提高了約1.5個百分點的PCK@0.2分數(shù)。類似地，在語義分割任務中，ResQ的W8A8→W4A4配置在BOPs減少70%的情況下，幾乎保持了原始精度。

最令人印象深刻的是，在視頻目標分割任務中，當傳統(tǒng)的4位量化完全失效（精度接近于零）時，ResQ的W8A8→W4A8配置仍能保持73.4%的J-Mean分數(shù)，這清楚地證明了殘差量化在處理復雜視頻任務時的魯棒性。

這種方法的一個主要優(yōu)勢是它不需要改變原始網(wǎng)絡架構或訓練過程。它可以應用于任何現(xiàn)成的模型，只需最小的修改。相比之下，像TDNet或Skip-Convolutions這樣的方法需要重新設計網(wǎng)絡或實現(xiàn)特殊的稀疏計算操作。

智能位寬調整

視頻中的場景變化多端。在一些靜態(tài)場景中，比如固定攝像頭拍攝的安保監(jiān)控畫面，背景幾乎不變，只有偶爾路過的行人或車輛產(chǎn)生變化。而在動作電影或體育比賽的鏡頭中，畫面可能瞬息萬變。這種場景多樣性對殘差量化提出了新的挑戰(zhàn)：如何針對不同的場景動態(tài)調整量化策略？

傳統(tǒng)的ResQ方案對所有殘差幀使用相同的量化位寬，無論其內容如何。這種＂一刀切＂的方法并不是最優(yōu)的。在靜態(tài)場景中，殘差非常小，甚至接近于零，使用固定的低位寬可能仍然浪費計算資源。而在變化劇烈的場景中，過低的位寬又可能導致精度損失。

動態(tài)殘差量化（Dynamic-ResQ）正是針對這種情況設計的。它核心思想是根據(jù)殘差內容的特性，自適應地選擇最合適的量化位寬。與VideoIQ等依賴復雜循環(huán)策略模型的方法不同，Dynamic-ResQ基于一個簡單而有效的洞察：量化誤差與殘差內容直接相關。

具體來說，Dynamic-ResQ為每一層準備多個不同位寬的量化器池，從最低位寬到最高位寬（例如0位、4位和8位）。在推理過程中，系統(tǒng)會根據(jù)殘差內容為每個像素選擇最合適的量化器。這種選擇是通過一個策略函數(shù)π完成的，該函數(shù)將殘差δ映射到量化器索引Π。

策略函數(shù)的設計基于量化誤差的估計。對于量化器池中的每個量化器Θ??，系統(tǒng)計算使用該量化器處理殘差時的誤差圖??。理想情況下，這個誤差應該計算為（δ-q（δ；Θ??））*?，即量化誤差通過量化權重的投影。但這種計算在實踐中相當耗時。

為了簡化計算，研究人員使用楊氏卷積不等式來近似誤差，即??≤‖δ-q（δ；Θ??）‖‖?‖。這個不等式將誤差上限表示為量化誤差范數(shù)與權重范數(shù)的乘積，大大簡化了計算。

有了每個量化器的誤差估計，策略函數(shù)就可以做出明智的決策。它從最低位寬開始，逐步考慮使用更高位寬是否值得。具體來說，如果增加位寬帶來的誤差減少小于預設閾值τ，那么就停止在當前位寬。這個過程可以形式化為Π = min{i=1，…，n | ??-????<；τ}。

在實際應用中，這種策略表現(xiàn)出色。通過可視化決策結果，可以看到移動物體通常被分配更高的位寬，而背景和靜態(tài)區(qū)域則使用較低位寬，從而在不犧牲準確率的情況下減少計算成本。

值得注意的是，Dynamic-ResQ可以在不同粒度上實現(xiàn)，如幀級、區(qū)域級或像素級。研究團隊選擇了像素級方案，在保持計算效率的同時提供最大的靈活性，能夠適應殘差幀中的任何空間差異。

從實現(xiàn)角度看，策略函數(shù)的計算開銷很小，因為它主要涉及簡單的范數(shù)計算和比較操作。在實驗中使用的閾值τ=0.0003表現(xiàn)良好，適用于各種任務和模型。

實驗結果顯示，在人體姿態(tài)估計任務中，Dynamic-ResQ的W8A8→W8A{0，4，8}配置（即動態(tài)選擇0位、4位或8位）比固定位寬的ResQ進一步降低了約35%的計算量，同時保持了相似的準確率。這種顯著的效率提升證明了動態(tài)調整策略的有效性。

全面驗證測試

理論上的優(yōu)勢需要通過實際性能來驗證。研究團隊在三個具有代表性的視頻感知任務上進行了廣泛測試：人體姿態(tài)估計、語義分割和視頻目標分割。這些任務覆蓋了從單人跟蹤到多物體理解的廣泛應用場景。

在人體姿態(tài)估計任務中，團隊使用了JHMDB數(shù)據(jù)集，該數(shù)據(jù)集包含316個視頻片段，共計11，000多幀，每幀標注了單個人物的15個關節(jié)點位置。基準模型是HRNet-w32，在MPII Human Pose數(shù)據(jù)集上預訓練，然后在JHMDB上微調。

實驗結果令人印象深刻。在相同的計算復雜度下，ResQ的W8A8→W8A4配置比標準幀量化提高了約1.5個百分點的PCK@0.2分數(shù)。更引人注目的是，Dynamic-ResQ的W8A8→W8A{0，4，8}配置在保持94.1%PCK分數(shù)的同時，將計算量減少到176 GBOPs，比最接近的競爭對手Skip-Convolutions低約3倍。

特別值得一提的是，ResQ和Dynamic-ResQ都只使用了后訓練量化（PTQ），不需要任何形式的微調，這與大多數(shù)需要監(jiān)督訓練過程的競爭方法形成鮮明對比。這種＂即插即用＂的特性使得ResQ特別適合在現(xiàn)有系統(tǒng)上快速部署。

在語義分割任務中，團隊使用了Cityscapes數(shù)據(jù)集，包含2，975個訓練視頻和500個驗證視頻，每個視頻片段中的一幀被標注為19個語義類別。實驗使用了多種不同的骨干網(wǎng)絡，包括輕量級的HRNet-w18s和不同變體的DDRNet。

結果表明，ResQ在所有測試的骨干網(wǎng)絡上都優(yōu)于現(xiàn)有方法。特別是在DDRNet-23slim上，W8A8→W4A4配置的ResQ在BOPs減少約70%的情況下，幾乎保持了與浮點模型相同的mIoU分數(shù)。Dynamic-ResQ在這個任務上的表現(xiàn)更為突出，顯著超越了幀量化和靜態(tài)ResQ，在低位寬區(qū)域幾乎完全恢復了幀量化的災難性下降。

一個有趣的現(xiàn)象是，在某些情況下，ResQ甚至提高了模型的mIoU分數(shù)。研究人員認為，這是因為通過將關鍵幀表示傳播到未來時間步，ResQ成功地學會了利用時間上下文。這表明殘差量化不僅能提高效率，還可能增強模型對視頻序列的理解能力。

關于時間穩(wěn)定性，即隨著與關鍵幀距離增加可能出現(xiàn)的性能下降，實驗顯示ResQ表現(xiàn)出色。在DDRNet23s上測量了最多10幀的殘差處理效果，結果顯示ResQ比包括DFF、Skip Convolutions和Delta Distillation在內的競爭方法更加穩(wěn)健，提升幅度在0.5到1個百分點之間。

在視頻目標分割（VOS）任務上，團隊選擇了空間時間記憶網(wǎng)絡（STM）作為基礎模型，在DAVIS-2016（單目標分割）和DAVIS-2017（多目標分割）基準上進行測試。結果同樣證明了ResQ的有效性。當標準8位量化已經(jīng)對浮點模型產(chǎn)生損失時，進一步降低到4位使幀量化模型完全失效（J-Mean接近零）。而ResQ的W8A8→W4A8配置在保持73.4%的J-Mean的同時，減少了約33%的計算量。更引人注目的是，Dynamic-ResQ在單目標基準上僅損失1個百分點的J-Mean，在多目標基準上僅損失0.6個百分點，同時節(jié)省了約35-40%的計算量。

盡管ResQ在各種任務上表現(xiàn)優(yōu)異，研究人員也坦承該方法存在一些局限性。一個潛在的缺點是需要將表示傳播到未來時間步，這會導致內存開銷增加，可能在內存受限的應用中影響延遲。此外，實現(xiàn)位置特定的量化操作并不簡單，需要專門的硬件或卷積的聚集-分散實現(xiàn)，類似于之前用于稀疏處理的方法。最后，雖然ResQ能夠降低視頻處理的平均成本，但峰值計算量并未減少。

總體而言，這些實驗結果強有力地支持了ResQ和Dynamic-ResQ的有效性。在各種視頻感知任務中，它們都實現(xiàn)了比現(xiàn)有方法更好的準確率與效率權衡，證明了殘差量化作為加速視頻處理的新方法的潛力。

參考資料

Abati， D.， Ben Yahia， H.， Nagel， M.， &； Habibian， A. （2023）. ResQ: Residual Quantization for Video Perception. ICCV 2023.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.