并行視覺Token調(diào)度:實現(xiàn)快速精準(zhǔn)的多模態(tài)大模型推理
PARALLEL VISION TOKEN SCHEDULING FOR FAST ANDACCURATE MULTIMODAL LMMS INFERENCE
https://www.arxiv.org/pdf/2511.18875
![]()
![]()
摘要
多模態(tài)大語言模型(MLLMs)展現(xiàn)出令人印象深刻的視覺-語言推理能力,但推理延遲嚴重,因為自注意力與序列長度呈二次方關(guān)系,且高分辨率圖像貢獻數(shù)千個視覺Token。簡單剪枝信息量較少的視覺Token可減輕這一負擔(dān),但盲目移除會剝離背景或細粒度問題所需的關(guān)鍵上下文線索,損害準(zhǔn)確性。本文提出ParVTS(并行視覺Token調(diào)度),一種無需訓(xùn)練的調(diào)度框架,將視覺Token劃分為主體和非主體兩組,并行處理以將其語義轉(zhuǎn)移到問題Token中,并在推理中途丟棄非主體路徑以減少計算。該調(diào)度降低計算復(fù)雜度,無需啟發(fā)式規(guī)則或額外模塊,兼容多種現(xiàn)有MLLM架構(gòu)。跨多個MLLM骨干的實驗表明,ParVTS可剪枝高達88.9%的視覺Token且性能下降極小,實現(xiàn)1.77倍加速和70% FLOPs減少。
關(guān)鍵詞 MLLM · 視覺Token縮減 · 免訓(xùn)練
1 引言
多模態(tài)大型語言模型結(jié)合了為指令跟隨進行微調(diào)的大型語言模型,顯著增強了視覺-語言任務(wù)的能力,包括復(fù)雜推理和視覺理解。然而,這些優(yōu)勢伴隨著巨大的計算成本。
該成本的一個主要來源是Transformer自注意力機制的二次復(fù)雜度,隨著輸入序列長度的增加,這種復(fù)雜度變得令人望而卻步。在多模態(tài)大型語言模型中,來自高分辨率圖像的視覺標(biāo)記通常在序列中占主導(dǎo)地位——有時數(shù)量可達數(shù)千個——遠遠超過文本標(biāo)記。這種不平衡極大地延長了推理延遲,在視覺問答和移動增強現(xiàn)實等對延遲敏感、需要實時響應(yīng)的應(yīng)用中造成了嚴峻挑戰(zhàn)。
![]()
然而,盡管大多數(shù)視覺問題都圍繞主體實體展開,但仍有不可忽視的一部分查詢針對的是背景上下文、細粒度細節(jié)或外圍物體——這些信息通常由非主體標(biāo)記所代表。
如圖1所示,在四個具有代表性的VQA數(shù)據(jù)集(SQA [13]、AI2D [14]、OCRBench [15]和TextVQA [16])中,與主體相關(guān)的問題約占所有查詢的73%至80%,其余19%至27%為非主體導(dǎo)向問題。這些非主體問題雖然較少,但通常需要對核心主體區(qū)域之外的細微屬性進行推理(例如,標(biāo)牌上的品牌名稱或透明物體的存在)。圖1右側(cè)的視覺示例突出了這種區(qū)別。識別球衣號碼(問題1)僅需要主體標(biāo)記,而識別場地周圍的贊助商標(biāo)志(問題2)則依賴于外圍視覺信息。雖然花朵顏色(問題1)局限于主體,但檢查玻璃杯是否含有液體(問題2)需要關(guān)注不太顯著但相關(guān)的區(qū)域。這些發(fā)現(xiàn)強調(diào)了剪除非主體標(biāo)記可能會遺漏關(guān)鍵的視覺線索。因此,一種能夠重用或保留這些標(biāo)記信息的機制對于在多樣化的多模態(tài)場景中保持計算效率和穩(wěn)健的任務(wù)性能至關(guān)重要。
![]()
現(xiàn)有方法主要分為兩類。(1)無需訓(xùn)練的方法,如PruMerge [11] 和 SparseVLM [17],基于相似性啟發(fā)式方法合并或剪枝標(biāo)記,但會丟失對原始標(biāo)記表示的直接訪問,并可能在任務(wù)泛化方面遇到困難。(2)基于訓(xùn)練的方法,如LLaVA-Mini [18] 和 VoCo-LLaMA [19],在減少視覺信息之前引入額外的模塊進行壓縮,這增加了訓(xùn)練和推理開銷,并可能丟失精細細節(jié)。
我們認為,理想的解決方案應(yīng)滿足三個標(biāo)準(zhǔn):(i)計算效率低于 O(L^2);(ii)無需啟發(fā)式方法即可重用被丟棄的標(biāo)記信息;(iii)在結(jié)構(gòu)上與當(dāng)前的多模態(tài)大型語言模型兼容,且無需添加額外模塊。
最近的研究 [10, 20] 強調(diào)了一種我們稱之為視覺信息遷移的現(xiàn)象:在LLM的早期層中,視覺標(biāo)記信息通過自注意力機制隱式地轉(zhuǎn)移到問題標(biāo)記。這一觀察結(jié)果啟發(fā)了一種新的范式:我們能否不顯式地壓縮或恢復(fù)被丟棄的標(biāo)記,而是利用這種遷移機制在網(wǎng)絡(luò)早期階段提取必要信息?
在本文中,我們提出了 ParVTS(并行視覺令牌調(diào)度),一種新穎的令牌調(diào)度框架,通過有意地解耦不同類型視覺標(biāo)記的處理,實現(xiàn)快速且準(zhǔn)確的多模態(tài)大型語言模型推理。ParVTS并非統(tǒng)一處理所有視覺標(biāo)記,而是根據(jù)它們在視覺編碼器中對[CLS]標(biāo)記的注意力權(quán)重,將視覺標(biāo)記劃分為主體組和非主體組——其中較高的注意力表明與主要視覺焦點具有更大的語義相關(guān)性。這種基于軟顯著性的分離反映了每個標(biāo)記對下游推理的潛在貢獻,并且可以在無需額外監(jiān)督或模型組件的情況下高效計算。
分組完成后,這些標(biāo)記通過單個前向傳遞中的并行LLM路徑進行路由,該過程通過批量方式的令牌調(diào)度實現(xiàn)。每個路徑都攜帶其自身的問題標(biāo)記副本,并關(guān)注視覺輸入的不同子集。在Transformer的早期層中,模型固有的注意力動態(tài)促進了視覺信息遷移 [10, 20]——即無論類型如何,視覺標(biāo)記都會逐漸將其嵌入的內(nèi)容傳遞給問題標(biāo)記。這使得每個分支能夠隨時間將其相關(guān)的視覺情境提煉到其問題表示中。
在經(jīng)過固定數(shù)量的層之后,兩組問題標(biāo)記——現(xiàn)在已分別 enriched with 與主體相關(guān)或非主體相關(guān)的信息——被合并。由于每個分支已通過注意力傳遞了其視覺語義的基本部分,融合后的問題標(biāo)記擁有了對圖像的充分理解,能夠指導(dǎo)后續(xù)的推理。然后,我們丟棄非主體視覺分支,僅使用主體標(biāo)記和合并后的問題標(biāo)記繼續(xù)推理,從而在保留任務(wù)相關(guān)信息的同時實現(xiàn)顯著的計算節(jié)省。
這種設(shè)計實現(xiàn)了所有視覺標(biāo)記在早期階段的信息轉(zhuǎn)移,同時消除了后期層中的冗余計算。值得注意的是,ParVTS 不需要輔助模塊、啟發(fā)式方法或微調(diào),并且可以無縫集成到現(xiàn)有的多模態(tài)大型語言模型架構(gòu)中。
我們將主要貢獻總結(jié)如下:(1)我們引入了一個輕量級的、推理時的令牌調(diào)度框架,該框架重用非主體標(biāo)記信息,而不會產(chǎn)生 O(L^2) 的復(fù)雜度。(2)我們展示了Transformer早期層中的視覺信息遷移如何實現(xiàn)隱式知識轉(zhuǎn)移,使得我們能夠在推理中途丟棄非主體路徑,且損失極小。(3)在多個多模態(tài)大型語言模型主干上的實驗表明,ParVTS 可以剪枝高達 88.9% 的視覺標(biāo)記,同時保持性能,實現(xiàn)了高達 1.77 倍的加速,并將 FLOPs 減少了 70%。
2 相關(guān)工作 2.1 多模態(tài)大型語言模型
多模態(tài)大型語言模型通過整合視覺和音頻等額外模態(tài)來擴展傳統(tǒng)語言模型,在視覺問答和多模態(tài)推理方面表現(xiàn)出色 [1, 2, 21, 22]。典型的多模態(tài)大型語言模型架構(gòu)由一個視覺編碼器和一個語言模型組成,使用輕量級模塊(如MLP、Q-Former或重采樣器)進行對齊 [1, 21, 23]。代表性模型包括LLaVA [1]、BLIP系列 [2, 24] 和 mini-Gemini-HD [25],它們將CLIP [4] 或 ViT [5] 與LLaMA [26]、GPT [27, 28] 或 Gemma-3 [29] 等語言模型集成在一起。這些模型采用微調(diào)或凍結(jié)策略來實現(xiàn)圖像到文本的生成和跨模態(tài)對齊。此外,最近的進展已將多模態(tài)大型語言模型擴展到視頻和音頻理解,例如 Video-LLaVA [30] 和 VideoPoet [31]。
多模態(tài)大型語言模型的一個關(guān)鍵挑戰(zhàn)在于,它們依賴于將圖像或視頻編碼為成百上千個視覺標(biāo)記,然后將這些標(biāo)記與文本標(biāo)記連接起來,并由語言模型共同處理。由于自注意力機制的二次復(fù)雜度 [6],這種方法會產(chǎn)生高昂的計算成本。此外,這些視覺標(biāo)記的冗余性和低信息密度——特別是在高分辨率或多幀輸入中,如 LLaVA [1] 和 mini-Gemini-HD [25] 所示——已成為顯著瓶頸,嚴重影響了推理效率。
2.2 視覺標(biāo)記壓縮
視覺標(biāo)記冗余問題已在視覺Transformer的背景下得到研究 [5]。例如,CF-ViT [32] 采用由粗到細的處理策略,而 Evo-ViT [33] 引入了一種自適應(yīng)的慢-快標(biāo)記演化機制,以減少冗余計算并提高推理效率。在多模態(tài)大型語言模型中,過多視覺標(biāo)記帶來的計算負擔(dān)更為突出,因此專門針對此問題發(fā)展了各種視覺標(biāo)記壓縮技術(shù)。FastV [8] 基于注意力分數(shù)選擇最重要的標(biāo)記,僅保留關(guān)鍵信息以減少處理開銷。PruMerge [11] 通過測量標(biāo)記與類別標(biāo)記的相似性來自適應(yīng)地剪枝和合并標(biāo)記,有效平衡了準(zhǔn)確性和效率。SparseVLM [17] 利用跨模態(tài)注意力,根據(jù)文本輸入識別并保留最相關(guān)的視覺標(biāo)記,從而改進了標(biāo)記選擇并提高了整體模型效率。這些方法利用不同的策略來識別和保留關(guān)鍵的視覺標(biāo)記,顯著提升了多模態(tài)大型語言模型的效率,同時保持了強大的性能。
2.3 多模態(tài)大型語言模型中的視覺信息遷移
隨著對多模態(tài)大型語言模型內(nèi)部機制的研究日益深入,近期的研究探索了視覺信息如何通過語言模型中的Transformer層進行傳播。VTW [10] 表明,視覺信息在早期層通過因果自注意力迅速遷移到問題標(biāo)記,此后視覺標(biāo)記變得 largely redundant,允許在后續(xù)層中移除它們以實現(xiàn)更高效的推理。HiMAP [20] 提出了一個分階段的遷移過程:在淺層,視覺標(biāo)記將信息注入問題標(biāo)記;而在中層,它們主要進行視覺內(nèi)部的聚合,這表明從跨模態(tài)融合過渡到了模態(tài)內(nèi)整合。跨模態(tài)信息流 [34] 通過識別視覺到文本遷移的兩個不同階段來細化這一理解:首先是將全局視覺語義注入問題標(biāo)記,然后是更聚焦于任務(wù)相關(guān)區(qū)域特征的遷移。最終,最終的預(yù)測依賴于轉(zhuǎn)換后的文本表示。
3 方法 3.1 初步觀察與動機
現(xiàn)代多模態(tài)大型語言模型,如 LLaVA [22],通常由三個核心組件構(gòu)成:一個視覺編碼器、一個跨模態(tài)投影器和一個預(yù)訓(xùn)練的大型語言模型。視覺編碼器(例如,CLIP ViT-L [4])提取圖像塊特征,并通過投影器將其映射到語言嵌入空間,生成與文本表示對齊的視覺標(biāo)記。給定多模態(tài)輸入,系統(tǒng)會對任務(wù)指令(即系統(tǒng)提示)、用戶查詢和視覺標(biāo)記進行編碼。這些分別被 token 化為系統(tǒng)標(biāo)記、文本標(biāo)記和視覺標(biāo)記。在自回歸解碼過程中,先前生成的輸出會被附加到輸入序列中。在第一個 Transformer 層(i = 1),完整的輸入被公式化為:
![]()
![]()
![]()
![]()
![]()
![]()
3.2 視覺令牌調(diào)度:視覺令牌何時以及如何使用
考慮到在 第3.1節(jié)中描述的劃分后的視覺令牌集
,我們現(xiàn)在考慮一個核心問題:每組令牌應(yīng)該在何時以及如何參與推理?直觀上,兩種令牌類型都攜帶互補的視覺信息——主體令牌反映顯著實體,而非主體令牌編碼上下文或背景線索。高效利用需要一種調(diào)度策略,使得兩組令牌都能做出有意義的貢獻,同時避免完整的注意力開銷。
為此,我們的視覺令牌調(diào)度在 Transformer 層之間對主體和非主體令牌進行時間上的分離。具體來說,我們利用視覺信息遷移現(xiàn)象,即在早期層中通過自注意力將視覺語義轉(zhuǎn)移到問題令牌中。我們探索了兩種順序調(diào)度策略:(1)主體優(yōu)先調(diào)度;(2)非主體優(yōu)先調(diào)度。
![]()
![]()
![]()
![]()
![]()
3.3 視覺令牌組的并行路徑執(zhí)行
為了克服視覺令牌調(diào)度中的表征局限性,我們提出了一種并行執(zhí)行策略,使得主體和非主體令牌能夠同時在Transformer的早期層中參與處理。這確保了全面的視覺信息遷移到問題令牌中,同時避免了因延遲注入令牌而導(dǎo)致的語義不匹配。
一種樸素的解決方案是順序處理兩組令牌,讓它們各自通過相同的早期層。然而,這會使計算成本加倍,并抵消調(diào)度帶來的好處。因此,我們采用了一種批量并行執(zhí)行的設(shè)計:通過沿批次維度連接兩組令牌的輸入序列,使得兩組視覺令牌在同一前向傳遞中被獨立處理。
如圖2(b)所示,我們在前 n n個 Transformer 層構(gòu)建了兩個并行的輸入流:
![]()
![]()
![]()
4 實驗 4.1 實驗設(shè)置
我們使用 LLaVA-1.5 [22]、LLaVA-Next [1]、InternVL2.5 [40]、Qwen2.5-VL [41] 和 VideoLLaVA [30] 來驗證我們的 ParVTS。我們在多個不同的基準(zhǔn)上進行了比較,包括:視覺問答(GQA [42]、VQAv2 [43]、ScienceQA [13]、VizWiz-VQA [44]、MMB [45]、MME [46])、幻覺檢測(POPE [47])、視頻問答(TGIF-QA [48]、MSVD-QA [49])。更多的實現(xiàn)細節(jié)見附錄 B。
4.2 主要結(jié)果
定量評估。表1至表4展示了我們的 ParVTS 在固定視覺令牌預(yù)算下,跨多模態(tài)理解任務(wù)的定量結(jié)果。在表1中,對于 LLaVA-1.5-7B,我們的 ParVTS 達到了 92.45% 的平均性能,排名第一,超出第二名(SAINT [37])6.76%。這表明 ParVTS 很好地緩解了令牌減少帶來的性能下降,即使在激進壓縮下也保持了強大的魯棒性和穩(wěn)定性。
![]()
此外,如表2至表4所示,我們的 ParVTS 也提升了其他開源多模態(tài)大型語言模型的性能。這表明 ParVTS 能夠可靠地遷移到不同的模型架構(gòu)和規(guī)模,包括 InternVL2.5 和 Qwen2.5-VL。涵蓋更多視覺令牌預(yù)算、更多多模態(tài)大型語言模型架構(gòu)(InternVL2、Qwen3-VL)以及不同模型規(guī)模的進一步實驗見附錄 C。
![]()
定性示例。我們在附錄 I 中進一步提供了幾個推理示例,展示了 ParVTS 能夠正確回答與非主體令牌相關(guān)的查詢。通過利用而非丟棄非主體令牌,我們的方法保留了上下文線索,并能夠?qū)崿F(xiàn)超越僅主體區(qū)域的準(zhǔn)確推理。
下游任務(wù)。我們在 LISA [50] 上驗證了 ParVTS 的泛化能力,這是一個細粒度的分割任務(wù)。結(jié)果(詳見附錄 F)表明,ParVTS 在不同的推理場景中成功保留了原始模型的分割能力,證實了其在需要詳細視覺理解的下游應(yīng)用中的有效性。
4.3 成本與效率分析
我們在三種配置下比較了不同方法,這些配置具有相似的 MME [46] 分數(shù),并報告了在每個準(zhǔn)確率水平下保留的視覺令牌數(shù)量、推理延遲和 TFLOPs 成本。如表5所示,ParVTS 始終能以更少的令牌和更低的計算成本實現(xiàn)最高的推理準(zhǔn)確率。為了進一步評估效率,我們在附錄 D 中提供了跨不同并發(fā)和響應(yīng)長度設(shè)置的細粒度經(jīng)驗統(tǒng)計和分析,報告了預(yù)填充和解碼階段的延遲、GPU 峰值內(nèi)存和 TFLOPs。
此外,我們建立了一個理論加速模型,該模型分析了剪枝率和遷移深度如何影響預(yù)填充和解碼兩個階段的加速效果,詳見附錄E。
ParVTS 還為高效部署提供了更好的工程兼容性。與 FastV [8]、PruMerge [11] 和 HiRED [38] 不同,這些方法需要訪問中間注意力矩陣,因而與 Flash-Attention [51, 52] 的計算模式存在沖突,而 ParVTS 與 Flash-Attention 和 KV 緩存復(fù)用完全兼容,確保了在實際部署中的無縫集成。
4.4 消融研究
遷移深度 n 。我們首先研究了遷移深度 n 如何影響模型性能。如表6所示,在更激進的剪枝策略下,需要更大的遷移深度 n 來維持性能。
![]()
![]()
![]()
基于 [CLS] 的主體定位的可靠性。我們在附錄 I 中提供了可視化結(jié)果,顯示 [CLS] 令牌的注意力能夠有效分離主體和非主體區(qū)域。這證實了使用基于 [CLS] 的顯著性進行前景定位的可靠性。
5 局限性與未來工作
ParVTS 使用視覺編碼器中對 [CLS] 令牌的注意力來分離主體和非主體令牌。雖然這種輕量級、無需監(jiān)督的策略符合我們免訓(xùn)練的設(shè)計理念,但在處理包含多個顯著區(qū)域、細微前景或非對象中心查詢的圖像時,它可能會遇到困難。未來的工作可以探索更魯棒、自適應(yīng)的令牌分組方法,以增強視覺信息的選擇。此外,關(guān)鍵的超參數(shù)(遷移深度 n n和融合權(quán)重 α , β
)是經(jīng)驗性設(shè)置的。根據(jù)輸入或任務(wù)自動調(diào)整這些參數(shù)仍然是一個待探索的方向。
6 結(jié)論
我們提出了 ParVTS,一個免訓(xùn)練的視覺令牌調(diào)度框架,它利用早期層的信息遷移和并行執(zhí)行來恢復(fù)非主體語義,從而實現(xiàn)快速且準(zhǔn)確的多模態(tài)大型語言模型推理。跨多個基準(zhǔn)和壓縮級別的實驗表明,ParVTS 在顯著降低推理成本的同時,始終能實現(xiàn)強大的性能。這些結(jié)果凸顯了利用模型內(nèi)在行為進行高效推理的潛力,為機制感知的多模態(tài)推理提供了新的見解。
原文鏈接:https://www.arxiv.org/pdf/2511.18875
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.