網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

并行視覺Token調(diào)度：實現(xiàn)快速精準(zhǔn)的多模態(tài)大模型推理

2026-02-24 09:00:21　來源: CreateAMind

上海舉報

分享至

并行視覺Token調(diào)度：實現(xiàn)快速精準(zhǔn)的多模態(tài)大模型推理

PARALLEL VISION TOKEN SCHEDULING FOR FAST ANDACCURATE MULTIMODAL LMMS INFERENCE

https://www.arxiv.org/pdf/2511.18875

摘要

多模態(tài)大語言模型（MLLMs）展現(xiàn)出令人印象深刻的視覺-語言推理能力，但推理延遲嚴重，因為自注意力與序列長度呈二次方關(guān)系，且高分辨率圖像貢獻數(shù)千個視覺Token。簡單剪枝信息量較少的視覺Token可減輕這一負擔(dān)，但盲目移除會剝離背景或細粒度問題所需的關(guān)鍵上下文線索，損害準(zhǔn)確性。本文提出ParVTS（并行視覺Token調(diào)度），一種無需訓(xùn)練的調(diào)度框架，將視覺Token劃分為主體和非主體兩組，并行處理以將其語義轉(zhuǎn)移到問題Token中，并在推理中途丟棄非主體路徑以減少計算。該調(diào)度降低計算復(fù)雜度，無需啟發(fā)式規(guī)則或額外模塊，兼容多種現(xiàn)有MLLM架構(gòu)。跨多個MLLM骨干的實驗表明，ParVTS可剪枝高達88.9%的視覺Token且性能下降極小，實現(xiàn)1.77倍加速和70% FLOPs減少。

關(guān)鍵詞 MLLM · 視覺Token縮減 · 免訓(xùn)練

1 引言

多模態(tài)大型語言模型結(jié)合了為指令跟隨進行微調(diào)的大型語言模型，顯著增強了視覺-語言任務(wù)的能力，包括復(fù)雜推理和視覺理解。然而，這些優(yōu)勢伴隨著巨大的計算成本。

該成本的一個主要來源是Transformer自注意力機制的二次復(fù)雜度，隨著輸入序列長度的增加，這種復(fù)雜度變得令人望而卻步。在多模態(tài)大型語言模型中，來自高分辨率圖像的視覺標(biāo)記通常在序列中占主導(dǎo)地位——有時數(shù)量可達數(shù)千個——遠遠超過文本標(biāo)記。這種不平衡極大地延長了推理延遲，在視覺問答和移動增強現(xiàn)實等對延遲敏感、需要實時響應(yīng)的應(yīng)用中造成了嚴峻挑戰(zhàn)。

然而，盡管大多數(shù)視覺問題都圍繞主體實體展開，但仍有不可忽視的一部分查詢針對的是背景上下文、細粒度細節(jié)或外圍物體——這些信息通常由非主體標(biāo)記所代表。

如圖1所示，在四個具有代表性的VQA數(shù)據(jù)集（SQA [13]、AI2D [14]、OCRBench [15]和TextVQA [16]）中，與主體相關(guān)的問題約占所有查詢的73%至80%，其余19%至27%為非主體導(dǎo)向問題。這些非主體問題雖然較少，但通常需要對核心主體區(qū)域之外的細微屬性進行推理（例如，標(biāo)牌上的品牌名稱或透明物體的存在）。圖1右側(cè)的視覺示例突出了這種區(qū)別。識別球衣號碼（問題1）僅需要主體標(biāo)記，而識別場地周圍的贊助商標(biāo)志（問題2）則依賴于外圍視覺信息。雖然花朵顏色（問題1）局限于主體，但檢查玻璃杯是否含有液體（問題2）需要關(guān)注不太顯著但相關(guān)的區(qū)域。這些發(fā)現(xiàn)強調(diào)了剪除非主體標(biāo)記可能會遺漏關(guān)鍵的視覺線索。因此，一種能夠重用或保留這些標(biāo)記信息的機制對于在多樣化的多模態(tài)場景中保持計算效率和穩(wěn)健的任務(wù)性能至關(guān)重要。

現(xiàn)有方法主要分為兩類。（1）無需訓(xùn)練的方法，如PruMerge [11] 和 SparseVLM [17]，基于相似性啟發(fā)式方法合并或剪枝標(biāo)記，但會丟失對原始標(biāo)記表示的直接訪問，并可能在任務(wù)泛化方面遇到困難。（2）基于訓(xùn)練的方法，如LLaVA-Mini [18] 和 VoCo-LLaMA [19]，在減少視覺信息之前引入額外的模塊進行壓縮，這增加了訓(xùn)練和推理開銷，并可能丟失精細細節(jié)。

我們認為，理想的解決方案應(yīng)滿足三個標(biāo)準(zhǔn)：（i）計算效率低于 O(L^2)；（ii）無需啟發(fā)式方法即可重用被丟棄的標(biāo)記信息；（iii）在結(jié)構(gòu)上與當(dāng)前的多模態(tài)大型語言模型兼容，且無需添加額外模塊。

最近的研究 [10, 20] 強調(diào)了一種我們稱之為視覺信息遷移的現(xiàn)象：在LLM的早期層中，視覺標(biāo)記信息通過自注意力機制隱式地轉(zhuǎn)移到問題標(biāo)記。這一觀察結(jié)果啟發(fā)了一種新的范式：我們能否不顯式地壓縮或恢復(fù)被丟棄的標(biāo)記，而是利用這種遷移機制在網(wǎng)絡(luò)早期階段提取必要信息？

在本文中，我們提出了 ParVTS（并行視覺令牌調(diào)度），一種新穎的令牌調(diào)度框架，通過有意地解耦不同類型視覺標(biāo)記的處理，實現(xiàn)快速且準(zhǔn)確的多模態(tài)大型語言模型推理。ParVTS并非統(tǒng)一處理所有視覺標(biāo)記，而是根據(jù)它們在視覺編碼器中對[CLS]標(biāo)記的注意力權(quán)重，將視覺標(biāo)記劃分為主體組和非主體組——其中較高的注意力表明與主要視覺焦點具有更大的語義相關(guān)性。這種基于軟顯著性的分離反映了每個標(biāo)記對下游推理的潛在貢獻，并且可以在無需額外監(jiān)督或模型組件的情況下高效計算。

分組完成后，這些標(biāo)記通過單個前向傳遞中的并行LLM路徑進行路由，該過程通過批量方式的令牌調(diào)度實現(xiàn)。每個路徑都攜帶其自身的問題標(biāo)記副本，并關(guān)注視覺輸入的不同子集。在Transformer的早期層中，模型固有的注意力動態(tài)促進了視覺信息遷移 [10, 20]——即無論類型如何，視覺標(biāo)記都會逐漸將其嵌入的內(nèi)容傳遞給問題標(biāo)記。這使得每個分支能夠隨時間將其相關(guān)的視覺情境提煉到其問題表示中。

在經(jīng)過固定數(shù)量的層之后，兩組問題標(biāo)記——現(xiàn)在已分別 enriched with 與主體相關(guān)或非主體相關(guān)的信息——被合并。由于每個分支已通過注意力傳遞了其視覺語義的基本部分，融合后的問題標(biāo)記擁有了對圖像的充分理解，能夠指導(dǎo)后續(xù)的推理。然后，我們丟棄非主體視覺分支，僅使用主體標(biāo)記和合并后的問題標(biāo)記繼續(xù)推理，從而在保留任務(wù)相關(guān)信息的同時實現(xiàn)顯著的計算節(jié)省。

這種設(shè)計實現(xiàn)了所有視覺標(biāo)記在早期階段的信息轉(zhuǎn)移，同時消除了后期層中的冗余計算。值得注意的是，ParVTS 不需要輔助模塊、啟發(fā)式方法或微調(diào)，并且可以無縫集成到現(xiàn)有的多模態(tài)大型語言模型架構(gòu)中。

我們將主要貢獻總結(jié)如下：（1）我們引入了一個輕量級的、推理時的令牌調(diào)度框架，該框架重用非主體標(biāo)記信息，而不會產(chǎn)生 O(L^2) 的復(fù)雜度。（2）我們展示了Transformer早期層中的視覺信息遷移如何實現(xiàn)隱式知識轉(zhuǎn)移，使得我們能夠在推理中途丟棄非主體路徑，且損失極小。（3）在多個多模態(tài)大型語言模型主干上的實驗表明，ParVTS 可以剪枝高達 88.9% 的視覺標(biāo)記，同時保持性能，實現(xiàn)了高達 1.77 倍的加速，并將 FLOPs 減少了 70%。

2 相關(guān)工作 2.1 多模態(tài)大型語言模型

多模態(tài)大型語言模型通過整合視覺和音頻等額外模態(tài)來擴展傳統(tǒng)語言模型，在視覺問答和多模態(tài)推理方面表現(xiàn)出色 [1, 2, 21, 22]。典型的多模態(tài)大型語言模型架構(gòu)由一個視覺編碼器和一個語言模型組成，使用輕量級模塊（如MLP、Q-Former或重采樣器）進行對齊 [1, 21, 23]。代表性模型包括LLaVA [1]、BLIP系列 [2, 24] 和 mini-Gemini-HD [25]，它們將CLIP [4] 或 ViT [5] 與LLaMA [26]、GPT [27, 28] 或 Gemma-3 [29] 等語言模型集成在一起。這些模型采用微調(diào)或凍結(jié)策略來實現(xiàn)圖像到文本的生成和跨模態(tài)對齊。此外，最近的進展已將多模態(tài)大型語言模型擴展到視頻和音頻理解，例如 Video-LLaVA [30] 和 VideoPoet [31]。

多模態(tài)大型語言模型的一個關(guān)鍵挑戰(zhàn)在于，它們依賴于將圖像或視頻編碼為成百上千個視覺標(biāo)記，然后將這些標(biāo)記與文本標(biāo)記連接起來，并由語言模型共同處理。由于自注意力機制的二次復(fù)雜度 [6]，這種方法會產(chǎn)生高昂的計算成本。此外，這些視覺標(biāo)記的冗余性和低信息密度——特別是在高分辨率或多幀輸入中，如 LLaVA [1] 和 mini-Gemini-HD [25] 所示——已成為顯著瓶頸，嚴重影響了推理效率。

2.2 視覺標(biāo)記壓縮

視覺標(biāo)記冗余問題已在視覺Transformer的背景下得到研究 [5]。例如，CF-ViT [32] 采用由粗到細的處理策略，而 Evo-ViT [33] 引入了一種自適應(yīng)的慢-快標(biāo)記演化機制，以減少冗余計算并提高推理效率。在多模態(tài)大型語言模型中，過多視覺標(biāo)記帶來的計算負擔(dān)更為突出，因此專門針對此問題發(fā)展了各種視覺標(biāo)記壓縮技術(shù)。FastV [8] 基于注意力分數(shù)選擇最重要的標(biāo)記，僅保留關(guān)鍵信息以減少處理開銷。PruMerge [11] 通過測量標(biāo)記與類別標(biāo)記的相似性來自適應(yīng)地剪枝和合并標(biāo)記，有效平衡了準(zhǔn)確性和效率。SparseVLM [17] 利用跨模態(tài)注意力，根據(jù)文本輸入識別并保留最相關(guān)的視覺標(biāo)記，從而改進了標(biāo)記選擇并提高了整體模型效率。這些方法利用不同的策略來識別和保留關(guān)鍵的視覺標(biāo)記，顯著提升了多模態(tài)大型語言模型的效率，同時保持了強大的性能。

2.3 多模態(tài)大型語言模型中的視覺信息遷移

隨著對多模態(tài)大型語言模型內(nèi)部機制的研究日益深入，近期的研究探索了視覺信息如何通過語言模型中的Transformer層進行傳播。VTW [10] 表明，視覺信息在早期層通過因果自注意力迅速遷移到問題標(biāo)記，此后視覺標(biāo)記變得 largely redundant，允許在后續(xù)層中移除它們以實現(xiàn)更高效的推理。HiMAP [20] 提出了一個分階段的遷移過程：在淺層，視覺標(biāo)記將信息注入問題標(biāo)記；而在中層，它們主要進行視覺內(nèi)部的聚合，這表明從跨模態(tài)融合過渡到了模態(tài)內(nèi)整合。跨模態(tài)信息流 [34] 通過識別視覺到文本遷移的兩個不同階段來細化這一理解：首先是將全局視覺語義注入問題標(biāo)記，然后是更聚焦于任務(wù)相關(guān)區(qū)域特征的遷移。最終，最終的預(yù)測依賴于轉(zhuǎn)換后的文本表示。

3 方法 3.1 初步觀察與動機

現(xiàn)代多模態(tài)大型語言模型，如 LLaVA [22]，通常由三個核心組件構(gòu)成：一個視覺編碼器、一個跨模態(tài)投影器和一個預(yù)訓(xùn)練的大型語言模型。視覺編碼器（例如，CLIP ViT-L [4]）提取圖像塊特征，并通過投影器將其映射到語言嵌入空間，生成與文本表示對齊的視覺標(biāo)記。給定多模態(tài)輸入，系統(tǒng)會對任務(wù)指令（即系統(tǒng)提示）、用戶查詢和視覺標(biāo)記進行編碼。這些分別被 token 化為系統(tǒng)標(biāo)記、文本標(biāo)記和視覺標(biāo)記。在自回歸解碼過程中，先前生成的輸出會被附加到輸入序列中。在第一個 Transformer 層（i = 1），完整的輸入被公式化為：

3.2 視覺令牌調(diào)度：視覺令牌何時以及如何使用

考慮到在 第3.1節(jié)中描述的劃分后的視覺令牌集，我們現(xiàn)在考慮一個核心問題：每組令牌應(yīng)該在何時以及如何參與推理？直觀上，兩種令牌類型都攜帶互補的視覺信息——主體令牌反映顯著實體，而非主體令牌編碼上下文或背景線索。高效利用需要一種調(diào)度策略，使得兩組令牌都能做出有意義的貢獻，同時避免完整的注意力開銷。

為此，我們的視覺令牌調(diào)度在 Transformer 層之間對主體和非主體令牌進行時間上的分離。具體來說，我們利用視覺信息遷移現(xiàn)象，即在早期層中通過自注意力將視覺語義轉(zhuǎn)移到問題令牌中。我們探索了兩種順序調(diào)度策略：（1）主體優(yōu)先調(diào)度；（2）非主體優(yōu)先調(diào)度。

3.3 視覺令牌組的并行路徑執(zhí)行

為了克服視覺令牌調(diào)度中的表征局限性，我們提出了一種并行執(zhí)行策略，使得主體和非主體令牌能夠同時在Transformer的早期層中參與處理。這確保了全面的視覺信息遷移到問題令牌中，同時避免了因延遲注入令牌而導(dǎo)致的語義不匹配。

一種樸素的解決方案是順序處理兩組令牌，讓它們各自通過相同的早期層。然而，這會使計算成本加倍，并抵消調(diào)度帶來的好處。因此，我們采用了一種批量并行執(zhí)行的設(shè)計：通過沿批次維度連接兩組令牌的輸入序列，使得兩組視覺令牌在同一前向傳遞中被獨立處理。

如圖2(b)所示，我們在前 n n個 Transformer 層構(gòu)建了兩個并行的輸入流：

4 實驗 4.1 實驗設(shè)置

我們使用 LLaVA-1.5 [22]、LLaVA-Next [1]、InternVL2.5 [40]、Qwen2.5-VL [41] 和 VideoLLaVA [30] 來驗證我們的 ParVTS。我們在多個不同的基準(zhǔn)上進行了比較，包括：視覺問答（GQA [42]、VQAv2 [43]、ScienceQA [13]、VizWiz-VQA [44]、MMB [45]、MME [46]）、幻覺檢測（POPE [47]）、視頻問答（TGIF-QA [48]、MSVD-QA [49]）。更多的實現(xiàn)細節(jié)見附錄 B。

4.2 主要結(jié)果

定量評估。表1至表4展示了我們的 ParVTS 在固定視覺令牌預(yù)算下，跨多模態(tài)理解任務(wù)的定量結(jié)果。在表1中，對于 LLaVA-1.5-7B，我們的 ParVTS 達到了 92.45% 的平均性能，排名第一，超出第二名（SAINT [37]）6.76%。這表明 ParVTS 很好地緩解了令牌減少帶來的性能下降，即使在激進壓縮下也保持了強大的魯棒性和穩(wěn)定性。

此外，如表2至表4所示，我們的 ParVTS 也提升了其他開源多模態(tài)大型語言模型的性能。這表明 ParVTS 能夠可靠地遷移到不同的模型架構(gòu)和規(guī)模，包括 InternVL2.5 和 Qwen2.5-VL。涵蓋更多視覺令牌預(yù)算、更多多模態(tài)大型語言模型架構(gòu)（InternVL2、Qwen3-VL）以及不同模型規(guī)模的進一步實驗見附錄 C。

定性示例。我們在附錄 I 中進一步提供了幾個推理示例，展示了 ParVTS 能夠正確回答與非主體令牌相關(guān)的查詢。通過利用而非丟棄非主體令牌，我們的方法保留了上下文線索，并能夠?qū)崿F(xiàn)超越僅主體區(qū)域的準(zhǔn)確推理。

下游任務(wù)。我們在 LISA [50] 上驗證了 ParVTS 的泛化能力，這是一個細粒度的分割任務(wù)。結(jié)果（詳見附錄 F）表明，ParVTS 在不同的推理場景中成功保留了原始模型的分割能力，證實了其在需要詳細視覺理解的下游應(yīng)用中的有效性。

4.3 成本與效率分析

我們在三種配置下比較了不同方法，這些配置具有相似的 MME [46] 分數(shù)，并報告了在每個準(zhǔn)確率水平下保留的視覺令牌數(shù)量、推理延遲和 TFLOPs 成本。如表5所示，ParVTS 始終能以更少的令牌和更低的計算成本實現(xiàn)最高的推理準(zhǔn)確率。為了進一步評估效率，我們在附錄 D 中提供了跨不同并發(fā)和響應(yīng)長度設(shè)置的細粒度經(jīng)驗統(tǒng)計和分析，報告了預(yù)填充和解碼階段的延遲、GPU 峰值內(nèi)存和 TFLOPs。

此外，我們建立了一個理論加速模型，該模型分析了剪枝率和遷移深度如何影響預(yù)填充和解碼兩個階段的加速效果，詳見附錄E。

ParVTS 還為高效部署提供了更好的工程兼容性。與 FastV [8]、PruMerge [11] 和 HiRED [38] 不同，這些方法需要訪問中間注意力矩陣，因而與 Flash-Attention [51, 52] 的計算模式存在沖突，而 ParVTS 與 Flash-Attention 和 KV 緩存復(fù)用完全兼容，確保了在實際部署中的無縫集成。

4.4 消融研究

遷移深度 n 。我們首先研究了遷移深度 n 如何影響模型性能。如表6所示，在更激進的剪枝策略下，需要更大的遷移深度 n 來維持性能。

基于 [CLS] 的主體定位的可靠性。我們在附錄 I 中提供了可視化結(jié)果，顯示 [CLS] 令牌的注意力能夠有效分離主體和非主體區(qū)域。這證實了使用基于 [CLS] 的顯著性進行前景定位的可靠性。
5 局限性與未來工作

ParVTS 使用視覺編碼器中對 [CLS] 令牌的注意力來分離主體和非主體令牌。雖然這種輕量級、無需監(jiān)督的策略符合我們免訓(xùn)練的設(shè)計理念，但在處理包含多個顯著區(qū)域、細微前景或非對象中心查詢的圖像時，它可能會遇到困難。未來的工作可以探索更魯棒、自適應(yīng)的令牌分組方法，以增強視覺信息的選擇。此外，關(guān)鍵的超參數(shù)（遷移深度 n n和融合權(quán)重 α , β
）是經(jīng)驗性設(shè)置的。根據(jù)輸入或任務(wù)自動調(diào)整這些參數(shù)仍然是一個待探索的方向。

6 結(jié)論

我們提出了 ParVTS，一個免訓(xùn)練的視覺令牌調(diào)度框架，它利用早期層的信息遷移和并行執(zhí)行來恢復(fù)非主體語義，從而實現(xiàn)快速且準(zhǔn)確的多模態(tài)大型語言模型推理。跨多個基準(zhǔn)和壓縮級別的實驗表明，ParVTS 在顯著降低推理成本的同時，始終能實現(xiàn)強大的性能。這些結(jié)果凸顯了利用模型內(nèi)在行為進行高效推理的潛力，為機制感知的多模態(tài)推理提供了新的見解。

原文鏈接：https://www.arxiv.org/pdf/2511.18875

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.