網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

清華劉知遠(yuǎn)團(tuán)隊(duì)論文：最小化結(jié)構(gòu)改動(dòng)，短文本到長(zhǎng)文本絲滑升級(jí) | ICLR 2026

2026-02-06 21:41:10　來(lái)源: 雷峰網(wǎng)

北京舉報(bào)

分享至

在大語(yǔ)言模型快速邁向更強(qiáng)推理能力與更復(fù)雜應(yīng)用場(chǎng)景的過(guò)程中，“上下文長(zhǎng)度”已經(jīng)從一個(gè)模型配置參數(shù)，演變?yōu)橹萍s系統(tǒng)能力上限的關(guān)鍵瓶頸。

一方面，長(zhǎng)文檔理解、跨輪對(duì)話(huà)記憶、復(fù)雜規(guī)劃與長(zhǎng)鏈?zhǔn)酵评淼热蝿?wù)，對(duì)模型提出了遠(yuǎn)超傳統(tǒng) 4k 或 8k 序列長(zhǎng)度的需求；另一方面，主流 Transformer 架構(gòu)中基于全注意力機(jī)制的計(jì)算模式，在序列長(zhǎng)度增長(zhǎng)時(shí)不可避免地帶來(lái)平方級(jí)的時(shí)間與顯存開(kāi)銷(xiāo)，使得“支持更長(zhǎng)上下文”在現(xiàn)實(shí)工程中迅速轉(zhuǎn)化為難以承受的成本問(wèn)題。

圍繞這一矛盾，稀疏注意力幾乎成為學(xué)術(shù)界與工業(yè)界的共識(shí)方向，但隨之而來(lái)的，并不是問(wèn)題的徹底解決，而是一系列新的結(jié)構(gòu)性張力。

過(guò)去數(shù)年中，大量工作嘗試通過(guò)引入新的注意力結(jié)構(gòu)、路由機(jī)制或可訓(xùn)練稀疏模塊來(lái)緩解計(jì)算壓力。這些方法在理論復(fù)雜度或特定評(píng)測(cè)上往往表現(xiàn)出色，但在真實(shí)模型訓(xùn)練與部署流程中，卻逐漸暴露出一個(gè)被長(zhǎng)期低估的問(wèn)題：當(dāng)前大語(yǔ)言模型幾乎無(wú)一例外遵循“短序列預(yù)訓(xùn)練、長(zhǎng)序列微調(diào)”的訓(xùn)練范式，而一些修改模型架構(gòu)的稀疏注意力方案例如NSA，在結(jié)構(gòu)、參數(shù)或輸出形式上與標(biāo)準(zhǔn) dense attention 存在顯著不對(duì)齊。

正是在這一背景下，清華大學(xué)劉知遠(yuǎn)團(tuán)隊(duì)提出了《InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation》。與以往強(qiáng)調(diào)“引入新結(jié)構(gòu)”或“增加可訓(xùn)練模塊”的路徑不同，這項(xiàng)研究將關(guān)注點(diǎn)前移至一個(gè)更基礎(chǔ)的問(wèn)題：稀疏注意力是否必須以改變模型結(jié)構(gòu)為代價(jià)，才能獲得長(zhǎng)上下文效率？

為此研究團(tuán)隊(duì)提出了一種 dense–sparse 可切換的注意力框架，試圖在以原有 dense attention 參數(shù)作為起始點(diǎn)，保持輸出形式不變，做到長(zhǎng)短文本可同時(shí)訓(xùn)練，且能高效地實(shí)現(xiàn)從短上下文到長(zhǎng)上下文的平滑過(guò)渡。

值得一提的是，這項(xiàng)工作并未將重點(diǎn)放在單一指標(biāo)的提升上，而是系統(tǒng)性地從性能保持、訓(xùn)練穩(wěn)定性以及端到端推理效率三個(gè)層面，對(duì)這一設(shè)計(jì)思路進(jìn)行了驗(yàn)證，從而為長(zhǎng)上下文大語(yǔ)言模型的研究與工程實(shí)踐提供了一條不同于以往的技術(shù)路線(xiàn)。

論文地址：https://arxiv.org/pdf/2509.24663

一次「是否真可用」的實(shí)驗(yàn)回答

整體來(lái)看，研究的實(shí)驗(yàn)設(shè)計(jì)并非簡(jiǎn)單地驗(yàn)證“InfLLM-V2 是否有效”，而是圍繞三個(gè)逐層遞進(jìn)的核心問(wèn)題展開(kāi)：第一，在長(zhǎng)上下文任務(wù)中，該方法的性能是否能夠逼近甚至匹配全注意力機(jī)制；第二，在“短序列預(yù)訓(xùn)練 → 長(zhǎng)序列微調(diào)”的真實(shí)訓(xùn)練范式下，該方法是否會(huì)破壞模型原有能力；第三，在完整推理流程中，稀疏注意力帶來(lái)的計(jì)算加速是否能夠轉(zhuǎn)化為端到端的實(shí)際收益。

圍繞第一個(gè)問(wèn)題，研究團(tuán)隊(duì)重點(diǎn)評(píng)測(cè)了多種長(zhǎng)輸入理解任務(wù)。在 32k 長(zhǎng)度的 RULER 基準(zhǔn)上，InfLLM-V2（Sparse）在絕大多數(shù)子任務(wù)中的表現(xiàn)幾乎與 Full Attention 重合，而訓(xùn)練后稀疏方法（如 InfLLM、MInference）在部分任務(wù)上出現(xiàn)明顯性能斷崖，可訓(xùn)練稀疏注意力方法 NSA 在短序列到長(zhǎng)序列遷移的設(shè)定下也顯著落后。

這一結(jié)果表明，InfLLM-V2 的稀疏策略并未破壞跨塊的長(zhǎng)距離依賴(lài)建模能力，而其他方法要么在 block 選擇階段失效，要么對(duì)原有注意力分布造成了顯著擾動(dòng)。

在更貼近真實(shí)應(yīng)用場(chǎng)景的 LongBench 基準(zhǔn)上，這一趨勢(shì)表現(xiàn)得更加明顯。由于 LongBench 覆蓋問(wèn)答、摘要、推理以及多語(yǔ)言等多種真實(shí)任務(wù)，其整體難度高于合成數(shù)據(jù)集，但 InfLLM-V2（Sparse）的整體得分依然達(dá)到甚至略微超過(guò) Full Attention。雷峰網(wǎng)

相比之下，NSA 的性能明顯低于全注意力，而僅依賴(lài)長(zhǎng)度外推的 SHORT+YaRN 方法則出現(xiàn)了大幅性能退化。研究人員進(jìn)一步觀(guān)察到，InfLLM-V2 的 dense / sparse 可切換機(jī)制在部分任務(wù)中反而降低了注意力噪聲，從而使模型輸出更加穩(wěn)定。

在 LongPPL 這一用于衡量長(zhǎng)序列語(yǔ)言建模能力的困惑度評(píng)測(cè)中，InfLLM-V2 的表現(xiàn)與 Full Attention 基本一致，而 NSA 的困惑度顯著更高。這一結(jié)果說(shuō)明，NSA 在短到長(zhǎng)遷移訓(xùn)練后并未真正學(xué)會(huì)建模長(zhǎng)程語(yǔ)言分布，其較低的訓(xùn)練 loss 并未轉(zhuǎn)化為有效的長(zhǎng)序列建模能力。

圍繞第二個(gè)問(wèn)題，研究團(tuán)隊(duì)還系統(tǒng)評(píng)估了長(zhǎng)鏈?zhǔn)酵评砣蝿?wù)，包括 MATH-500、AIME 以及 LiveCodeBench。這類(lèi)任務(wù)的共同特點(diǎn)在于輸出序列較長(zhǎng)，且中間推理步驟高度依賴(lài)早期上下文信息。

實(shí)驗(yàn)結(jié)果顯示，InfLLM-V2（Sparse）在這些任務(wù)上的表現(xiàn)與 Full Attention 幾乎持平，而 NSA 在所有相關(guān)任務(wù)中均出現(xiàn)了明顯的性能下降。這直接表明，InfLLM-V2 所采用的稀疏注意力機(jī)制不會(huì)破壞鏈?zhǔn)剿季S推理過(guò)程中所需的“思維連續(xù)性”。

此外，研究人員還驗(yàn)證了一個(gè)在工程實(shí)踐中尤為關(guān)鍵但常被忽視的問(wèn)題：在完成長(zhǎng)上下文微調(diào)之后，模型是否仍能夠勝任常規(guī)短序列任務(wù)。在 MMLU、CEval、HumanEval 等評(píng)測(cè)中，InfLLM-V2 切回 dense 模式后依然保持了與 Full Attention 相當(dāng)?shù)男阅埽?NSA 則出現(xiàn)了明顯退化。這一結(jié)果從工程角度表明，InfLLM-V2 不會(huì)在適配長(zhǎng)上下文能力的過(guò)程中破壞模型原有的通用能力。

最后，針對(duì)第三個(gè)問(wèn)題，研究團(tuán)隊(duì)不僅評(píng)估了 attention kernel 層面的理論加速效果，還在完整推理流程中測(cè)量了 prefilling（TTFT）和 decoding（TPOT）的端到端效率。

在可見(jiàn) token 數(shù)為 6k（|I|=96）的設(shè)置下，InfLLM-V2 實(shí)現(xiàn)了約 2.1× 的 prefilling 加速和 2.3× 的 decoding 加速，而且這一結(jié)果是在前饋網(wǎng)絡(luò)（FFN）部分完全未進(jìn)行優(yōu)化的前提下獲得的，進(jìn)一步說(shuō)明該稀疏注意力設(shè)計(jì)在真實(shí)推理場(chǎng)景中具有切實(shí)可落地的加速價(jià)值。

從結(jié)構(gòu)選擇到系統(tǒng)優(yōu)化

結(jié)果之外，這項(xiàng)研究的實(shí)驗(yàn)實(shí)際上回答了一個(gè)更根本的問(wèn)題：為什么 InfLLM-V2 的實(shí)驗(yàn)結(jié)果并非“偶然跑出來(lái)的”，而是其設(shè)計(jì)邏輯在完整訓(xùn)練流程中被系統(tǒng)性驗(yàn)證的必然結(jié)果。

研究團(tuán)隊(duì)首先指出，現(xiàn)實(shí)世界中幾乎所有大語(yǔ)言模型都遵循“短序列預(yù)訓(xùn)練、長(zhǎng)序列微調(diào)”的通行范式，因此，任何稀疏注意力方案如果在這一過(guò)程中大幅改變參數(shù)結(jié)構(gòu)、調(diào)整 attention 的輸出形式，都會(huì)直接損傷模型在短序列階段已經(jīng)學(xué)到的表示能力。

基于這一現(xiàn)實(shí)約束，研究人員明確設(shè)定了 InfLLM-V2 的核心實(shí)驗(yàn)前提：在從 dense attention 過(guò)渡到 sparse attention 的過(guò)程中，必須保證已有 dense attention 的表達(dá)能力不被破壞。

在具體訓(xùn)練流程上，研究團(tuán)隊(duì)首先采用完全標(biāo)準(zhǔn)的 Transformer 架構(gòu)對(duì)模型進(jìn)行短序列預(yù)訓(xùn)練，模型規(guī)模為 8B 參數(shù)，使用 GQA 結(jié)構(gòu)，序列長(zhǎng)度為 4k。這一階段未引入任何 InfLLM-V2 相關(guān)的稀疏機(jī)制，確保模型能力完全建立在傳統(tǒng)全注意力的基礎(chǔ)之上。雷峰網(wǎng)

隨后，在進(jìn)入長(zhǎng)上下文訓(xùn)練階段時(shí)，模型內(nèi)部?jī)H發(fā)生了三項(xiàng)關(guān)鍵變化：當(dāng)序列長(zhǎng)度超過(guò)預(yù)設(shè)閾值時(shí)，attention mask 由稠密形式切換為稀疏形式；Key 與 Value 的投影參數(shù)被完整復(fù)用，不引入新的參數(shù)分支；attention 的輸出形式始終保持為 single-output 結(jié)構(gòu)，不使用 gating，也不存在多路 attention 輸出的聚合。

正是這種“最小結(jié)構(gòu)擾動(dòng)”的切換方式，使 InfLLM-V2 能夠在適配長(zhǎng)上下文的同時(shí)，最大限度保留原有模型能力，這也構(gòu)成了其與 NSA 等可訓(xùn)練稀疏注意力方法的本質(zhì)差異。

相關(guān)實(shí)驗(yàn)進(jìn)一步驗(yàn)證了一個(gè)具有反直覺(jué)意味的結(jié)論：可訓(xùn)練的稀疏 attention 并不必然更適合短到長(zhǎng)的遷移訓(xùn)練。研究人員的分析表明，NSA 在該設(shè)定下的性能問(wèn)題并非源自稀疏機(jī)制本身，而是由于其引入了三套 Key–Value 投影、多路 attention 輸出以及基于 gating 的結(jié)果聚合結(jié)構(gòu)。

這些額外模塊在短序列階段不僅帶來(lái)冗余計(jì)算開(kāi)銷(xiāo)，還會(huì)顯著改變注意力分布形態(tài)，從而對(duì)模型已學(xué)到的表示造成干擾。在實(shí)驗(yàn)結(jié)果中，這一問(wèn)題具體表現(xiàn)為訓(xùn)練 loss 曲線(xiàn)出現(xiàn)明顯震蕩、長(zhǎng)序列困惑度（LongPPL）顯著升高，以及長(zhǎng)鏈?zhǔn)酵评砣蝿?wù)性能的系統(tǒng)性下降。

在工程實(shí)現(xiàn)層面，研究團(tuán)隊(duì)還通過(guò)進(jìn)一步的消融分析定位了 InfLLM-V2 的主要性能瓶頸，發(fā)現(xiàn)其集中在 block selection 階段，尤其是 compression attention 的計(jì)算以及 attention score 的顯式物化過(guò)程。針對(duì)這一問(wèn)題，研究人員在實(shí)驗(yàn)中引入了 head-group fusion 和 LSE Approximation 等優(yōu)化策略。

實(shí)驗(yàn)結(jié)果表明，這些改進(jìn)在幾乎不影響模型性能的前提下，可以將 block selection 的計(jì)算時(shí)間降低約 20–30%，從而為后續(xù)端到端推理加速實(shí)驗(yàn)中觀(guān)察到的顯著性能提升奠定了關(guān)鍵基礎(chǔ)。

可「熱升級(jí)」的長(zhǎng)上下文方案

從研究意義的角度來(lái)看，這項(xiàng)研究對(duì)“長(zhǎng)上下文大語(yǔ)言模型”這一方向給出了具有方法論價(jià)值的啟示。

研究團(tuán)隊(duì)明確指出，稀疏注意力機(jī)制未來(lái)的發(fā)展重點(diǎn)并不在于設(shè)計(jì)全新的注意力結(jié)構(gòu)，而在于如何在不破壞既有 dense attention 結(jié)構(gòu)的前提下實(shí)現(xiàn)高效的稀疏化，這一觀(guān)點(diǎn)在一定程度上改變了此前以“結(jié)構(gòu)創(chuàng)新”為主導(dǎo)的研究范式。

在工程實(shí)踐層面，InfLLM-V2 所具備的一系列特性恰好契合真實(shí)工業(yè)部署的核心需求，包括無(wú)需調(diào)整模型參數(shù)規(guī)模、無(wú)需維護(hù)多套模型版本、不會(huì)犧牲短序列任務(wù)性能，且不依賴(lài)重新進(jìn)行大規(guī)模預(yù)訓(xùn)練。這意味著，一個(gè)已經(jīng)部署或訓(xùn)練完成的現(xiàn)有大語(yǔ)言模型，可以在最小代價(jià)下被“熱升級(jí)”為具備長(zhǎng)上下文處理能力的模型。

在此基礎(chǔ)上，研究人員也為后續(xù)工作隱含地劃定了若干重要約束：首先，應(yīng)避免引入額外的 attention 分支，以免破壞原有結(jié)構(gòu)的一致性；其次，不應(yīng)采用與 dense attention 輸出形式不兼容的設(shè)計(jì)，否則將導(dǎo)致短到長(zhǎng)遷移過(guò)程中的能力損失；最后，稀疏注意力的設(shè)計(jì)必須充分考慮底層計(jì)算實(shí)現(xiàn)與 kernel 特性，而不僅停留在概念層面的結(jié)構(gòu)優(yōu)雅性。

正是由于該研究將訓(xùn)練范式、模型結(jié)構(gòu)設(shè)計(jì)以及 CUDA 級(jí)實(shí)現(xiàn)細(xì)節(jié)進(jìn)行了統(tǒng)一考量，并系統(tǒng)性地解釋了以往稀疏注意力方法在真實(shí)訓(xùn)練與推理流程中失敗的原因，才使其不僅停留在方法層面的提出，而能夠進(jìn)一步支撐實(shí)際模型的訓(xùn)練與落地應(yīng)用，這也是研究團(tuán)隊(duì)能夠基于該框架直接產(chǎn)出 MiniCPM-4.1 等模型的重要原因。

InfLLM-V2 主要作者

趙威霖，他是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系自然語(yǔ)言處理實(shí)驗(yàn)室（THUNLP）的博士研究生，研究方向聚焦于高效大語(yǔ)言模型。

他的研究主要圍繞模型推理與訓(xùn)練加速展開(kāi)，關(guān)注點(diǎn)并非單純引入新的模型結(jié)構(gòu)，而是如何在不破壞標(biāo)準(zhǔn) Transformer 表達(dá)能力與既有模型性能的前提下，實(shí)現(xiàn)對(duì)各類(lèi)場(chǎng)景的有效適配與工程級(jí)加速。

除學(xué)術(shù)研究外，他還長(zhǎng)期參與 OpenBMB、MiniCPM 等開(kāi)源項(xiàng)目，在高性能 attention kernel、推理優(yōu)化與系統(tǒng)實(shí)現(xiàn)方面承擔(dān)關(guān)鍵工程工作，其研究成果發(fā)表于 ICLR、ACL、EMNLP 等國(guó)際主流會(huì)議。

參考鏈接：https://weilin-zhao.com

劉知遠(yuǎn)，他是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授、博士生導(dǎo)師，兼任中國(guó)中文信息學(xué)會(huì)理事、社會(huì)媒體處理專(zhuān)委會(huì)副主任等學(xué)術(shù)職務(wù)。

劉知遠(yuǎn)分別于 2006 年、 2011 年于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系獲得學(xué)士、博士學(xué)位，并在清華大學(xué)開(kāi)展博士后研究，后留校任教。其主要研究方向包括大模型技術(shù)、自然語(yǔ)言處理、知識(shí)圖譜與語(yǔ)義計(jì)算以及社會(huì)計(jì)算等核心領(lǐng)域。

劉知遠(yuǎn)在國(guó)際主流學(xué)術(shù)會(huì)議和期刊（如Nature Machine Intelligence、ACL、EMNLP、IJCAI 和 AAAI）上發(fā)表了 200 余篇論文，其 Google Scholar 引用量超過(guò)7萬(wàn)次，反映出廣泛的學(xué)術(shù)影響力。

他在多項(xiàng)國(guó)家級(jí)科研項(xiàng)目中擔(dān)任負(fù)責(zé)人或主要參與者，曾獲教育部自然科學(xué)一等獎(jiǎng)、中國(guó)中文信息學(xué)會(huì)錢(qián)偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)、世界互聯(lián)網(wǎng)領(lǐng)先科技成果獎(jiǎng)、北京市青年教學(xué)名師獎(jiǎng)等多項(xiàng)科研獎(jiǎng)勵(lì)，并入選包括國(guó)家青年人才計(jì)劃、Elsevier 中國(guó)高被引學(xué)者、《麻省理工科技評(píng)論》中國(guó)區(qū)“35 歲以下科技創(chuàng)新 35 人榜單”及中國(guó)科協(xié)青年人才托舉工程等人才項(xiàng)目。

參考地址：https://nlp.csai.tsinghua.edu.cn/~lzy/zh.html

韓旭，他是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系助理研究員，也是大模型開(kāi)源社區(qū) OpenBMB 的核心發(fā)起人與長(zhǎng)期負(fù)責(zé)人之一。

韓旭長(zhǎng)期從事大模型技術(shù)、自然語(yǔ)言處理、知識(shí)工程等方面的研究，部分研究也涉及并行計(jì)算、異構(gòu)系統(tǒng)優(yōu)化等方向，在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議及期刊發(fā)表論文數(shù)十篇，Google Scholar 他引 1.6 萬(wàn)余次，曾獲教育部自然科學(xué)一等獎(jiǎng)、世界互聯(lián)網(wǎng)大會(huì)領(lǐng)先科技獎(jiǎng)，并入選中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）優(yōu)博激勵(lì)計(jì)劃、清華優(yōu)秀博士后、《麻省理工科技評(píng)論》中國(guó)區(qū)“35 歲以下科技創(chuàng)新 35 人榜單”、及博士后創(chuàng)新人才支持計(jì)劃。

參考鏈接：https://www.cs.tsinghua.edu.cn/info/1114/6422.htm

肖朝軍，他是清華大學(xué)計(jì)算機(jī)系博士后，主要研究方向?yàn)楦咝Т竽Ｐ图軜?gòu)，在Nature Machine Intelligence、ICML、NeurIPS、ICLR、ACL等國(guó)際頂級(jí)會(huì)議及期刊發(fā)表論文多篇，曾獲錢(qián)偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)，博士后創(chuàng)新人才支持計(jì)劃，清華大學(xué)水木學(xué)者，清華大學(xué)優(yōu)秀博士論文等榮譽(yù)。

參考鏈接：https://xcjthu.github.io/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.