在大語(yǔ)言模型快速邁向更強(qiáng)推理能力與更復(fù)雜應(yīng)用場(chǎng)景的過(guò)程中,“上下文長(zhǎng)度”已經(jīng)從一個(gè)模型配置參數(shù),演變?yōu)橹萍s系統(tǒng)能力上限的關(guān)鍵瓶頸。
一方面,長(zhǎng)文檔理解、跨輪對(duì)話(huà)記憶、復(fù)雜規(guī)劃與長(zhǎng)鏈?zhǔn)酵评淼热蝿?wù),對(duì)模型提出了遠(yuǎn)超傳統(tǒng) 4k 或 8k 序列長(zhǎng)度的需求;另一方面,主流 Transformer 架構(gòu)中基于全注意力機(jī)制的計(jì)算模式,在序列長(zhǎng)度增長(zhǎng)時(shí)不可避免地帶來(lái)平方級(jí)的時(shí)間與顯存開(kāi)銷(xiāo),使得“支持更長(zhǎng)上下文”在現(xiàn)實(shí)工程中迅速轉(zhuǎn)化為難以承受的成本問(wèn)題。
圍繞這一矛盾,稀疏注意力幾乎成為學(xué)術(shù)界與工業(yè)界的共識(shí)方向,但隨之而來(lái)的,并不是問(wèn)題的徹底解決,而是一系列新的結(jié)構(gòu)性張力。
過(guò)去數(shù)年中,大量工作嘗試通過(guò)引入新的注意力結(jié)構(gòu)、路由機(jī)制或可訓(xùn)練稀疏模塊來(lái)緩解計(jì)算壓力。這些方法在理論復(fù)雜度或特定評(píng)測(cè)上往往表現(xiàn)出色,但在真實(shí)模型訓(xùn)練與部署流程中,卻逐漸暴露出一個(gè)被長(zhǎng)期低估的問(wèn)題:當(dāng)前大語(yǔ)言模型幾乎無(wú)一例外遵循“短序列預(yù)訓(xùn)練、長(zhǎng)序列微調(diào)”的訓(xùn)練范式,而一些修改模型架構(gòu)的稀疏注意力方案例如NSA,在結(jié)構(gòu)、參數(shù)或輸出形式上與標(biāo)準(zhǔn) dense attention 存在顯著不對(duì)齊。
正是在這一背景下,清華大學(xué)劉知遠(yuǎn)團(tuán)隊(duì)提出了《InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation》。與以往強(qiáng)調(diào)“引入新結(jié)構(gòu)”或“增加可訓(xùn)練模塊”的路徑不同,這項(xiàng)研究將關(guān)注點(diǎn)前移至一個(gè)更基礎(chǔ)的問(wèn)題:稀疏注意力是否必須以改變模型結(jié)構(gòu)為代價(jià),才能獲得長(zhǎng)上下文效率?
為此研究團(tuán)隊(duì)提出了一種 dense–sparse 可切換的注意力框架,試圖在以原有 dense attention 參數(shù)作為起始點(diǎn),保持輸出形式不變,做到長(zhǎng)短文本可同時(shí)訓(xùn)練,且能高效地實(shí)現(xiàn)從短上下文到長(zhǎng)上下文的平滑過(guò)渡。
值得一提的是,這項(xiàng)工作并未將重點(diǎn)放在單一指標(biāo)的提升上,而是系統(tǒng)性地從性能保持、訓(xùn)練穩(wěn)定性以及端到端推理效率三個(gè)層面,對(duì)這一設(shè)計(jì)思路進(jìn)行了驗(yàn)證,從而為長(zhǎng)上下文大語(yǔ)言模型的研究與工程實(shí)踐提供了一條不同于以往的技術(shù)路線(xiàn)。
![]()
論文地址:https://arxiv.org/pdf/2509.24663
一次「是否真可用」的實(shí)驗(yàn)回答
整體來(lái)看,研究的實(shí)驗(yàn)設(shè)計(jì)并非簡(jiǎn)單地驗(yàn)證“InfLLM-V2 是否有效”,而是圍繞三個(gè)逐層遞進(jìn)的核心問(wèn)題展開(kāi):第一,在長(zhǎng)上下文任務(wù)中,該方法的性能是否能夠逼近甚至匹配全注意力機(jī)制;第二,在“短序列預(yù)訓(xùn)練 → 長(zhǎng)序列微調(diào)”的真實(shí)訓(xùn)練范式下,該方法是否會(huì)破壞模型原有能力;第三,在完整推理流程中,稀疏注意力帶來(lái)的計(jì)算加速是否能夠轉(zhuǎn)化為端到端的實(shí)際收益。
圍繞第一個(gè)問(wèn)題,研究團(tuán)隊(duì)重點(diǎn)評(píng)測(cè)了多種長(zhǎng)輸入理解任務(wù)。在 32k 長(zhǎng)度的 RULER 基準(zhǔn)上,InfLLM-V2(Sparse)在絕大多數(shù)子任務(wù)中的表現(xiàn)幾乎與 Full Attention 重合,而訓(xùn)練后稀疏方法(如 InfLLM、MInference)在部分任務(wù)上出現(xiàn)明顯性能斷崖,可訓(xùn)練稀疏注意力方法 NSA 在短序列到長(zhǎng)序列遷移的設(shè)定下也顯著落后。
這一結(jié)果表明,InfLLM-V2 的稀疏策略并未破壞跨塊的長(zhǎng)距離依賴(lài)建模能力,而其他方法要么在 block 選擇階段失效,要么對(duì)原有注意力分布造成了顯著擾動(dòng)。
![]()
在更貼近真實(shí)應(yīng)用場(chǎng)景的 LongBench 基準(zhǔn)上,這一趨勢(shì)表現(xiàn)得更加明顯。由于 LongBench 覆蓋問(wèn)答、摘要、推理以及多語(yǔ)言等多種真實(shí)任務(wù),其整體難度高于合成數(shù)據(jù)集,但 InfLLM-V2(Sparse)的整體得分依然達(dá)到甚至略微超過(guò) Full Attention。雷峰網(wǎng)
相比之下,NSA 的性能明顯低于全注意力,而僅依賴(lài)長(zhǎng)度外推的 SHORT+YaRN 方法則出現(xiàn)了大幅性能退化。研究人員進(jìn)一步觀(guān)察到,InfLLM-V2 的 dense / sparse 可切換機(jī)制在部分任務(wù)中反而降低了注意力噪聲,從而使模型輸出更加穩(wěn)定。
![]()
在 LongPPL 這一用于衡量長(zhǎng)序列語(yǔ)言建模能力的困惑度評(píng)測(cè)中,InfLLM-V2 的表現(xiàn)與 Full Attention 基本一致,而 NSA 的困惑度顯著更高。這一結(jié)果說(shuō)明,NSA 在短到長(zhǎng)遷移訓(xùn)練后并未真正學(xué)會(huì)建模長(zhǎng)程語(yǔ)言分布,其較低的訓(xùn)練 loss 并未轉(zhuǎn)化為有效的長(zhǎng)序列建模能力。
![]()
圍繞第二個(gè)問(wèn)題,研究團(tuán)隊(duì)還系統(tǒng)評(píng)估了長(zhǎng)鏈?zhǔn)酵评砣蝿?wù),包括 MATH-500、AIME 以及 LiveCodeBench。這類(lèi)任務(wù)的共同特點(diǎn)在于輸出序列較長(zhǎng),且中間推理步驟高度依賴(lài)早期上下文信息。
實(shí)驗(yàn)結(jié)果顯示,InfLLM-V2(Sparse)在這些任務(wù)上的表現(xiàn)與 Full Attention 幾乎持平,而 NSA 在所有相關(guān)任務(wù)中均出現(xiàn)了明顯的性能下降。這直接表明,InfLLM-V2 所采用的稀疏注意力機(jī)制不會(huì)破壞鏈?zhǔn)剿季S推理過(guò)程中所需的“思維連續(xù)性”。
![]()
此外,研究人員還驗(yàn)證了一個(gè)在工程實(shí)踐中尤為關(guān)鍵但常被忽視的問(wèn)題:在完成長(zhǎng)上下文微調(diào)之后,模型是否仍能夠勝任常規(guī)短序列任務(wù)。在 MMLU、CEval、HumanEval 等評(píng)測(cè)中,InfLLM-V2 切回 dense 模式后依然保持了與 Full Attention 相當(dāng)?shù)男阅埽?NSA 則出現(xiàn)了明顯退化。這一結(jié)果從工程角度表明,InfLLM-V2 不會(huì)在適配長(zhǎng)上下文能力的過(guò)程中破壞模型原有的通用能力。
![]()
最后,針對(duì)第三個(gè)問(wèn)題,研究團(tuán)隊(duì)不僅評(píng)估了 attention kernel 層面的理論加速效果,還在完整推理流程中測(cè)量了 prefilling(TTFT)和 decoding(TPOT)的端到端效率。
在可見(jiàn) token 數(shù)為 6k(|I|=96)的設(shè)置下,InfLLM-V2 實(shí)現(xiàn)了約 2.1× 的 prefilling 加速和 2.3× 的 decoding 加速,而且這一結(jié)果是在前饋網(wǎng)絡(luò)(FFN)部分完全未進(jìn)行優(yōu)化的前提下獲得的,進(jìn)一步說(shuō)明該稀疏注意力設(shè)計(jì)在真實(shí)推理場(chǎng)景中具有切實(shí)可落地的加速價(jià)值。
從結(jié)構(gòu)選擇到系統(tǒng)優(yōu)化
結(jié)果之外,這項(xiàng)研究的實(shí)驗(yàn)實(shí)際上回答了一個(gè)更根本的問(wèn)題:為什么 InfLLM-V2 的實(shí)驗(yàn)結(jié)果并非“偶然跑出來(lái)的”,而是其設(shè)計(jì)邏輯在完整訓(xùn)練流程中被系統(tǒng)性驗(yàn)證的必然結(jié)果。
研究團(tuán)隊(duì)首先指出,現(xiàn)實(shí)世界中幾乎所有大語(yǔ)言模型都遵循“短序列預(yù)訓(xùn)練、長(zhǎng)序列微調(diào)”的通行范式,因此,任何稀疏注意力方案如果在這一過(guò)程中大幅改變參數(shù)結(jié)構(gòu)、調(diào)整 attention 的輸出形式,都會(huì)直接損傷模型在短序列階段已經(jīng)學(xué)到的表示能力。
基于這一現(xiàn)實(shí)約束,研究人員明確設(shè)定了 InfLLM-V2 的核心實(shí)驗(yàn)前提:在從 dense attention 過(guò)渡到 sparse attention 的過(guò)程中,必須保證已有 dense attention 的表達(dá)能力不被破壞。
在具體訓(xùn)練流程上,研究團(tuán)隊(duì)首先采用完全標(biāo)準(zhǔn)的 Transformer 架構(gòu)對(duì)模型進(jìn)行短序列預(yù)訓(xùn)練,模型規(guī)模為 8B 參數(shù),使用 GQA 結(jié)構(gòu),序列長(zhǎng)度為 4k。這一階段未引入任何 InfLLM-V2 相關(guān)的稀疏機(jī)制,確保模型能力完全建立在傳統(tǒng)全注意力的基礎(chǔ)之上。雷峰網(wǎng)
隨后,在進(jìn)入長(zhǎng)上下文訓(xùn)練階段時(shí),模型內(nèi)部?jī)H發(fā)生了三項(xiàng)關(guān)鍵變化:當(dāng)序列長(zhǎng)度超過(guò)預(yù)設(shè)閾值時(shí),attention mask 由稠密形式切換為稀疏形式;Key 與 Value 的投影參數(shù)被完整復(fù)用,不引入新的參數(shù)分支;attention 的輸出形式始終保持為 single-output 結(jié)構(gòu),不使用 gating,也不存在多路 attention 輸出的聚合。
正是這種“最小結(jié)構(gòu)擾動(dòng)”的切換方式,使 InfLLM-V2 能夠在適配長(zhǎng)上下文的同時(shí),最大限度保留原有模型能力,這也構(gòu)成了其與 NSA 等可訓(xùn)練稀疏注意力方法的本質(zhì)差異。
相關(guān)實(shí)驗(yàn)進(jìn)一步驗(yàn)證了一個(gè)具有反直覺(jué)意味的結(jié)論:可訓(xùn)練的稀疏 attention 并不必然更適合短到長(zhǎng)的遷移訓(xùn)練。研究人員的分析表明,NSA 在該設(shè)定下的性能問(wèn)題并非源自稀疏機(jī)制本身,而是由于其引入了三套 Key–Value 投影、多路 attention 輸出以及基于 gating 的結(jié)果聚合結(jié)構(gòu)。
![]()
這些額外模塊在短序列階段不僅帶來(lái)冗余計(jì)算開(kāi)銷(xiāo),還會(huì)顯著改變注意力分布形態(tài),從而對(duì)模型已學(xué)到的表示造成干擾。在實(shí)驗(yàn)結(jié)果中,這一問(wèn)題具體表現(xiàn)為訓(xùn)練 loss 曲線(xiàn)出現(xiàn)明顯震蕩、長(zhǎng)序列困惑度(LongPPL)顯著升高,以及長(zhǎng)鏈?zhǔn)酵评砣蝿?wù)性能的系統(tǒng)性下降。
在工程實(shí)現(xiàn)層面,研究團(tuán)隊(duì)還通過(guò)進(jìn)一步的消融分析定位了 InfLLM-V2 的主要性能瓶頸,發(fā)現(xiàn)其集中在 block selection 階段,尤其是 compression attention 的計(jì)算以及 attention score 的顯式物化過(guò)程。針對(duì)這一問(wèn)題,研究人員在實(shí)驗(yàn)中引入了 head-group fusion 和 LSE Approximation 等優(yōu)化策略。
實(shí)驗(yàn)結(jié)果表明,這些改進(jìn)在幾乎不影響模型性能的前提下,可以將 block selection 的計(jì)算時(shí)間降低約 20–30%,從而為后續(xù)端到端推理加速實(shí)驗(yàn)中觀(guān)察到的顯著性能提升奠定了關(guān)鍵基礎(chǔ)。
![]()
可「熱升級(jí)」的長(zhǎng)上下文方案
從研究意義的角度來(lái)看,這項(xiàng)研究對(duì)“長(zhǎng)上下文大語(yǔ)言模型”這一方向給出了具有方法論價(jià)值的啟示。
研究團(tuán)隊(duì)明確指出,稀疏注意力機(jī)制未來(lái)的發(fā)展重點(diǎn)并不在于設(shè)計(jì)全新的注意力結(jié)構(gòu),而在于如何在不破壞既有 dense attention 結(jié)構(gòu)的前提下實(shí)現(xiàn)高效的稀疏化,這一觀(guān)點(diǎn)在一定程度上改變了此前以“結(jié)構(gòu)創(chuàng)新”為主導(dǎo)的研究范式。
在工程實(shí)踐層面,InfLLM-V2 所具備的一系列特性恰好契合真實(shí)工業(yè)部署的核心需求,包括無(wú)需調(diào)整模型參數(shù)規(guī)模、無(wú)需維護(hù)多套模型版本、不會(huì)犧牲短序列任務(wù)性能,且不依賴(lài)重新進(jìn)行大規(guī)模預(yù)訓(xùn)練。這意味著,一個(gè)已經(jīng)部署或訓(xùn)練完成的現(xiàn)有大語(yǔ)言模型,可以在最小代價(jià)下被“熱升級(jí)”為具備長(zhǎng)上下文處理能力的模型。
在此基礎(chǔ)上,研究人員也為后續(xù)工作隱含地劃定了若干重要約束:首先,應(yīng)避免引入額外的 attention 分支,以免破壞原有結(jié)構(gòu)的一致性;其次,不應(yīng)采用與 dense attention 輸出形式不兼容的設(shè)計(jì),否則將導(dǎo)致短到長(zhǎng)遷移過(guò)程中的能力損失;最后,稀疏注意力的設(shè)計(jì)必須充分考慮底層計(jì)算實(shí)現(xiàn)與 kernel 特性,而不僅停留在概念層面的結(jié)構(gòu)優(yōu)雅性。
正是由于該研究將訓(xùn)練范式、模型結(jié)構(gòu)設(shè)計(jì)以及 CUDA 級(jí)實(shí)現(xiàn)細(xì)節(jié)進(jìn)行了統(tǒng)一考量,并系統(tǒng)性地解釋了以往稀疏注意力方法在真實(shí)訓(xùn)練與推理流程中失敗的原因,才使其不僅停留在方法層面的提出,而能夠進(jìn)一步支撐實(shí)際模型的訓(xùn)練與落地應(yīng)用,這也是研究團(tuán)隊(duì)能夠基于該框架直接產(chǎn)出 MiniCPM-4.1 等模型的重要原因。
InfLLM-V2 主要作者
趙威霖,他是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系自然語(yǔ)言處理實(shí)驗(yàn)室(THUNLP)的博士研究生,研究方向聚焦于高效大語(yǔ)言模型。
他的研究主要圍繞模型推理與訓(xùn)練加速展開(kāi),關(guān)注點(diǎn)并非單純引入新的模型結(jié)構(gòu),而是如何在不破壞標(biāo)準(zhǔn) Transformer 表達(dá)能力與既有模型性能的前提下,實(shí)現(xiàn)對(duì)各類(lèi)場(chǎng)景的有效適配與工程級(jí)加速。
除學(xué)術(shù)研究外,他還長(zhǎng)期參與 OpenBMB、MiniCPM 等開(kāi)源項(xiàng)目,在高性能 attention kernel、推理優(yōu)化與系統(tǒng)實(shí)現(xiàn)方面承擔(dān)關(guān)鍵工程工作,其研究成果發(fā)表于 ICLR、ACL、EMNLP 等國(guó)際主流會(huì)議。
![]()
參考鏈接:https://weilin-zhao.com
劉知遠(yuǎn),他是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授、博士生導(dǎo)師,兼任中國(guó)中文信息學(xué)會(huì)理事、社會(huì)媒體處理專(zhuān)委會(huì)副主任等學(xué)術(shù)職務(wù)。
劉知遠(yuǎn)分別于 2006 年、 2011 年于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系獲得學(xué)士、博士學(xué)位,并在清華大學(xué)開(kāi)展博士后研究,后留校任教。其主要研究方向包括大模型技術(shù)、自然語(yǔ)言處理、知識(shí)圖譜與語(yǔ)義計(jì)算以及社會(huì)計(jì)算等核心領(lǐng)域。
劉知遠(yuǎn)在國(guó)際主流學(xué)術(shù)會(huì)議和期刊(如Nature Machine Intelligence、ACL、EMNLP、IJCAI 和 AAAI)上發(fā)表了 200 余篇論文,其 Google Scholar 引用量超過(guò)7萬(wàn)次,反映出廣泛的學(xué)術(shù)影響力。
他在多項(xiàng)國(guó)家級(jí)科研項(xiàng)目中擔(dān)任負(fù)責(zé)人或主要參與者,曾獲教育部自然科學(xué)一等獎(jiǎng)、中國(guó)中文信息學(xué)會(huì)錢(qián)偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)、世界互聯(lián)網(wǎng)領(lǐng)先科技成果獎(jiǎng)、北京市青年教學(xué)名師獎(jiǎng)等多項(xiàng)科研獎(jiǎng)勵(lì),并入選包括國(guó)家青年人才計(jì)劃、Elsevier 中國(guó)高被引學(xué)者、《麻省理工科技評(píng)論》中國(guó)區(qū)“35 歲以下科技創(chuàng)新 35 人榜單”及中國(guó)科協(xié)青年人才托舉工程等人才項(xiàng)目。
![]()
參考地址:https://nlp.csai.tsinghua.edu.cn/~lzy/zh.html
韓旭,他是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系助理研究員,也是大模型開(kāi)源社區(qū) OpenBMB 的核心發(fā)起人與長(zhǎng)期負(fù)責(zé)人之一。
韓旭長(zhǎng)期從事大模型技術(shù)、自然語(yǔ)言處理、知識(shí)工程等方面的研究,部分研究也涉及并行計(jì)算、異構(gòu)系統(tǒng)優(yōu)化等方向,在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議及期刊發(fā)表論文數(shù)十篇,Google Scholar 他引 1.6 萬(wàn)余次,曾獲教育部自然科學(xué)一等獎(jiǎng)、世界互聯(lián)網(wǎng)大會(huì)領(lǐng)先科技獎(jiǎng),并入選中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)優(yōu)博激勵(lì)計(jì)劃、清華優(yōu)秀博士后、《麻省理工科技評(píng)論》中國(guó)區(qū)“35 歲以下科技創(chuàng)新 35 人榜單”、及博士后創(chuàng)新人才支持計(jì)劃。
![]()
參考鏈接:https://www.cs.tsinghua.edu.cn/info/1114/6422.htm
肖朝軍,他是清華大學(xué)計(jì)算機(jī)系博士后,主要研究方向?yàn)楦咝Т竽P图軜?gòu),在Nature Machine Intelligence、ICML、NeurIPS、ICLR、ACL等國(guó)際頂級(jí)會(huì)議及期刊發(fā)表論文多篇,曾獲錢(qián)偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng),博士后創(chuàng)新人才支持計(jì)劃,清華大學(xué)水木學(xué)者,清華大學(xué)優(yōu)秀博士論文等榮譽(yù)。
![]()
參考鏈接:https://xcjthu.github.io/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.