<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      北大團(tuán)隊(duì)改造DeepSeek注意力,速度快四倍還不丟精度

      0
      分享至

      聽(tīng)雨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI

      就在大家都急頭白臉地等待DeepSeek-V4的時(shí)候,冷不丁一篇新論文引起了網(wǎng)友們的注意——

      提出新稀疏注意力機(jī)制HISA(分層索引稀疏注意力),突破64K上下文的索引瓶頸,相比DeepSeek正在用的DSA(DeepSeek Sparse Attention)提速2-4倍。



      不僅做到了大幅提速,而且?guī)缀醪粊G精度、即插即用不用重新訓(xùn)練



      論文直接在DeepSeek-V3.2和GLM-5上替換索引器,無(wú)需微調(diào)。

      并且在找關(guān)鍵信息、長(zhǎng)文本理解等任務(wù)上,精度都和原方法幾乎持平。



      兩步消除上下文索引瓶頸

      這篇論文想解決的問(wèn)題很明確:給大模型的稀疏注意力機(jī)制換個(gè)更高效的 “檢索器”。

      現(xiàn)有主流的DSA等token級(jí)稀疏注意力,核心就是通過(guò)只計(jì)算關(guān)鍵token的注意力,降低了核心計(jì)算成本。

      但這個(gè)設(shè)計(jì)有個(gè)致命隱藏問(wèn)題:要挑出相關(guān)字符,得靠一個(gè) “索引器”——它需要把每個(gè)待查字符,和前面所有字符挨個(gè)打分,再選分?jǐn)?shù)最高的。

      文本長(zhǎng)度L越長(zhǎng),這個(gè)打分的工作量是L的平方級(jí)增長(zhǎng)。比如長(zhǎng)度翻倍,工作量就會(huì)翻4倍。

      到超長(zhǎng)文本時(shí),這個(gè)索引器的平方級(jí)成本,反而成了拖慢速度的元兇,甚至反而比真正的注意力計(jì)算還耗時(shí)。

      基于此,研究團(tuán)隊(duì)開(kāi)始思考一個(gè)問(wèn)題:能否在不改變最終稀疏注意力結(jié)果的前提下,降低索引器的搜索成本?

      于是,他們提出了HISA(分層索引稀疏注意力),核心思路也很簡(jiǎn)單:

      既然挨個(gè)打分太費(fèi)時(shí)間,那就先按塊篩掉大部分無(wú)關(guān)內(nèi)容,再在剩下的小塊里精細(xì)選。



      在功能邏輯上實(shí)現(xiàn)對(duì)原有模塊的等價(jià)替換,無(wú)需修改后續(xù)注意力計(jì)算邏輯,相當(dāng)于 “換了個(gè)更高效的篩子,篩出來(lái)的東西幾乎沒(méi)變”。

      具體就兩步,全程復(fù)用原模型的打分規(guī)則,零學(xué)習(xí)成本:

      塊級(jí)粗過(guò)濾

      • 把長(zhǎng)文本切成固定大小的 “字符塊”(比如128個(gè)字符一塊),給每個(gè)塊算一個(gè) “整體特征向量”(相當(dāng)于給每塊貼個(gè)總標(biāo)簽)
      • 用原索引器的打分方式,只給這些塊標(biāo)簽打分
      • 挑出分?jǐn)?shù)最高的m個(gè)塊(比如64個(gè)),直接扔掉剩下的所有塊——塊的數(shù)量遠(yuǎn)少于字符數(shù)。

      這一步能省掉絕大部分工作量。

      塊內(nèi)精挑字符

      只在第一步選出來(lái)的m個(gè)塊里,用原索引器的規(guī)則給單個(gè)字符打分,再挑出最終需要的k個(gè)相關(guān)字符。

      還加了個(gè)小優(yōu)化:文本的第一個(gè)塊和最后一個(gè)塊必選,保證開(kāi)頭的背景信息、結(jié)尾的最新上下文不被誤篩,也能處理文本拼接的邊界問(wèn)題。



      HISA的關(guān)鍵優(yōu)勢(shì)在于:復(fù)雜度驟降,還能 “無(wú)縫替換”

      HISA把原索引器每一層 O (L2) 的算力成本,降到了O(L2/B + L×m×B)(B 是塊大小、m 是選的塊數(shù))

      文本越長(zhǎng)、塊選得越精準(zhǔn),提速效果越明顯。

      更重要的是它的工程友好性

      輸出和原索引器完全一致,下游的注意力計(jì)算模塊不用改;

      不用重新訓(xùn)練模型、不用調(diào)整KV緩存結(jié)構(gòu),直接替換原索引器就行;

      短文本時(shí)會(huì)自動(dòng) “退化” 成原方法,只有超長(zhǎng)文本時(shí)才觸發(fā)分層篩選,全程自適應(yīng)。

      實(shí)測(cè)提速超猛,精度幾乎沒(méi)丟

      論文在DeepSeek-V3.2、GLM-5兩大主流大模型上做了全面測(cè)試,結(jié)果很亮眼:

      速度上,在64K長(zhǎng)度的文本下,HISA 比原DSA索引器最高提速3.75倍,常規(guī)設(shè)置也能提速2倍多。



      上下文長(zhǎng)度越長(zhǎng),HISA的提速效果越顯著,完全契合超長(zhǎng)上下文(128K/1M)的實(shí)際應(yīng)用需求。

      精度上,HISA也幾乎完全保留原DSA的精度,且顯著優(yōu)于純塊稀疏方法。

      論文進(jìn)行了“大海撈針”測(cè)試,該測(cè)試衡量在超長(zhǎng)無(wú)關(guān)文本中,精準(zhǔn)檢索指定位置關(guān)鍵信息的能力。

      結(jié)果HISA和DSA幾乎一樣準(zhǔn),在所有長(zhǎng)度和插入深度下,檢索精度均接近DSA的近乎滿分。



      長(zhǎng)文本理解(LongBench 基準(zhǔn))上,HISA的分?jǐn)?shù)也和DSA基本持平。

      甚至在部分場(chǎng)景,比如合成檢索、少樣本學(xué)習(xí)等對(duì)token篩選精度要求高的任務(wù)中,HISA做到了小幅反超。



      而在超參數(shù)測(cè)試中,不同塊大小、選塊數(shù)量下,HISA表現(xiàn)都很穩(wěn)定,分?jǐn)?shù)均與DSA高度接近,無(wú)顯著性能差異



      這也說(shuō)明HISA對(duì)超參數(shù)的選擇不敏感,魯棒性強(qiáng),工程落地時(shí)無(wú)需精細(xì)調(diào)參。

      不過(guò)目前HISA還有小瑕疵,作者也提出了后續(xù)改進(jìn)思路:

      第一,現(xiàn)在塊是固定大小的,若一個(gè)塊里混了無(wú)關(guān)和相關(guān)內(nèi)容,塊的 “整體標(biāo)簽” 會(huì)不準(zhǔn)。

      未來(lái)可以搞自適應(yīng)塊、重疊塊,或換更好的塊特征計(jì)算方式。

      第二,目前只是推理時(shí)直接用,未來(lái)可以把塊篩選和模型一起訓(xùn)練,讓篩選更精準(zhǔn)。

      第三,現(xiàn)在只測(cè)了索引器的速度,未來(lái)整合到完整的大模型服務(wù)框架里,測(cè)端到端的吞吐量和延遲。

      團(tuán)隊(duì)背景

      這篇論文出自北京大學(xué)的張牧涵團(tuán)隊(duì)。

      張牧涵,北京大學(xué)人工智能研究院的Tanure-track助理教授和博士生導(dǎo)師。

      回國(guó)前曾在Facebook AI(現(xiàn)為 Meta AI)擔(dān)任研究員,從事大規(guī)模圖學(xué)習(xí)系統(tǒng)和問(wèn)題的研究。



      其Google Scholar總引用量超過(guò)13000次,其中兩篇一作文章引用量分別達(dá)到3100+和2400+次,連續(xù)多年入選Elsevier全球前2%頂尖科學(xué)家(生涯影響力榜單)

      Yufei Xu(徐宇飛)和Fanxu Meng(孟繁續(xù))為論文的共同一作。


      [1]https://arxiv.org/abs/2603.28458

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      明早或發(fā)生史上最猛轟炸:川普稱不妥協(xié)將4小時(shí)摧毀伊朗,跟中午·

      明早或發(fā)生史上最猛轟炸:川普稱不妥協(xié)將4小時(shí)摧毀伊朗,跟中午·

      邵旭峰域
      2026-04-07 15:15:50
      張雪公布自己設(shè)計(jì)的跨界踏板車設(shè)計(jì)圖,最新回應(yīng):正在制作踏板摩托,這款踏板偏運(yùn)動(dòng)越野風(fēng)格,售價(jià)可能比傳統(tǒng)的貴一點(diǎn)

      張雪公布自己設(shè)計(jì)的跨界踏板車設(shè)計(jì)圖,最新回應(yīng):正在制作踏板摩托,這款踏板偏運(yùn)動(dòng)越野風(fēng)格,售價(jià)可能比傳統(tǒng)的貴一點(diǎn)

      魯中晨報(bào)
      2026-04-07 17:13:05
      遲重瑞妻子陳麗華去世,溫馨全家福曝光,4個(gè)兒女都很優(yōu)秀

      遲重瑞妻子陳麗華去世,溫馨全家福曝光,4個(gè)兒女都很優(yōu)秀

      180視角
      2026-04-07 14:19:49
      “還真把自己當(dāng)盤菜了”,北京職高女被全網(wǎng)嘲笑,含金量0人買單

      “還真把自己當(dāng)盤菜了”,北京職高女被全網(wǎng)嘲笑,含金量0人買單

      妍妍教育日記
      2026-04-06 09:15:12
      游客稱7人點(diǎn)3盆米飯被收78元,華陰市監(jiān)局介入,飯店:小份米飯3元,大盆米飯約8小碗,用五常大米和礦泉水蒸煮

      游客稱7人點(diǎn)3盆米飯被收78元,華陰市監(jiān)局介入,飯店:小份米飯3元,大盆米飯約8小碗,用五常大米和礦泉水蒸煮

      瀟湘晨報(bào)
      2026-04-07 17:12:51
      1996年,施瓦辛格喝醉了在家休息,看到200斤的傭人在做家務(wù)……

      1996年,施瓦辛格喝醉了在家休息,看到200斤的傭人在做家務(wù)……

      歲月有情1314
      2026-04-07 15:49:39
      岳西失蹤孩子案告破,樓上鄰居落網(wǎng),提前踩點(diǎn)選盲區(qū),親屬參與了

      岳西失蹤孩子案告破,樓上鄰居落網(wǎng),提前踩點(diǎn)選盲區(qū),親屬參與了

      天天熱點(diǎn)見(jiàn)聞
      2026-04-07 12:29:59
      突發(fā)! 沙特遭襲 年產(chǎn)量約6000萬(wàn)噸 石化基地發(fā)生爆炸

      突發(fā)! 沙特遭襲 年產(chǎn)量約6000萬(wàn)噸 石化基地發(fā)生爆炸

      每日經(jīng)濟(jì)新聞
      2026-04-07 10:18:32
      英媒:伊朗消息人士稱伊朗拒絕“臨時(shí)停火”

      新華社
      2026-04-07 20:00:05

      三峽大壩收支出爐:運(yùn)行20余年,總投資近2500億,如今回本了嗎?

      三峽大壩收支出爐:運(yùn)行20余年,總投資近2500億,如今回本了嗎?

      丁丁鯉史紀(jì)
      2026-04-07 10:44:35
      吃了20年才知道,它竟是“天然葉酸”,現(xiàn)在正當(dāng)季,常吃身體棒

      吃了20年才知道,它竟是“天然葉酸”,現(xiàn)在正當(dāng)季,常吃身體棒

      阿龍美食記
      2026-04-07 10:42:05
      11年前優(yōu)衣庫(kù)男女主現(xiàn)狀曝光,他們還在一起生了兩個(gè)孩子

      11年前優(yōu)衣庫(kù)男女主現(xiàn)狀曝光,他們還在一起生了兩個(gè)孩子

      半糖甜而不膩
      2026-04-06 12:09:15
      博弈白熱化,霍爾木茲要變天了

      博弈白熱化,霍爾木茲要變天了

      南風(fēng)窗
      2026-04-07 14:58:27
      美軍“拯救飛行員”,差一點(diǎn)就失敗了

      美軍“拯救飛行員”,差一點(diǎn)就失敗了

      中國(guó)新聞周刊
      2026-04-07 16:42:40
      張雪的媽媽是作家何瓊,畢業(yè)于廈門大學(xué),曾貸款55萬(wàn)支持張雪創(chuàng)業(yè)

      張雪的媽媽是作家何瓊,畢業(yè)于廈門大學(xué),曾貸款55萬(wàn)支持張雪創(chuàng)業(yè)

      漢史趣聞
      2026-04-07 08:45:15
      因中國(guó)工人待遇問(wèn)題,巴西將比亞迪列入“恥辱名單”

      因中國(guó)工人待遇問(wèn)題,巴西將比亞迪列入“恥辱名單”

      互聯(lián)網(wǎng)大觀
      2026-04-07 15:43:15
      英媒宣稱“伊朗最高領(lǐng)袖病重昏迷”

      英媒宣稱“伊朗最高領(lǐng)袖病重昏迷”

      觀察者網(wǎng)
      2026-04-07 18:00:14
      美軍新型PrSM導(dǎo)彈首次實(shí)戰(zhàn)?2月28日擊中伊朗體育館致21名青少年遇難

      美軍新型PrSM導(dǎo)彈首次實(shí)戰(zhàn)?2月28日擊中伊朗體育館致21名青少年遇難

      網(wǎng)易新聞出品
      2026-04-07 16:36:53
      鄭麗文已到達(dá)南京,國(guó)民黨一人口出狂言,不裝了,賴清德正式發(fā)聲

      鄭麗文已到達(dá)南京,國(guó)民黨一人口出狂言,不裝了,賴清德正式發(fā)聲

      DS北風(fēng)
      2026-04-07 18:38:24
      多地黨委主要領(lǐng)導(dǎo)調(diào)整!全國(guó)最大邊境城市,迎來(lái)新任市委書記

      多地黨委主要領(lǐng)導(dǎo)調(diào)整!全國(guó)最大邊境城市,迎來(lái)新任市委書記

      上觀新聞
      2026-04-07 15:50:07
      2026-04-07 20:35:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動(dòng)態(tài)
      12434文章數(shù) 176445關(guān)注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      英媒:伊朗最高領(lǐng)袖病重昏迷 無(wú)法參與任何國(guó)家決策

      頭條要聞

      英媒:伊朗最高領(lǐng)袖病重昏迷 無(wú)法參與任何國(guó)家決策

      體育要聞

      官宣簽約“AI球員”,這支球隊(duì)被罵慘了...

      娛樂(lè)要聞

      女首富陳麗華離世 被曝生前已分好遺產(chǎn)

      財(cái)經(jīng)要聞

      10萬(wàn)億財(cái)政轉(zhuǎn)移支付,被誰(shuí)拿走了?

      汽車要聞

      不止是大 極狐首款MPV問(wèn)道V9靜態(tài)體驗(yàn)

      態(tài)度原創(chuàng)

      房產(chǎn)
      旅游
      游戲
      公開(kāi)課
      軍事航空

      房產(chǎn)要聞

      猛料!又有世界500強(qiáng)級(jí)巨頭,低調(diào)買入海棠灣!

      旅游要聞

      春日登高正當(dāng)時(shí) 濟(jì)南天橋這些登山好去處別錯(cuò)過(guò)

      大話西游手游通用套裝哪個(gè)好用?仙族首選容止,變身卡不再被克

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美軍營(yíng)救飛行員出動(dòng)155架飛機(jī)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版