<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      70萬獎(jiǎng)金,邀你寫算法:代碼將合入 SGLang 主線

      0
      分享至

      前兩天,面壁智能發(fā)了 MiniCPM-SALA,一個(gè) 9B 參數(shù)的模型,用的是全新的「稀疏+線性」混合注意力架構(gòu)。同一天,他們聯(lián)合 SGLang 和 NVIDIA 發(fā)起了一場比賽:SOAR 2026 稀疏算子加速大獎(jiǎng)賽

      總獎(jiǎng)金超過 70 萬人民幣,單支隊(duì)伍最高可得62萬
      先說比賽,再聊技術(shù)


      這場比賽在比什么

      一句話:在消費(fèi)級 GPU 上,把 MiniCPM-SALA 的推理速度榨到極限

      參賽者拿到的是面壁提供的 MiniCPM-SALA 模型(可以用官方量化版本),在 NVIDIA RTX PRO GPU 上做推理優(yōu)化。算子融合、Kernel 優(yōu)化、KV 讀寫優(yōu)化、Prefill/Decode 路徑優(yōu)化、圖編譯,都可以搞。評測指標(biāo)就一個(gè):跑完所有請求的總墻鐘時(shí)間,越短越好

      硬件方面,需采用 NVIDIA 高端 RTX GPU,與 SALA「端側(cè)跑百萬上下文」的定位是對齊的

      2月25日比賽測速平臺(tái)即將開放,下面這個(gè)是賽程安排,每周都會(huì)評選出周冠軍并發(fā)獎(jiǎng)(3月4日將產(chǎn)生第一個(gè)周冠軍)


      SOAR 2026 賽程時(shí)間線: https://soar.openbmb.cn/competition 獎(jiǎng)金結(jié)構(gòu)

      總決賽冠軍21萬,亞軍7萬,季軍3.5


      同時(shí),半決賽冠軍7萬。每周還有周冠軍拿7000塊(一共 9 個(gè)周冠軍,3月4日將產(chǎn)生第一個(gè)周冠軍)


      但最值得看的是「特別懸賞獎(jiǎng)」:28 萬


      特別懸賞獎(jiǎng)比冠軍獎(jiǎng)金還高

      拿這個(gè)獎(jiǎng)的條件是:總榜第一 + 推理性能超越官方設(shè)定的「極速挑戰(zhàn)線」 + 代碼合入 SGLang 主線倉庫。如果冠軍同時(shí)滿足條件,單支隊(duì)伍最高可以拿走 62 萬+

      獲獎(jiǎng)還有一個(gè)前提:周冠軍、半決賽冠軍、總決賽冠軍都需要提交技術(shù)博客,冠軍代碼要審核通過并合入 SGLang 主倉。所有參賽代碼按 Apache 2.0 開源

      也就是說,比賽產(chǎn)出的每一份優(yōu)化最終都會(huì)進(jìn)入 SGLang 開源倉庫,所有人都能用

      怎么參加

      3 人以內(nèi)組隊(duì),免費(fèi)報(bào)名,5 月 27 日前都能報(bào)。2 月 25 日正式開始提交,3 月 4 日榜單開啟。每個(gè)團(tuán)隊(duì)每天最多提交 3 次

      比賽周期從 2 月 11 日到 5 月 29 日,中間 4 月 9 日到 15 日有休賽期。半決賽節(jié)點(diǎn)是 4 月 8 日,總決賽 5 月 29 日

      官方不提供 GPU 算力,選手自行準(zhǔn)備或租用 RTX PRO(或等效)資源。有困難的可以聯(lián)系大賽合作伙伴 FCloud

      溝通渠道是 GitHub Issues(技術(shù)問題)、contact@openbmb.cn(賽務(wù))、飛書和 Discord 社區(qū)。每月有一次線上 AMA,SGLang 核心開發(fā)者和 NVIDIA 技術(shù)專家參與


      技術(shù)背景:SALA 到底解決什么問題

      作為背景,Transformer 處理長文本有兩堵墻

      第一堵是計(jì)算墻。標(biāo)準(zhǔn)注意力的計(jì)算量隨序列長度平方級增長,百萬 token 的 prefill 階段延遲會(huì)爆炸

      第二堵是顯存墻。自回歸生成時(shí)要存所有歷史 token 的 KV Cache,一個(gè) 8B 模型處理百萬 token,KV Cache 就能占幾十到上百 GB 顯存

      目前兩條主流路線,各解決了一半問題

      稀疏注意力(DeepSeek 的 NSA、面壁自己的 InfLLM-V2 都屬于這條線):每個(gè) token 只看一部分關(guān)鍵的 KV,計(jì)算量下來了。但 KV Cache 還是全量存著,顯存問題沒動(dòng)

      線性注意力(MiniMax 的 Lightning Attention、月暗面的 KDA 屬于這條線):把復(fù)雜度從 O(N2) 降到 O(N),KV Cache 也壓縮了。但這是有損壓縮,長距離信息的召回精度會(huì)掉

      SALA 的做法是把兩條線混在一起用
      75% 的層用 Lightning Attention(線性),25% 的層用 InfLLM-V2(稀疏)


      MiniCPM-SALA 模型架構(gòu) 兩篇論文支撐這個(gè)架構(gòu)

      SALA 背后是清華 NLP 組和 OpenBMB 的兩篇論文,分別解決稀疏和線性兩個(gè)模塊的問題

      InfLLM-V2:稀疏注意力怎么做

      先說行業(yè)里已有的方案。DeepSeek 的 NSA 引入了 3 套 KV 投影參數(shù)、3 個(gè)注意力模塊(壓縮注意力、選擇注意力、滑窗注意力)、外加一個(gè)門控 MLP 來融合三路輸出。能用,但問題也明顯:參數(shù)多、計(jì)算重、跟標(biāo)準(zhǔn)的「短文本預(yù)訓(xùn)練 → 長文本微調(diào)」流程不兼容

      InfLLM-V2 的思路是零額外參數(shù)。直接復(fù)用 dense attention 的 KV 投影權(quán)重,把選擇注意力和滑窗注意力合并成一個(gè)統(tǒng)一的稀疏模塊,去掉壓縮注意力的輸出(只保留它的 score 用來做塊選擇)

      實(shí)際效果:訓(xùn)練時(shí)從 dense 切到 sparse 幾乎沒有 loss 跳變(NSA 切換時(shí) loss 會(huì)飆),短文本直接用 dense 模式不掉速,長文本切 sparse 模式在 A100 上最高比 FlashAttention 快 7.4 倍,4090 上最高 9.3 倍

      這些加速數(shù)據(jù)是在 kernel 層面的對比。在端到端推理上,128K 序列長度下 prefill 加速 2.13 倍,decode 加速 2.32 倍(4090,W4A16 量化)

      對參賽選手來說,這里面的塊選擇機(jī)制(Block Selection)和 LSE Approximation 是關(guān)鍵優(yōu)化點(diǎn)。論文里也寫了,max-pooling 和 top-k 操作還沒有 fuse 進(jìn) kernel,留給了「future work」

      HypeNet + HALO:線性注意力怎么接進(jìn)來

      從頭訓(xùn)練一個(gè)混合架構(gòu)模型成本很高。HALO 是一個(gè)蒸餾流程,把已經(jīng)訓(xùn)練好的 Transformer 模型轉(zhuǎn)換成 RNN-Attention 混合模型

      之前的轉(zhuǎn)換方法(Mamba-in-the-Llama、SMART、RAD、Jet-Nemotron)需要 7B 到 400B tokens 的訓(xùn)練數(shù)據(jù)

      HALO 只要 2.3B tokens,不到預(yù)訓(xùn)練數(shù)據(jù)的 0.01%

      流程分三步:先做隱狀態(tài)對齊(讓 RNN 層的輸出逼近對應(yīng)的 attention 層),然后做注意力層選擇(決定哪些層保留為 attention、哪些轉(zhuǎn)成 RNN),最后做知識(shí)蒸餾和微調(diào)

      注意力層選擇的策略也值得一看。HALO 的判斷標(biāo)準(zhǔn)是:替換某一層后,召回能力(NIAH 類任務(wù))掉得多、通用能力(常識(shí)推理)掉得少的層,優(yōu)先保留為 attention 層。最終 25% 的層保持 attention,75% 轉(zhuǎn)成 RNN

      RNN mixer 用的是 Lightning Attention。論文里比了 GLA、Mamba2、GDN、RWKV-7 等幾種選擇,Lightning Attention 的長度泛化能力最好。一個(gè)可能的原因是它用的是數(shù)據(jù)無關(guān)的遺忘門(data-independent forget gate),反而比數(shù)據(jù)依賴的遺忘門泛化更穩(wěn)

      HyPE 位置編碼:一個(gè)巧妙的細(xì)節(jié)

      HyPE 的做法是:RNN 層用 RoPE,Attention 層用 NoPE(不加位置編碼)

      直覺上會(huì)覺得 attention 不加位置編碼信息會(huì)丟失。但邏輯是這樣的:RNN 層天然有位置感知(通過狀態(tài)轉(zhuǎn)移),但感受野有限,主要處理局部依賴。Attention 層負(fù)責(zé)長距離依賴。去掉 attention 層的 RoPE 之后,歷史 KV Cache 不再綁定位置信息,避免了 RoPE 在超長序列上的數(shù)值衰減問題

      再加一個(gè)位置相關(guān)的 attention logits scaling(推理時(shí)根據(jù)位置動(dòng)態(tài)調(diào)整注意力分?jǐn)?shù)),長度泛化能力就上來了。不用 YaRN 之類的額外技術(shù),MiniCPM-SALA 可以外推到 2048K


      長度泛化測試結(jié)果 性能數(shù)據(jù)

      短文本能力(知識(shí)問答、數(shù)學(xué)、代碼)跟 Qwen3-8B 等同尺寸 full attention 模型持平

      長文本是優(yōu)勢所在。256K 序列長度下,NVIDIA A6000D 上 MiniCPM-SALA 的 TTFT(首 token 生成時(shí)間)從 Qwen3-8B 的 180.8 秒降到 51.6 秒,3.5 倍加速

      Qwen3-8B 在 512K 和 1M 長度下 OOM。MiniCPM-SALA 在 A6000D(96GB)和 RTX 5090(32GB)上都能跑通百萬 token


      A6000D 上的推理延遲對比RTX 5090 上的推理延遲對比 訓(xùn)練成本

      MiniCPM-SALA 的訓(xùn)練路徑是先用 HALO 做架構(gòu)轉(zhuǎn)換(1.3B tokens,序列長度 512),然后在 MiniCPM-4.0 的預(yù)訓(xùn)練數(shù)據(jù)上做持續(xù)訓(xùn)練(314.6B tokens,4K 長度),接 Short-Decay(1T tokens,4K),再 Long-Decay(逐步擴(kuò)到 520K),最后 SFT


      面壁在技術(shù)報(bào)告里提到,這個(gè)路徑的總訓(xùn)練量是從零訓(xùn)練同水平模型的 25%

      幾個(gè)提示

      從論文和賽制里能看到幾個(gè)明確的優(yōu)化方向:

      InfLLM-V2 論文里寫了,塊選擇階段的 max-pooling 和 top-k 操作還沒做 kernel fusion,留在了 future work。這是一個(gè)確定的優(yōu)化入口

      稀疏注意力只加速了 attention 層,F(xiàn)FN 層沒動(dòng)。論文原話:「a higher speedup ratio can be achieved by incorporating FFN-specific acceleration techniques」

      比賽評測關(guān)了 prefix cache,所以 prefill 路徑的優(yōu)化權(quán)重很大(單請求場景占 40% 權(quán)重),這個(gè)場景下稀疏注意力的塊選擇效率直接影響總延遲

      允許用官方提供的量化模型,量化策略本身也是優(yōu)化維度

      比賽從 2 月 25 日開始提交,5 月 27 日前都能報(bào)名,免費(fèi)參賽,歡迎來玩


      以及,有興趣的可以先看看 InfLLM-V2 論文里那幾個(gè)留給 future work 的優(yōu)化點(diǎn),塊選擇的 kernel fusion 和 FFN 層加速,都是實(shí)打?qū)嵉男阅芸臻g。寫出來的代碼最終會(huì)合進(jìn) SGLang 主線,這活兒值得干

      比賽官網(wǎng)
      https://soar.openbmb.cn/competition

      HuggingFace:
      https://huggingface.co/openbmb/MiniCPM-SALA

      技術(shù)報(bào)告:
      https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

      InfLLM-V2 論文:
      https://arxiv.org/pdf/2509.24663

      HypeNet / HALO 論文:
      https://arxiv.org/pdf/2601.22156

      SOAR 2026 比賽報(bào)名:
      contact@openbmb.cn

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      汪東興活到了2015年,他對當(dāng)下中國有何看法?他心里確實(shí)有些成見

      汪東興活到了2015年,他對當(dāng)下中國有何看法?他心里確實(shí)有些成見

      明月清風(fēng)閣
      2026-02-19 07:25:09
      中國禁止手機(jī)搭載WiFi的禁令,為何無疾而終了?

      中國禁止手機(jī)搭載WiFi的禁令,為何無疾而終了?

      真的好愛你
      2026-02-25 00:53:59
      江蘇一市,將迎第一所985大學(xué)

      江蘇一市,將迎第一所985大學(xué)

      中吳網(wǎng)
      2026-02-26 09:16:10
      未到站要求下車遭拒,男子搶奪公交車方向盤并持續(xù)毆打司機(jī)1分鐘!警方介入調(diào)查,受傷司機(jī)將被申報(bào)“委屈獎(jiǎng)”

      未到站要求下車遭拒,男子搶奪公交車方向盤并持續(xù)毆打司機(jī)1分鐘!警方介入調(diào)查,受傷司機(jī)將被申報(bào)“委屈獎(jiǎng)”

      揚(yáng)子晚報(bào)
      2026-02-26 12:30:45
      侄女考上985姑姑給了10萬8,可升學(xué)宴唯獨(dú)沒請姑姑,4年后侄女畢業(yè)來敲門,姑姑冷笑問:現(xiàn)在想起我了?

      侄女考上985姑姑給了10萬8,可升學(xué)宴唯獨(dú)沒請姑姑,4年后侄女畢業(yè)來敲門,姑姑冷笑問:現(xiàn)在想起我了?

      LULU生活家
      2026-02-25 18:43:16
      迷失無人區(qū):女子帶藏獒無人區(qū)失聯(lián)兩周,警方找到車,車內(nèi)只剩藏獒

      迷失無人區(qū):女子帶藏獒無人區(qū)失聯(lián)兩周,警方找到車,車內(nèi)只剩藏獒

      罪案洞察者
      2025-11-10 13:57:07
      贅婿船上不行被白富美拋棄!妲己男友得病了!

      贅婿船上不行被白富美拋棄!妲己男友得病了!

      八卦瘋叔
      2026-02-26 11:39:31
      開國上將找縣長辦事,卻被縣長給銬起來,當(dāng)眾狂言:這里我說了算

      開國上將找縣長辦事,卻被縣長給銬起來,當(dāng)眾狂言:這里我說了算

      芊芊子吟
      2026-02-25 21:30:05
      79年軍委會(huì)議一上將不接受批評,徐向前怒:你要認(rèn)識(shí)你錯(cuò)誤的嚴(yán)重

      79年軍委會(huì)議一上將不接受批評,徐向前怒:你要認(rèn)識(shí)你錯(cuò)誤的嚴(yán)重

      歷史甄有趣
      2026-01-31 13:00:11
      劍指中國,高市擺鴻門宴,21國赴會(huì)!令人痛心的是,東盟7國參加

      劍指中國,高市擺鴻門宴,21國赴會(huì)!令人痛心的是,東盟7國參加

      史智文道
      2026-02-25 22:10:13
      外國網(wǎng)民破防,美國制裁宇樹機(jī)器人,美媒一句話讓特朗普下不來臺(tái)

      外國網(wǎng)民破防,美國制裁宇樹機(jī)器人,美媒一句話讓特朗普下不來臺(tái)

      墨蘭史書
      2026-02-25 23:06:50
      亞洲第一帥又胖了!香港頂流姜濤過完年演出,腿粗肚子大跳舞笨拙

      亞洲第一帥又胖了!香港頂流姜濤過完年演出,腿粗肚子大跳舞笨拙

      冷紫葉
      2026-02-25 18:19:24
      歷史上唯一沒污點(diǎn)的皇帝柴榮,千年來無一惡評,史學(xué)家們稱贊不已

      歷史上唯一沒污點(diǎn)的皇帝柴榮,千年來無一惡評,史學(xué)家們稱贊不已

      別人都叫我阿腈
      2026-02-26 07:04:46
      我剛上任市長,去政務(wù)大廳辦事,工作人員甩出表格:沒看見我在追劇?

      我剛上任市長,去政務(wù)大廳辦事,工作人員甩出表格:沒看見我在追劇?

      張道陵秘話
      2025-11-29 22:49:36
      印陸軍前參謀長終于承認(rèn):印軍白死了!加勒萬那夜,輸?shù)牟皇悄懥?>
    </a>
        <h3>
      <a href=梁濆愛玩車
      2026-02-26 00:45:15
      美國知名演員羅伯特·德尼羅指責(zé)特朗普正“摧毀我們的國家”,特朗普憤怒回應(yīng)

      美國知名演員羅伯特·德尼羅指責(zé)特朗普正“摧毀我們的國家”,特朗普憤怒回應(yīng)

      環(huán)球網(wǎng)資訊
      2026-02-26 09:23:14
      澳大利亞驚現(xiàn)封閉亂倫家族:4代人近親繁衍38名成員全是亂倫產(chǎn)物

      澳大利亞驚現(xiàn)封閉亂倫家族:4代人近親繁衍38名成員全是亂倫產(chǎn)物

      第7情感
      2026-02-23 20:45:16
      沉默整整9天,毛寧一錘定音,中美戰(zhàn)機(jī)已交手,美方要見中國代表

      沉默整整9天,毛寧一錘定音,中美戰(zhàn)機(jī)已交手,美方要見中國代表

      影孖看世界
      2026-02-25 23:01:51
      “女排之父”袁偉民,造就了一番輝煌后,晚年生活卻過成如此

      “女排之父”袁偉民,造就了一番輝煌后,晚年生活卻過成如此

      小兔子的快樂
      2026-02-18 20:26:11
      圍爐煮茶,為啥涼了?

      圍爐煮茶,為啥涼了?

      放牛娃的遐想
      2026-02-25 08:14:29
      2026-02-26 13:24:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      302文章數(shù) 44關(guān)注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達(dá)再次炸裂

      頭條要聞

      特朗普自詡開啟美國"黃金時(shí)代" 遭美媒集體"打臉"

      頭條要聞

      特朗普自詡開啟美國"黃金時(shí)代" 遭美媒集體"打臉"

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      尼格買提撒貝寧滑雪被偶遇 17年老友情

      財(cái)經(jīng)要聞

      短劇市場風(fēng)云突變!有人投百萬賠得精光

      汽車要聞

      第五代宏光MINIEV煥新 四門玩趣代步車來襲

      態(tài)度原創(chuàng)

      親子
      藝術(shù)
      手機(jī)
      房產(chǎn)
      旅游

      親子要聞

      產(chǎn)后第一周:身體發(fā)出的5個(gè)“正常信號”,新手媽媽請收藏!

      藝術(shù)要聞

      2025年百家金陵畫展 | 油畫作品選刊

      手機(jī)要聞

      三星Galaxy S26 Ultra手機(jī)支持2400萬像素直出

      房產(chǎn)要聞

      2.2萬/m2起!三亞主城性價(jià)比標(biāo)桿 海墾·桃花源實(shí)景現(xiàn)房春節(jié)被瘋搶

      旅游要聞

      一整年都有新驚喜!上海迪士尼十周年慶典即將啟幕,三大娛樂演出煥新升級

      無障礙瀏覽 進(jìn)入關(guān)懷版