<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      剛剛!Kimi Linear橫空出世,全新注意力架構(gòu):1M長文本解碼速度飆升6.3倍,KV緩存砍掉75%

      0
      分享至


      月之暗面剛剛推出了一個(gè)非常牛的全新的注意力架構(gòu)Kimi Linear,有望成為下一代Agent LLM的基石技術(shù)。月之暗面已經(jīng)放出了技術(shù)報(bào)告《KIMI LINEAR:一種高表達(dá)力且高效的注意力結(jié)構(gòu)》并開源了核心代碼,注意不是水論文,而是已經(jīng)在內(nèi)部得到嚴(yán)格驗(yàn)證

      技術(shù)報(bào)告:

      https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf


      簡(jiǎn)單來說月之暗面推出了名為 Kimi Linear 的新型混合線性注意力架構(gòu),核心目標(biāo)是解決當(dāng)前LLMs在處理長序列任務(wù)時(shí)面臨的計(jì)算效率和性能瓶頸。研究團(tuán)隊(duì)首次證明,在包括短上下文、長上下文和強(qiáng)化學(xué)習(xí)等多種場(chǎng)景的公平比較下,Kimi Linear 的性能全面超越了傳統(tǒng)的full attention機(jī)制

      Kimi Linear架構(gòu)的核心是 Kimi Delta Attention (KDA),一種表達(dá)能力更強(qiáng)的線性注意力模塊,通過更精細(xì)的門控機(jī)制實(shí)現(xiàn)了對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)有限狀態(tài)記憶的有效利用。最終,Kimi Linear 模型不僅在各項(xiàng)任務(wù)上取得了更優(yōu)異的性能,還在效率上實(shí)現(xiàn)了巨大突破:與full attention模型相比,能將 Key-Value (KV) 緩存的使用量減少高達(dá) 75%,并在處理百萬級(jí)別的長下文時(shí),實(shí)現(xiàn)高達(dá) 6 倍的解碼吞吐量提升。這表明 Kimi Linear 可以作為全注意力架構(gòu)的“即插即用”替代品,在提升性能的同時(shí)顯著增強(qiáng)了效率

      按照kimi官方推文的的說法,這代表:

      以代理為導(dǎo)向的注意力機(jī)制的未來已經(jīng)到來!The future of agentic-oriented attention is here!

      以下是報(bào)告詳細(xì)解讀:

      先看看當(dāng)前的困境

      隨著LLMs朝著更強(qiáng)大的智能體方向發(fā)展,它們?cè)谕评磉^程中的計(jì)算需求,尤其是在長程推理和強(qiáng)化學(xué)習(xí)場(chǎng)景下,正成為一個(gè)核心瓶頸。在這些場(chǎng)景中,模型需要處理冗長的交互歷史、工具使用記錄以及復(fù)雜的決策空間,這對(duì)底層架構(gòu)的效率提出了嚴(yán)峻挑戰(zhàn)

      傳統(tǒng)的 Transformer 模型依賴于標(biāo)準(zhǔn)的 softmax 注意力機(jī)制,這一機(jī)制雖然效果強(qiáng)大,但存在兩個(gè)根本性的效率問題:

      二次方時(shí)間復(fù)雜度:注意力分?jǐn)?shù)的計(jì)算與序列長度的平方成正比。這意味著當(dāng)文本長度從 1000 增加到 1,000,000 時(shí),計(jì)算量會(huì)增加一百萬倍,這在計(jì)算上是極其昂貴的

      線性增長的 KV 緩存:在自回歸生成(解碼)過程中,模型需要緩存過去所有 token 的鍵(Key)和值(Value),這個(gè)緩存的大小與序列長度成線性關(guān)系。對(duì)于百萬級(jí)別的長文本,KV 緩存會(huì)消耗掉大量的顯存,限制了模型的吞吐量和并發(fā)處理能力,使得實(shí)時(shí)交互變得困難

      為了解決這些問題,研究人員們將目光投向了線性注意力(Linear Attention)。線性注意力通過數(shù)學(xué)變換,避免了直接計(jì)算龐大的注意力矩陣,從而將計(jì)算復(fù)雜度從二次方降低到線性。然而,這種效率的提升往往伴隨著模型表達(dá)能力的犧牲,導(dǎo)致其在語言建模任務(wù)上的性能長期落后于 softmax 注意力,即便是在短序列上也是如此

      近年來,線性注意力的研究取得了顯著進(jìn)展,主要源于兩個(gè)關(guān)鍵創(chuàng)新:

      門控或衰減機(jī)制 (gating or decay mechanisms):類似于 RNN 中的門控單元,該機(jī)制允許模型動(dòng)態(tài)地決定保留或遺忘歷史信息,增強(qiáng)了對(duì)上下文的控制能力

      增量法則 (delta rule):這一概念源于在線學(xué)習(xí),它將注意力狀態(tài)的更新過程重新解釋為一個(gè)在重構(gòu)損失上的在線梯度下降。這使得模型能夠?qū)⒆⒁饬顟B(tài)(即一個(gè)可學(xué)習(xí)的關(guān)聯(lián)記憶)持續(xù)地向新的鍵值對(duì)映射進(jìn)行修正,從而穩(wěn)定了學(xué)習(xí)過程并提升了性能。

      這些進(jìn)步使得線性注意力的性能越來越接近 softmax 注意力。但純粹的線性結(jié)構(gòu)由于其有限的狀態(tài)容量,在需要精確檢索長序列中特定信息的任務(wù)上仍然面臨理論上的挑戰(zhàn)。因此,混合架構(gòu)(Hybrid architectures)應(yīng)運(yùn)而生,它將少量的全局注意力層(通常是標(biāo)準(zhǔn)的 softmax 注意力)與大量的線性注意力層結(jié)合起來,試圖在模型質(zhì)量和計(jì)算效率之間找到一個(gè)實(shí)用的平衡點(diǎn)。盡管如此,之前的混合模型往往規(guī)模有限,或者缺乏在多樣化基準(zhǔn)上的全面評(píng)估

      真正的挑戰(zhàn)依然存在:如何設(shè)計(jì)一個(gè)既能匹配甚至超越全注意力模型性能,又能同時(shí)在速度和內(nèi)存上實(shí)現(xiàn)顯著效率提升的注意力架構(gòu)?這正是 Kimi Linear 誕生的背景,它旨在成為下一代高強(qiáng)度解碼、智能體式 LLM 的基石

      Kimi Linear 的架構(gòu)設(shè)計(jì):一種精巧的混合模式

      Kimi Linear 的核心是一種精心設(shè)計(jì)的混合架構(gòu),它巧妙地結(jié)合了兩種不同類型的注意力層,以實(shí)現(xiàn)性能和效率的最佳平衡。該架構(gòu)的主干遵循了之前的 Moonlight 模型的設(shè)計(jì),并在其中融入了創(chuàng)新的注意力機(jī)制和混合策略


      3:1 的混合層級(jí)結(jié)構(gòu)

      Kimi Linear 并沒有完全拋棄強(qiáng)大的全注意力機(jī)制,而是采用了一種層級(jí)交錯(cuò)的混合方式。具體來說,模型中的注意力層以一個(gè)固定的3:1比例進(jìn)行重復(fù)堆疊,即每三個(gè) Kimi Delta Attention (KDA) 線性注意力層之后,會(huì)插入一個(gè)全注意力層,即多頭潛在注意力(Multi-Head Latent Attention, MLA)

      KDA 層:作為模型的主體,負(fù)責(zé)處理大部分的 token 間交互。它們是線性的,這意味著它們的計(jì)算和內(nèi)存開銷不隨序列長度二次方增長,保證了模型在處理長文本時(shí)的高效率

      MLA 層:作為周期性的全局信息樞紐。這些層能夠捕捉序列中任意兩個(gè) token 之間的依賴關(guān)系,彌補(bǔ)了線性注意力在長距離、精細(xì)化信息檢索上的不足。

      月之暗面團(tuán)隊(duì)通過消融實(shí)驗(yàn)驗(yàn)證了 3:1 是一個(gè)最佳比例。例如,提高 KDA 的比例(如 7:1)雖然在訓(xùn)練損失上表現(xiàn)相近,但在驗(yàn)證集上的泛化能力會(huì)顯著下降;而降低比例(如 1:1)雖然能保持較好的泛化能力,但會(huì)犧牲推理效率。純粹的全注意力基線(0:1)表現(xiàn)甚至更差。因此,3:1 的配置在模型性能和計(jì)算效率之間取得了最有效的平衡。這種設(shè)計(jì)使得 Kimi Linear 能夠在長序列生成過程中,將內(nèi)存和 KV 緩存使用量減少高達(dá) 75%

      為全注意力層設(shè)計(jì)的無位置編碼 (NoPE)

      一個(gè)非常引人注目的設(shè)計(jì)是,Kimi Linear 中的所有全注意力層(MLA)都不使用任何顯式的位置編碼(No Position Encoding, NoPE),例如主流的 RoPE (Rotary Position Embedding)。這一決策背后有著深刻的考量:

      1.模型將編碼位置信息和時(shí)序偏見(recency bias,即更關(guān)注最近的信息)的全部責(zé)任都交給了 KDA 層。KDA 本身的設(shè)計(jì)使其成為一個(gè)強(qiáng)大的位置感知算子,其作用類似于甚至強(qiáng)于短卷積或滑動(dòng)窗口注意力(SWA)等輔助組件

      2.這種設(shè)計(jì)使得全局注意力層(MLA)可以專注于純粹的內(nèi)容關(guān)聯(lián),而 KDA 層則負(fù)責(zé)處理與位置相關(guān)的動(dòng)態(tài)信息

      3.實(shí)驗(yàn)結(jié)果表明,這種策略在長文本任務(wù)上表現(xiàn)尤為出色。相比于在全局注意力層中使用 RoPE 的版本,NoPE 設(shè)計(jì)讓模型在長距離的魯棒性和外推能力更強(qiáng),因?yàn)樗苊饬?RoPE 中固定頻率可能導(dǎo)致的對(duì)訓(xùn)練文本長度的過擬合

      與專家混合(MoE)的結(jié)合

      Kimi Linear 架構(gòu)還結(jié)合了專家混合(Mixture-of-Experts, MoE)技術(shù),以在不顯著增加計(jì)算成本的情況下擴(kuò)展模型參數(shù)規(guī)模。在實(shí)驗(yàn)中,模型總參數(shù)量為 480 億,但每個(gè)前向傳播僅激活 30 億參數(shù)(激活 256 個(gè)專家中的 8 個(gè))。這種稀疏激活的模式進(jìn)一步提升了模型的訓(xùn)練和推理效率

      總而言之,Kimi Linear 的架構(gòu)通過 3:1 的 KDA 與 MLA 混合比例、為 MLA 層設(shè)計(jì)的 NoPE 策略以及與 MoE 技術(shù)的結(jié)合,構(gòu)建了一個(gè)在表達(dá)能力、計(jì)算效率和長文本處理能力上都極為出色的模型

      核心創(chuàng)新:深入解析 Kimi Delta Attention (KDA)

      Kimi Linear 架構(gòu)的強(qiáng)大能力根植于其核心創(chuàng)新——Kimi Delta Attention (KDA)。KDA 是一種新型的門控線性注意力變體,它在 Gated DeltaNet (GDN) 的基礎(chǔ)上進(jìn)行了關(guān)鍵的改進(jìn),從而實(shí)現(xiàn)了更精細(xì)的內(nèi)存控制和更高的硬件效率。要理解 KDA,我們需要從線性注意力的演進(jìn)談起

      從在線學(xué)習(xí)到門控增量法則

      線性注意力作為在線學(xué)習(xí):線性注意力可以被看作一個(gè)持續(xù)更新的矩陣狀態(tài),這個(gè)狀態(tài)累積了鍵值(key-value)的關(guān)聯(lián)信息。這個(gè)過程類似于在線學(xué)習(xí),不斷用新的信息來更新一個(gè)記憶矩陣。但簡(jiǎn)單的累積會(huì)導(dǎo)致狀態(tài)無限增長,舊的、無關(guān)的記憶會(huì)干擾新的信息

      DeltaNet 與重構(gòu)損失:DeltaNet 將這一過程重新定義為對(duì)一個(gè)“重構(gòu)損失”的在線梯度下降。簡(jiǎn)單來說,模型不再是盲目累積信息,而是不斷地將記憶狀態(tài)S朝著能更好地重構(gòu)當(dāng)前值v的方向進(jìn)行修正(即從k映射到v)。這個(gè)修正過程就是經(jīng)典的“增量法則”(delta rule),它通過一個(gè)秩-1 矩陣更新來實(shí)現(xiàn),這種結(jié)構(gòu)非常適合硬件并行計(jì)算

      Gated DeltaNet (GDN) 與遺忘機(jī)制:雖然 DeltaNet 穩(wěn)定了學(xué)習(xí),但它仍然會(huì)永久保留所有關(guān)聯(lián)信息。GDN 在此基礎(chǔ)上引入了一個(gè)簡(jiǎn)單的標(biāo)量“遺忘門”(forget gate)α。每次更新前,整個(gè)記憶狀態(tài)S都會(huì)乘以這個(gè)α。這相當(dāng)于對(duì)記憶施加了一種權(quán)重衰減(weight decay),使得模型可以遺忘過時(shí)的信息,從而提升了長文本建模的穩(wěn)定性和泛化能力

      KDA 的兩大核心改進(jìn)

      KDA 繼承了 GDN 的思想,但進(jìn)行了兩個(gè)關(guān)鍵的、相互關(guān)聯(lián)的改進(jìn),使其表達(dá)能力和硬件效率都得到了質(zhì)的飛躍。

      1.精細(xì)化的對(duì)角門控 (Fine-grained Diagonal Gating)

      標(biāo)準(zhǔn)的 GDN 使用的是一個(gè)標(biāo)量(scalar)遺忘門,這意味著在一個(gè)注意力頭中,所有特征維度都以相同的速率遺忘信息。這種一刀切的方式限制了模型的表達(dá)能力。相比之下,KDA 引入了一個(gè)對(duì)角化的門控矩陣Diag(a_t),它允許每個(gè)特征通道(channel-wise)擁有自己獨(dú)立的遺忘速率

      類比 RoPE:這種精細(xì)化的控制類似于 RoPE (旋轉(zhuǎn)位置編碼) 的工作方式。RoPE 通過為不同維度分配不同的旋轉(zhuǎn)頻率來實(shí)現(xiàn)精細(xì)的位置信息編碼。同樣地,KDA 的通道級(jí)衰減門也賦予了模型在特征維度上進(jìn)行差異化信息處理的能力,從而可以被看作是一種可學(xué)習(xí)的、數(shù)據(jù)依賴的位置編碼機(jī)制

      解鎖 RNN 潛力:這種設(shè)計(jì)使得 KDA 能夠更精確地調(diào)控其有限的 RNN 狀態(tài)記憶,選擇性地保留關(guān)鍵信息,遺忘無關(guān)噪聲,從而在混合架構(gòu)中釋放了 RNN 風(fēng)格模型的潛力

      2.硬件高效的塊處理算法 (Hardware-Efficient Chunkwise Algorithm)

      引入精細(xì)化的門控雖然增強(qiáng)了表達(dá)能力,但也帶來了計(jì)算上的挑戰(zhàn),尤其是在除法運(yùn)算時(shí)容易出現(xiàn)數(shù)值精度問題。為了解決這個(gè)問題并最大化硬件利用率,KDA 采用了一種特制的塊處理(chunkwise)并行算法

      約束化的 DPLR 結(jié)構(gòu):從數(shù)學(xué)上看,KDA 的狀態(tài)轉(zhuǎn)移可以被視為一種特殊的對(duì)角加低秩(Diagonal-Plus-Low-Rank, DPLR)矩陣。通用的 DPLR 結(jié)構(gòu)雖然表達(dá)能力強(qiáng),但計(jì)算成本高且難以并行。KDA 通過巧妙的設(shè)計(jì),將 DPLR 中的兩個(gè)低秩向量ab都與鍵k綁定,從而簡(jiǎn)化了計(jì)算

      減少計(jì)算量:這個(gè)約束極大地優(yōu)化了計(jì)算流程。相比于通用的 DPLR 公式,KDA 的算法將二級(jí)塊矩陣的計(jì)算數(shù)量從四個(gè)減少到兩個(gè),并額外省去了三次矩陣乘法。這使得 KDA 的算子效率比標(biāo)準(zhǔn) DPLR 提升了大約 100%

      利用 Tensor Cores:在輸出階段,KDA 采用了塊間循環(huán)(inter-block recurrent)和塊內(nèi)并行(intra-block parallel)的策略,最大限度地利用現(xiàn)代 GPU 上的 Tensor Cores,實(shí)現(xiàn)了極高的矩陣乘法吞吐量。

      總而言之,KDA 通過引入通道級(jí)的精細(xì)化門控,使其成為一個(gè)強(qiáng)大的位置感知線性注意力模塊;同時(shí),通過其定制的、高度優(yōu)化的塊處理算法,解決了精細(xì)化門控帶來的計(jì)算挑戰(zhàn),實(shí)現(xiàn)了卓越的硬件效率。這兩點(diǎn)共同構(gòu)成了 Kimi Linear 架構(gòu)高性能和高效率的基石

      全方位性能對(duì)決:Kimi Linear 的實(shí)證評(píng)估

      為了證明 Kimi Linear 的優(yōu)越性,研究團(tuán)隊(duì)進(jìn)行了一系列嚴(yán)格且全面的實(shí)驗(yàn),將其與兩個(gè)強(qiáng)大的基線模型進(jìn)行了公平對(duì)比:

      1.MLA (Multi-Head Latent Attention):一個(gè)純粹的全注意力基線模型

      2.GDN-H (Hybrid Gated DeltaNet):一個(gè)采用標(biāo)準(zhǔn) Gated DeltaNet 的混合注意力基線模型

      所有模型都采用相同的架構(gòu)、參數(shù)量(480 億總參數(shù),30 億激活參數(shù))和訓(xùn)練設(shè)置(基于 1.4 萬億 tokens 的語料庫),以確保比較的公平性


      基礎(chǔ)能力測(cè)試:合成任務(wù)

      在進(jìn)入評(píng)估之前,團(tuán)隊(duì)首先在三個(gè)經(jīng)典的合成任務(wù)上測(cè)試了 KDA 的核心能力,這些任務(wù)旨在檢驗(yàn)?zāi)P驮陂L文本場(chǎng)景下的記憶和檢索能力

      Palindrome (回文):要求模型將一個(gè)隨機(jī)序列逆序輸出。這對(duì)線性注意力的固定大小記憶狀態(tài)是一個(gè)巨大挑戰(zhàn)

      Multi Query Associative Recall (MQAR, 多查詢關(guān)聯(lián)回憶):測(cè)試模型從上下文中檢索與多個(gè)查詢相關(guān)聯(lián)的值的能力,該任務(wù)與語言建模性能高度相關(guān)

      Stack (棧操作):模擬標(biāo)準(zhǔn)的后進(jìn)先出(LIFO)棧操作,考驗(yàn)?zāi)P妥粉櫠鄠€(gè)獨(dú)立狀態(tài)的能力。

      實(shí)驗(yàn)結(jié)果顯示,隨著序列長度從 256 增加到 2048,KDA 在所有任務(wù)上都取得了最高的準(zhǔn)確率,并且收斂速度顯著快于 GDN。這證明了 KDA 的精細(xì)化衰減門使其能夠更精確地管理記憶,選擇性地遺忘無關(guān)信息,保留關(guān)鍵內(nèi)容

      短上下文性能:預(yù)訓(xùn)練和指令微調(diào)

      在短上下文(short-context)的標(biāo)準(zhǔn)語言模型基準(zhǔn)測(cè)試中,Kimi Linear 同樣展現(xiàn)了全面的優(yōu)勢(shì)

      預(yù)訓(xùn)練階段 (Pretrain results):在經(jīng)過 1.4T tokens 預(yù)訓(xùn)練后,Kimi Linear 在通用知識(shí)(如 HellaSwag, MMLU, BBH)、數(shù)學(xué)與代碼推理(如 GSM8K, CRUXEval)以及中文任務(wù)(如 CEval, CMMLU)等幾乎所有類別中,都一致性地優(yōu)于 MLA 和 GDN-H。例如,在 MMLU-Pro 基準(zhǔn)上,Kimi Linear 獲得了 51.0 的分?jǐn)?shù),顯著高于 MLA 的 47.2 和 GDN-H 的 47.9

      指令微調(diào)階段 (SFT results):經(jīng)過相同的監(jiān)督微調(diào)(SFT)后,Kimi Linear 的領(lǐng)先優(yōu)勢(shì)得以保持。在通用任務(wù)上,它在 MMLU、BBH 和 GPQA-Diamond 等多個(gè)基準(zhǔn)上都取得了最高分。在更具挑戰(zhàn)性的數(shù)學(xué)與代碼任務(wù)中,它在 AIME 2025、HMMT 2025 和 LiveCodeBench 等高難度基準(zhǔn)上也超越了兩個(gè)基線模型

      長上下文性能:關(guān)鍵優(yōu)勢(shì)領(lǐng)域

      長上下文(long-context)處理是 Kimi Linear 設(shè)計(jì)的核心目標(biāo),實(shí)驗(yàn)結(jié)果也印證了其在該領(lǐng)域的卓越表現(xiàn)。在 128k 上下文長度的多個(gè)基準(zhǔn)測(cè)試中:

      Kimi Linear 取得了54.5的平均分,高于 MLA (52.2) 和 GDN-H (51.2)

      在 RULER基準(zhǔn)上,Kimi Linear 獲得了84.3的高分,領(lǐng)先 MLA (81.3) 和 GDN-H (80.5)

      在RepoQA上下文代碼理解任務(wù)中,它的得分也最高

      一個(gè)有趣的現(xiàn)象是,在長文本評(píng)估中,GDN-H 的性能下降到甚至低于 MLA,而 Kimi Linear 則穩(wěn)居榜首,這進(jìn)一步凸顯了 KDA 相對(duì)于標(biāo)準(zhǔn) GDN 在長程依賴建模上的優(yōu)勢(shì)

      強(qiáng)化學(xué)習(xí)(RL)性能

      在需要模型進(jìn)行多步推理和生成長篇答案的強(qiáng)化學(xué)習(xí)場(chǎng)景中,Kimi Linear 的優(yōu)勢(shì)更加明顯。在數(shù)學(xué)任務(wù)的 RL 訓(xùn)練中,與 MLA 相比:

      Kimi Linear 的訓(xùn)練準(zhǔn)確率增長速度更快,與 MLA 的差距隨著訓(xùn)練的進(jìn)行逐漸拉大

      在測(cè)試集(如 MATH500 和 AIME 2025)上,Kimi Linear 實(shí)現(xiàn)了更快、更好的性能提升。這表明 Kimi Linear 在需要復(fù)雜、長程推理的生成任務(wù)中表現(xiàn)明顯優(yōu)于全注意力模型

      效率對(duì)比:速度與內(nèi)存的雙重勝利

      Kimi Linear 不僅性能更強(qiáng),效率也更高

      解碼速度:在解碼階段,Kimi Linear 的優(yōu)勢(shì)隨著序列長度的增加而急劇擴(kuò)大。在百萬(1M)token 的上下文長度下,其單個(gè) token 的生成時(shí)間(Time per output token, TPOT)僅為1.84ms,而全注意力 MLA 則需要11.48ms。這使得 Kimi Linear 能夠支持更大的批處理大小,最終實(shí)現(xiàn)了比 MLA 快6.3 倍的吞吐量


      預(yù)填充速度:在處理初始長文本的預(yù)填充階段,Kimi Linear 的速度也遠(yuǎn)超 MLA。在 1M 長度下,其速度是 MLA 的 2.9 倍

      內(nèi)存占用:由于其 3:1 的混合設(shè)計(jì),Kimi Linear 的 KV 緩存大小僅為純 MLA 模型的約 25%,極大地節(jié)省了顯存資源

      綜合來看,Kimi Linear 在性能和效率兩個(gè)維度上都實(shí)現(xiàn)了對(duì)全注意力的超越,證明了其作為下一代大語言模型核心架構(gòu)的巨大潛力

      經(jīng)過精心設(shè)計(jì)的線性注意力(如 KDA)與全局注意力的混合架構(gòu),完全有能力在性能上超越純粹的全注意力模型。Kimi Linear 擺脫了以往線性注意力“性能稍遜但效率更高”的給大家的固有印象,首次實(shí)現(xiàn)了一個(gè)在性能和效率上雙贏的解決方案。其核心 KDA 模塊通過精細(xì)化的通道級(jí)門控和硬件感知的設(shè)計(jì),展示了線性注意力在表達(dá)能力上的巨大潛力

      Kimi Linear 提出了一個(gè)有趣且有效的觀點(diǎn):線性注意力層自身可以承擔(dān)起編碼位置信息的全部責(zé)任,從而解放全局注意力層,使其專注于內(nèi)容層面的關(guān)聯(lián)。KDA 被詮釋為一種可學(xué)習(xí)的、數(shù)據(jù)依賴的動(dòng)態(tài)位置編碼機(jī)制,這為解決傳統(tǒng)位置編碼(如 RoPE)在長文本外推上的局限性提供了一條新的路徑。這一設(shè)計(jì)簡(jiǎn)化了模型架構(gòu),并增強(qiáng)了其在超長上下文中的魯棒性

      開源

      為了推動(dòng)社區(qū)的進(jìn)一步研究,Kimi Linear 團(tuán)隊(duì)開源了其核心的 KDA CUDA 核函數(shù)、vLLM 的集成實(shí)現(xiàn),以及預(yù)訓(xùn)練和指令微調(diào)的模型檢查點(diǎn)

      更多細(xì)節(jié):

      https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      卡莉達(dá)·齊亞去世

      卡莉達(dá)·齊亞去世

      新京報(bào)政事兒
      2025-12-30 10:15:03
      輕松一刻:為什么小學(xué)生可以在課間十分鐘痛痛快快的玩?

      輕松一刻:為什么小學(xué)生可以在課間十分鐘痛痛快快的玩?

      萊月昂
      2025-12-04 14:48:07
      廣州一區(qū)注銷5所公辦幼兒園

      廣州一區(qū)注銷5所公辦幼兒園

      新快報(bào)新聞
      2025-12-30 12:15:03
      京東001號(hào)快遞員已退休,勤懇工作16年,劉強(qiáng)東承諾的房給了嗎?

      京東001號(hào)快遞員已退休,勤懇工作16年,劉強(qiáng)東承諾的房給了嗎?

      阿纂看事
      2025-12-10 15:38:14
      67歲王朔現(xiàn)狀:滿頭白發(fā)神似李亞鵬,手上沒錢,靠朋友接濟(jì)過活

      67歲王朔現(xiàn)狀:滿頭白發(fā)神似李亞鵬,手上沒錢,靠朋友接濟(jì)過活

      一盅情懷
      2025-12-29 17:11:04
      為什么成功人士的精力都非常旺盛?網(wǎng)友:幾乎不管任何瑣碎的事情

      為什么成功人士的精力都非常旺盛?網(wǎng)友:幾乎不管任何瑣碎的事情

      另子維愛讀史
      2025-12-29 17:29:04
      42張清末老照片,令人莫名的鼻酸!

      42張清末老照片,令人莫名的鼻酸!

      中國藝術(shù)家
      2025-12-29 05:24:50
      更炸裂的來了,南博的水太深

      更炸裂的來了,南博的水太深

      亮見
      2025-12-22 14:34:33
      統(tǒng)一臺(tái)灣的最大障礙,不是美國和臺(tái)獨(dú),而是“中華民國”這個(gè)稱號(hào)

      統(tǒng)一臺(tái)灣的最大障礙,不是美國和臺(tái)獨(dú),而是“中華民國”這個(gè)稱號(hào)

      掉了顆大白兔糖
      2025-12-06 07:17:04
      影視颶風(fēng)宣布上調(diào)部分存儲(chǔ)卡價(jià)格

      影視颶風(fēng)宣布上調(diào)部分存儲(chǔ)卡價(jià)格

      界面新聞
      2025-12-29 14:05:42
      貝佐斯就吃這一套!桑切斯56歲生日深情告白:沒想過能活成這樣子

      貝佐斯就吃這一套!桑切斯56歲生日深情告白:沒想過能活成這樣子

      毒舌小紅帽
      2025-12-29 18:56:41
      日本知名女星上圍豐滿火辣,被曝下海拍AV,曾全裸出演《花與蛇》

      日本知名女星上圍豐滿火辣,被曝下海拍AV,曾全裸出演《花與蛇》

      翰飛觀事
      2025-12-29 21:19:30
      泰王33歲小妾?dú)W拉弄:當(dāng)眾效仿47歲蘇提達(dá),差點(diǎn)就被當(dāng)成了王后

      泰王33歲小妾?dú)W拉弄:當(dāng)眾效仿47歲蘇提達(dá),差點(diǎn)就被當(dāng)成了王后

      笑傲春秋
      2025-12-30 12:06:42
      成都4S店爆炸后續(xù):段某當(dāng)場(chǎng)死亡,涉事銷售腸子悔青,恐要擔(dān)責(zé)

      成都4S店爆炸后續(xù):段某當(dāng)場(chǎng)死亡,涉事銷售腸子悔青,恐要擔(dān)責(zé)

      科學(xué)發(fā)掘
      2025-12-30 10:57:13
      馬威禁賽!太陽3人20+大勝奇才獲4連勝 布克22分狄龍26分

      馬威禁賽!太陽3人20+大勝奇才獲4連勝 布克22分狄龍26分

      醉臥浮生
      2025-12-30 10:19:53
      她和奧運(yùn)冠軍馬琳離婚分走千萬,再婚嫁給金融學(xué)霸,如今怎樣了?

      她和奧運(yùn)冠軍馬琳離婚分走千萬,再婚嫁給金融學(xué)霸,如今怎樣了?

      優(yōu)趣紀(jì)史記
      2025-12-28 14:47:11
      冬天多久洗一次澡更科學(xué)?其實(shí)可以“懶”一點(diǎn)

      冬天多久洗一次澡更科學(xué)?其實(shí)可以“懶”一點(diǎn)

      中國日?qǐng)?bào)
      2025-12-29 19:57:22
      美軍:在東太平洋實(shí)施打擊,2人死亡!委內(nèi)瑞拉通報(bào):擊落9架飛機(jī)

      美軍:在東太平洋實(shí)施打擊,2人死亡!委內(nèi)瑞拉通報(bào):擊落9架飛機(jī)

      每日經(jīng)濟(jì)新聞
      2025-12-30 09:56:05
      大學(xué)老師開始坐班,是典型的資源錯(cuò)配 | 新京報(bào)快評(píng)

      大學(xué)老師開始坐班,是典型的資源錯(cuò)配 | 新京報(bào)快評(píng)

      新京報(bào)
      2025-12-29 16:30:30
      蕭美琴對(duì)媒體說:“大陸周一開啟的封島演習(xí)

      蕭美琴對(duì)媒體說:“大陸周一開啟的封島演習(xí)

      安安說
      2025-12-29 17:35:21
      2025-12-30 14:24:49
      AI寒武紀(jì) incentive-icons
      AI寒武紀(jì)
      專注于人工智能,科技領(lǐng)域
      1024文章數(shù) 393關(guān)注度
      往期回顧 全部

      科技要聞

      估值150億的智元,開始批量"制造"小獨(dú)角獸

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習(xí)

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習(xí)

      體育要聞

      這個(gè)59歲的胖子,還在表演“蝎子擺尾”

      娛樂要聞

      林俊杰官宣文案爭(zhēng)議!女方名字都不提

      財(cái)經(jīng)要聞

      朱光耀:美關(guān)稅政策正使WTO名存實(shí)亡

      汽車要聞

      標(biāo)配華為乾崑ADS 4 Pro 華境S明年上半年上市

      態(tài)度原創(chuàng)

      房產(chǎn)
      教育
      旅游
      時(shí)尚
      數(shù)碼

      房產(chǎn)要聞

      重磅信號(hào)!2025最后幾天,三亞開發(fā)商開始集體漲價(jià)!

      教育要聞

      13年,12歲,兒子開始一步步布局他的2026

      旅游要聞

      博物館里迎新年,濟(jì)南文博活動(dòng)再“上新”

      “短大衣”今年冬天又火了,這4件怎么搭都好看!

      數(shù)碼要聞

      英特爾PantherLake新品CES 2026搶先看,AI PC生態(tài)邁入智能體時(shí)代

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 人人妻人人妻人人片av| 久久精品国产77777蜜臀| xxx综合网| 露脸叫床粗话东北少妇| 免费看成人aa片无码视频吃奶| 国产在线视频精品视频| 欧美日韩午夜| 资溪县| 久久狠狠高潮亚洲精品| 好紧好湿好黄的视频| 99久久机热/这里只有精品| 欧美v亚洲| 人妻少妇精品| 欧美黑人欧美精品刺激| 亚洲精品久久久久国色天香| 第一福利精品| 九一九色国产| 野花社区在线观看视频| 国产成人精品97| 3p视频在线观看| 亚洲第一页色| 久久婷婷五月综合色99啪| 人妻少妇久久久久久97人妻| 国产黄色影院| 与子敌伦刺激对白播放| 开心五月激情综合婷婷| 黑人精品| 页游| 国产成人精品午夜福利在线观看 | 国产精品一区二区AV| 中文字幕无码A片| 天堂av在线免费观看| 99精品国产高清一区二区麻豆| 精品无码国产不卡在线观看| 人草逼视频频| AV色色色| 久久人妻无码一区二区| 无码欧洲| 久久9199| 激情伊人五月天久久综合| 99国产精品欧美一区二区三区|