<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      萬(wàn)物互聯(lián):測(cè)時(shí)記憶、注意偏好、信息留存與在線優(yōu)化之旅

      0
      分享至

      萬(wàn)物互聯(lián):測(cè)時(shí)記憶、注意偏好、信息留存與在線優(yōu)化之旅

      It’s All Connected: A Journey Through Test-Time Memorization,Attentional Bias, Retention, and Online Optimization


      摘要

      設(shè)計(jì)高效且有效的架構(gòu)主干,一直是增強(qiáng)基礎(chǔ)模型能力的核心研究方向。受人類(lèi)注意力偏向認(rèn)知現(xiàn)象的啟發(fā)——即自然傾向于優(yōu)先處理某些事件或刺激——我們重新概念化了神經(jīng)架構(gòu),包括 Transformers、Titans 及現(xiàn)代線性循環(huán)神經(jīng)網(wǎng)絡(luò),將它們視為聯(lián)想記憶模塊,這些模塊使用內(nèi)部目標(biāo)(稱(chēng)為注意力偏向)來(lái)學(xué)習(xí)鍵與值的映射。令人驚訝的是,我們觀察到大多數(shù)現(xiàn)有序列模型要么利用 (1) 點(diǎn)積相似性,要么利用 (2) ?2 回歸目標(biāo)作為其注意力偏向。超越這些目標(biāo),我們提出了一組替代的注意力偏向配置及其有效近似,以穩(wěn)定其訓(xùn)練過(guò)程。接著,我們將現(xiàn)代深度學(xué)習(xí)架構(gòu)中的遺忘機(jī)制重新解釋為一種留存正則化的形式,從而為序列模型提供了一套新穎的遺忘門(mén)。基于這些見(jiàn)解,我們提出了 Miras,這是一個(gè)基于以下四種選擇來(lái)設(shè)計(jì)深度學(xué)習(xí)架構(gòu)的通用框架:(i) 聯(lián)想記憶架構(gòu),(ii) 注意力偏向目標(biāo),(iii) 留存門(mén),以及 (iv) 記憶學(xué)習(xí)算法。我們提出了三個(gè)新穎的序列模型——Moneta、Yaad 和 Memora——它們超越了現(xiàn)有線性 RNN 的能力,同時(shí)保持了快速可并行的訓(xùn)練過(guò)程。我們的實(shí)驗(yàn)表明,Miras 中不同的設(shè)計(jì)選擇會(huì)產(chǎn)生具有不同優(yōu)勢(shì)的模型。例如,Miras 的某些實(shí)例在特定任務(wù)(如語(yǔ)言建模、常識(shí)推理和召回密集型任務(wù))中取得了卓越的性能,甚至超越了 Transformers 和其他現(xiàn)代線性循環(huán)模型。

      1 引言

      為序列建模設(shè)計(jì)高效的架構(gòu)主干是增強(qiáng)基礎(chǔ)模型在語(yǔ)言、計(jì)算機(jī)視覺(jué)、計(jì)算生物學(xué)和神經(jīng)科學(xué)等領(lǐng)域能力的關(guān)鍵。雖然 Transformers 主要得益于其上下文學(xué)習(xí)能力和規(guī)模化學(xué)習(xí)能力,已在序列建模中穩(wěn)固確立為最先進(jìn)的模型,但其二次時(shí)間與空間復(fù)雜度限制了其在需要長(zhǎng)上下文建模任務(wù)中的應(yīng)用。

      近期的努力旨在通過(guò)設(shè)計(jì)高效的循環(huán)替代方案來(lái)克服 Transformers 在長(zhǎng)上下文建模中的局限性。與 Transformers 線性增長(zhǎng)的內(nèi)存不同,這些模型將上下文壓縮到固定大小的內(nèi)存中,需要改進(jìn)內(nèi)存管理以獲得可比的性能。為了設(shè)計(jì)更有效的架構(gòu),研究重點(diǎn)在于通過(guò)使用/設(shè)計(jì)更具表現(xiàn)力的以下方面來(lái)提升內(nèi)存容量及其管理:(1) 學(xué)習(xí)規(guī)則:從赫布規(guī)則到 Delta 規(guī)則;(2) 遺忘門(mén):從 LSTM 到 Mamba2 再到 Titan 的遺忘門(mén);(3) 更具表現(xiàn)力的內(nèi)存架構(gòu):從 RetNet 和 LRU 的向量值內(nèi)存,到 Titans 和 TTT 的神經(jīng)深度內(nèi)存。

      這些進(jìn)步的核心存在一個(gè)關(guān)鍵問(wèn)題:“這些序列模型背后的基本設(shè)計(jì)框架是什么,以及如何增強(qiáng)這些模型?”。受神經(jīng)心理學(xué)文獻(xiàn)中關(guān)于聯(lián)想記憶和學(xué)習(xí)的廣義定義的啟發(fā),多項(xiàng)研究討論了 Transformers 與(線性)循環(huán)神經(jīng)網(wǎng)絡(luò)同聯(lián)想記憶之間的聯(lián)系。然而,這些研究要么 (1) 缺乏能完整闡明底層學(xué)習(xí)算法的普適性解釋?zhuān)?(2) 局限于特定的聯(lián)想記憶定義而缺乏通用性,和/或 (3) 無(wú)法描述標(biāo)準(zhǔn)且廣泛使用的組件,如遺忘門(mén)。

      貢獻(xiàn):受人類(lèi)注意力偏向認(rèn)知現(xiàn)象的啟發(fā)——即自然傾向于優(yōu)先處理某些事件或刺激——我們基于具有注意力偏向的廣義聯(lián)想記憶定義,重新概念化了神經(jīng)架構(gòu),包括 Transformers、Titans 和其他現(xiàn)代線性循環(huán)神經(jīng)網(wǎng)絡(luò)。我們將注意力偏向定義并形式化為序列模型的內(nèi)部記憶目標(biāo),旨在學(xué)習(xí)輸入之間的底層映射。我們的表述揭示,幾乎所有現(xiàn)有的序列模型都是利用同一類(lèi)型注意力偏向的聯(lián)想記憶。我們將現(xiàn)代深度學(xué)習(xí)架構(gòu)中現(xiàn)有的遺忘機(jī)制重新解釋為注意力偏向的一種留存 ?2 正則化形式,然后為序列模型提供了一套新穎的替代留存門(mén),為如何平衡學(xué)習(xí)新概念與保留已學(xué)概念提供了新的見(jiàn)解。

      基于我們對(duì)記憶和遺忘門(mén)的表述,我們提出了 Miras1,這是一個(gè)通過(guò)以下四種選擇來(lái)設(shè)計(jì)新穎序列建模架構(gòu)的基礎(chǔ)框架:(1) 注意力偏向(即記憶目標(biāo)),(2) 留存門(mén),(3) 記憶架構(gòu),以及 (4) 記憶學(xué)習(xí)算法(即優(yōu)化器)。我們提出并討論了幾種新穎的設(shè)計(jì)選擇,從而產(chǎn)生了超越現(xiàn)有序列建模架構(gòu)的新架構(gòu)。

      最后,我們專(zhuān)注于 Miras 的三個(gè)新穎變體——Moneta、Yaad 和 Memora——它們基于超越簡(jiǎn)單 ?2 回歸目標(biāo)的注意力偏向,以及比現(xiàn)有機(jī)制更穩(wěn)健的新型留存門(mén)控機(jī)制。我們進(jìn)一步在語(yǔ)言建模、常識(shí)推理、大海撈針和召回密集型任務(wù)上對(duì)這三個(gè)變體進(jìn)行了實(shí)驗(yàn)評(píng)估。結(jié)果表明這些變體性能優(yōu)越,超越了最先進(jìn)的序列模型。

      路線圖:在第 2 節(jié)中,我們回顧了文獻(xiàn)并討論了本文使用的相關(guān)概念。在第 3 節(jié)中,我們提出并討論了聯(lián)想記憶的廣義定義,并正式定義了注意力偏向的概念。接著,我們討論了兩種視角——學(xué)習(xí)-保留和跟隨正則化領(lǐng)導(dǎo)者——以通過(guò)優(yōu)化透鏡來(lái)解讀序列建模,并證明學(xué)習(xí)-保留相對(duì)于 FTRL 的普適性。在第 4 節(jié)中,我們介紹了 Miras 框架并討論了它如何統(tǒng)一現(xiàn)代序列模型。在第 5 節(jié)中,為了展示 Miras 框架的潛力,我們討論了針對(duì) (1) 注意力偏向和 (2) 留存門(mén)(遺忘門(mén))的多種新穎設(shè)計(jì)選擇。隨后在第 5.3 節(jié),我們介紹了作為 Miras 變體的三個(gè)新穎序列模型,并討論了如何以可并行化的方式訓(xùn)練它們。最后,我們的實(shí)驗(yàn)評(píng)估在第 6 節(jié)中報(bào)告。


      2 預(yù)備知識(shí)與背景

      在本節(jié)中,我們將回顧全文所涉及的相關(guān)研究和背景概念。





      為了解決上述限制,近年來(lái),使用矩陣值內(nèi)存并采用 Delta 學(xué)習(xí)規(guī)則的循環(huán)模型變得越來(lái)越受歡迎。盡管有顯著優(yōu)勢(shì),即使是這些基于 Delta 規(guī)則的循環(huán)模型也面臨理論限制,并且在實(shí)踐中性能一般。最近,多項(xiàng)研究旨在通過(guò)添加標(biāo)量或通道級(jí)遺忘門(mén)機(jī)制、使用負(fù)特征值以及多步學(xué)習(xí)來(lái)提高此類(lèi)模型的性能。然而,由于內(nèi)存架構(gòu)的表達(dá)能力不足,它們?cè)陂L(zhǎng)上下文任務(wù)中仍然存在性能下降的問(wèn)題。


      深度記憶模塊:Titans 與測(cè)試時(shí)訓(xùn)練 為了克服有限的內(nèi)存并擴(kuò)展深度序列模型的有效上下文長(zhǎng)度,近期的研究聚焦于具有深度記憶模塊的新一代架構(gòu)。這些架構(gòu)建立在元學(xué)習(xí)視角之上,其中記憶是一個(gè)使用梯度下降(可能帶動(dòng)量)更新的 MLP 架構(gòu)。Sun 等人 (2024) 進(jìn)一步提供了一個(gè)統(tǒng)一的視角,闡釋了線性和 softmax 注意力如何分別是(核)回歸損失的參數(shù)化和非參數(shù)化解,但將其他現(xiàn)代線性 RNNs 視為該類(lèi)模型之外的方法。最近,在我們的一項(xiàng)并行工作中,Wang 等人 (2025) 表明,通過(guò)對(duì)現(xiàn)代 RNNs(如 RetNet、Mamba)進(jìn)行額外簡(jiǎn)化,它們大致可歸為內(nèi)部?jī)?yōu)化回歸損失的同類(lèi)模型。然而,“這些序列模型背后能夠準(zhǔn)確統(tǒng)一現(xiàn)有架構(gòu)的基本設(shè)計(jì)框架是什么?”這個(gè)問(wèn)題仍未得到解答。此外,遺忘門(mén)的作用及其在現(xiàn)代序列模型中的替代選擇,目前的研究仍顯不足。

      3 聯(lián)想記憶、注意力偏向與留存

      聯(lián)想記憶是人類(lèi)學(xué)習(xí)中不可或缺的組成部分,一直是文獻(xiàn)中許多人造神經(jīng)架構(gòu)的靈感來(lái)源。然而,這些研究只定義了聯(lián)想記憶概念的特定實(shí)例,將架構(gòu)限制在實(shí)體間某種特定類(lèi)型的相似性度量范圍內(nèi)。廣義而言,聯(lián)想記憶是一種將一組鍵 映射到一組值 的算子。因此,為了學(xué)習(xí)數(shù)據(jù)中潛在的映射模式,它需要一個(gè)針對(duì)某種記憶類(lèi)型并衡量所學(xué)映射質(zhì)量的目標(biāo):



      需注意以下幾點(diǎn):

      備注1.當(dāng)我們用參數(shù) W W參數(shù)化記憶時(shí),我們使用 M ( W , k )
      。在這種參數(shù)化設(shè)置下,公式 (4) 中的優(yōu)化問(wèn)題應(yīng)在參數(shù) W W上進(jìn)行。此外,在參數(shù)化設(shè)置中,我們可能會(huì)使用額外的正則化項(xiàng) R ( W )
      來(lái)控制對(duì)過(guò)去數(shù)據(jù)的保留。

      備注2.學(xué)習(xí)鍵與值之間的映射(公式 4)是一個(gè)元學(xué)習(xí)問(wèn)題,其中注意力偏向在內(nèi)循環(huán)中被優(yōu)化,而神經(jīng)網(wǎng)絡(luò)的所有其他參數(shù)(例如線性投影、卷積等)則在外循環(huán)中被優(yōu)化。因此,模型學(xué)習(xí)如何在測(cè)試時(shí)將數(shù)據(jù)存儲(chǔ)到其參數(shù)中。

      3.1 通過(guò)優(yōu)化的視角學(xué)習(xí)記憶與留存

      定義 3.1 將基于聯(lián)想記憶概念的神經(jīng)架構(gòu)設(shè)計(jì),轉(zhuǎn)化為通過(guò)最小化目標(biāo)函數(shù) L L來(lái)學(xué)習(xí)鍵與值之間的底層映射。為了優(yōu)化公式 4,一個(gè)簡(jiǎn)單的方法是采用梯度下降的思想。具體來(lái)說(shuō),給定一個(gè)新的鍵值對(duì),我們按如下方式更新記憶:



      3.2 視角一:在線回歸與跟隨正則化領(lǐng)導(dǎo)者

      公式 (5) 可視為對(duì)損失函數(shù)序列執(zhí)行一步在線梯度下降:




      公式 (7) 使用了損失函數(shù)的線性近似和二次正則化。然而,原則上我們可以使用損失函數(shù)的其他近似以及其他正則化函數(shù),正如過(guò)去在線性?xún)?yōu)化或一般優(yōu)化中所使用的那樣。這種改變是開(kāi)發(fā)其他優(yōu)化算法(如鏡像下降)背后的思想。更具體地說(shuō),我們可以將公式 (7) 中的更新規(guī)則推廣為以下形式:



      3.3 視角二:學(xué)習(xí)最新令牌同時(shí)保留先前信息





      我們?cè)诟戒?B 中提供了證明。上述命題表明,在一些溫和假設(shè)下,(學(xué)習(xí)-保留視角)也可以解釋由(跟隨正則化領(lǐng)導(dǎo)者視角)得到的方法。因此,(學(xué)習(xí)-保留視角)可被視為一個(gè)更通用的版本。這就是為什么我們?cè)诮酉聛?lái)的大部分推導(dǎo)中主要關(guān)注這一視角。

      備注3:根據(jù)上述視角,我們可以看到,即使使用額外的全局正則化,也不存在記憶擦除或遺忘過(guò)程(現(xiàn)代架構(gòu)中的常見(jiàn)術(shù)語(yǔ)),但模型可能會(huì)決定不保留記憶的過(guò)去狀態(tài)。有趣的是,這一觀察也與人類(lèi)的記憶過(guò)程相符,即大腦不會(huì)擦除記憶,但記憶可能因提取失敗而變得無(wú)法訪問(wèn)。因此,我們隨后將使用 “留存門(mén)”來(lái)指代這一項(xiàng),而非遺忘門(mén)。

      備注4:如我們?cè)诘?節(jié)討論并總結(jié)在表1中的那樣,大多數(shù)現(xiàn)有的現(xiàn)代序列模型都在使用梯度下降來(lái)優(yōu)化聯(lián)想記憶目標(biāo)(公式4中的注意力偏向)。因此,為了進(jìn)一步理解現(xiàn)有序列模型及其在線學(xué)習(xí)解釋之間的聯(lián)系,我們討論了上述兩種限于基于梯度下降更新規(guī)則的視角。然而,我們?cè)诠?中對(duì)注意力偏向和聯(lián)想記憶的初始定義更為寬泛,并且可以通過(guò)任何優(yōu)化算法(例如,甚至牛頓法或非參數(shù)解)進(jìn)行優(yōu)化。

      4 MIRAS:學(xué)習(xí)用魯棒且富有表達(dá)力的記憶進(jìn)行記憶

      基于我們關(guān)于聯(lián)想記憶、注意力偏差的定義以及之前的觀點(diǎn),我們提出了 MIRAS 框架,它不僅精確地統(tǒng)一了現(xiàn)有的骨干架構(gòu),還為如何設(shè)計(jì)下一代序列模型提供了見(jiàn)解。如第3節(jié)早先討論的,學(xué)習(xí)聯(lián)想記憶可以解釋為一個(gè)元學(xué)習(xí)任務(wù),在此任務(wù)中,聯(lián)想記憶學(xué)習(xí)如何在測(cè)試時(shí)壓縮數(shù)據(jù)并將其存儲(chǔ)到其參數(shù)中。在這類(lèi)任務(wù)中,記憶的架構(gòu)尤為重要,因?yàn)樵谳^長(zhǎng)上下文中,記憶結(jié)構(gòu)的表達(dá)能力可能會(huì)限制其學(xué)習(xí)潛在模式的能力。因此,設(shè)計(jì)序列模型的第一個(gè)選擇是記憶的結(jié)構(gòu)。給定由一組參數(shù) W W參數(shù)化的記憶結(jié)構(gòu),如前所述,我們旨在通過(guò)一個(gè)學(xué)習(xí)算法(例如梯度下降)來(lái)最小化帶有記憶保留正則項(xiàng) Ret ( ? ) 的損失函數(shù) ? ( W ; ? )
      。相應(yīng)地,MIRAS 需要四個(gè)設(shè)計(jì)選擇:






      5 超越現(xiàn)有的注意力偏差與保留門(mén)機(jī)制







      5.2 替代的保留門(mén)機(jī)制

      變體 1:通過(guò) -散度在縮放概率單純形上進(jìn)行記憶化。在學(xué)習(xí)過(guò)程中,一種防止數(shù)值不穩(wěn)定和值爆炸的常見(jiàn)技術(shù)是將搜索空間限制在一個(gè)有界域內(nèi)。遵循這一原則,為了避免數(shù)值不穩(wěn)定性,我們可以將變量 約束在(縮放的)概率單純形內(nèi)。換句話(huà)說(shuō),我們可以將狀態(tài)限制在如下約束集內(nèi):







      5.3 MIRAS 的變體:MONETA、YAAD 和 MEMORA

      在上一節(jié)中,我們討論了注意力偏差和保留門(mén)的不同潛在選擇,以展示 MIRAS 的通用性和潛力。在本節(jié)中,基于我們的框架,我們提出了三種新穎的序列模型,每種模型都基于不同的動(dòng)機(jī)設(shè)計(jì),并討論了它們?nèi)绾卫每焖俨⑿杏?xùn)練。



      YAAD。基于我們關(guān)于保護(hù)記憶免受極端事件(令牌)影響的魯棒性記憶重要性的討論,我們基于 Huber 目標(biāo)設(shè)計(jì)了 YAAD。即在 MIRAS 框架中,對(duì)于記憶結(jié)構(gòu)的選擇,我們遵循 MONETA,使用與上述相同架構(gòu)的 MLP;對(duì)于注意力偏差的選擇,我們使用 Huber 損失(由公式 16 定義);對(duì)于保留門(mén)的選擇,為簡(jiǎn)潔起見(jiàn),我們結(jié)合使用局部和全局保留項(xiàng),表示為

      這等價(jià)于 Behrouz 等人(2024c)引入的“遺忘門(mén)”機(jī)制;最后,我們直接使用梯度下降作為記憶學(xué)習(xí)算法。根據(jù)以上選擇,我們可以將得到的記憶學(xué)習(xí)過(guò)程描述如下:


      Memora。 最后,在 Memora 中,我們采用了彈性網(wǎng)絡(luò)正則化的思想(即硬保留和軟保留)。為此,在 MIRAS 框架中:(1) 在記憶架構(gòu)的選擇上,與上述變體類(lèi)似,我們使用 MLP(架構(gòu)與之前的變體相同)。(2) 在注意力偏差的選擇上,我們使用簡(jiǎn)單的 ?? 回歸損失。(3) 在保留門(mén)的選擇上,我們使用如公式 21 所示的 KL 散度。(4) 最后,我們使用梯度下降來(lái)優(yōu)化記憶,從而得到以下更新規(guī)則:


      5.4 架構(gòu)骨干與快速訓(xùn)練

      架構(gòu)骨干。對(duì)于架構(gòu)骨干,我們完全遵循近期研究(Behrouz 等人 2024c; Yang 等人 2024a)的做法:在 Llama 的宏觀架構(gòu)中,使用帶有 SwiGLU() 激活函數(shù)的 MLP、旋轉(zhuǎn)位置編碼(RoPE)(Su 等人 2024)和 RMSNorm(Zhang 等人 2019),將注意力模塊替換為我們 MIRAS 的變體。對(duì)于 MIRAS 層模塊,我們遵循近現(xiàn)代線性循環(huán)模型(Behrouz 等人 2024c; Yang 等人 2024a),在查詢(xún)、鍵和值投影之后分別加入一維深度可分離卷積層(卷積核大小為 4)。為了訓(xùn)練穩(wěn)定性,我們同樣對(duì) q 和 k 使用 ? 2
      歸一化。MIRAS 層模塊的輸出經(jīng)過(guò)歸一化,并通過(guò)一個(gè)線性層進(jìn)行門(mén)控(Mehta 等人 2023)。





      6 實(shí)驗(yàn)

      在我們的實(shí)驗(yàn)評(píng)估中,我們旨在回答三個(gè)主要問(wèn)題:(1) 不同的注意力偏差在實(shí)踐中是否會(huì)導(dǎo)致不同的架構(gòu)?(2) 不同類(lèi)型的保留門(mén)(即保留門(mén)機(jī)制)如何影響模型在長(zhǎng)上下文中的性能?(3) 與基線模型相比,Memora、Moneta 和 Yaad 在下游任務(wù)中的表現(xiàn)如何?

      實(shí)驗(yàn)設(shè)置。我們使用訓(xùn)練上下文窗口大小為 4096 來(lái)訓(xùn)練我們的模型,使用的數(shù)據(jù)集為 FineWeb-Edu (Penedo 等人 2024)(用于語(yǔ)言建模和常識(shí)推理任務(wù))或 C4 數(shù)據(jù)集 (Raffel 等人 2020)(用于擴(kuò)展規(guī)律分析)。我們使用的模型參數(shù)量級(jí)為 120M、340M、760M 和 1.3B。小模型(120M 和 340M)在從數(shù)據(jù)集中采樣的 15B tokens 上訓(xùn)練,中等模型(760M)在 30B tokens 上訓(xùn)練,大模型在 100B tokens 上訓(xùn)練。基線結(jié)果由 Behrouz 等人 (2024c) 報(bào)告。

      6.1 語(yǔ)言建模與常識(shí)推理

      我們遵循近期研究 (Behrouz 等人 2024c; Yang 等人 2024a,c),首先關(guān)注語(yǔ)言建模的困惑度以及常識(shí)推理任務(wù)。Memora、Yaad、Moneta 以及參數(shù)量為 340M、760M 和 1.3B 的基線模型的結(jié)果在表 2 中報(bào)告。我們所有的變體都優(yōu)于所有基線,包括 Transformer++、現(xiàn)代線性循環(huán)模型和混合方法。相較于混合模型的優(yōu)越性能尤為重要,因?yàn)槲覀兯械淖凅w都是純循環(huán)的(無(wú)注意力機(jī)制)。在 Miras 的三個(gè)變體中,雖然 Moneta 的表現(xiàn)略弱于 Memora 和 Yaad,但其他兩個(gè)變體表現(xiàn)接近,并且根據(jù)任務(wù)和模型規(guī)模,最佳模型會(huì)有所不同。


      6.2 擴(kuò)展規(guī)律

      為了評(píng)估模型的擴(kuò)展規(guī)律并與基線進(jìn)行比較,本節(jié)中,我們繪制了它們?cè)诓煌P鸵?guī)模和上下文窗口下的性能表現(xiàn)。

      上下文長(zhǎng)度。我們首先將訓(xùn)練上下文長(zhǎng)度從 2K 變化到 32K,對(duì)規(guī)模為 340M 和 760M 的兩個(gè)模型版本進(jìn)行評(píng)估。結(jié)果報(bào)告在圖 3(中和右)中。當(dāng)增加上下文長(zhǎng)度時(shí),Miras 的所有三個(gè)變體都比最先進(jìn)的基線模型擴(kuò)展得更好。我們將這種優(yōu)越性能歸因于:(1) 富有表達(dá)力的記憶架構(gòu)。與使用向量值和矩陣值記憶的 Mamba2 和 GSA 等基線不同,我們的變體使用具有更強(qiáng)表達(dá)能力的 2 層 MLP 來(lái)從更長(zhǎng)的序列中學(xué)習(xí)。(2) 保留門(mén)和注意力偏差的選擇:我們所有的三個(gè)變體都超越了標(biāo)準(zhǔn)的注意力偏差和保留門(mén)。這些選擇可以幫助記憶更好地管理其固定大小的容量。


      模型規(guī)模。我們還在圖 3(左)中報(bào)告了我們的模型和基線在 FLOPs 與困惑度方面的表現(xiàn)。在幾乎相同的 FLOPs 預(yù)算下,所有三個(gè)變體都優(yōu)于所有基線。這些結(jié)果再次支持了強(qiáng)大記憶設(shè)計(jì)的重要性。

      6.3 大海撈針

      為了評(píng)估我們的模型和基線的有效上下文窗口,我們使用“大海撈針”任務(wù)。在該任務(wù)中,我們?cè)u(píng)估模型從長(zhǎng)干擾文本(即“干草堆”)中檢索特定信息(即“針”)的能力。我們專(zhuān)注于 RULER 基準(zhǔn)測(cè)試 (Hsieh 等人 2024) 中的單針任務(wù) (S-NIAH),并在長(zhǎng)度為 1K、2K、4K 和 8K 的序列上評(píng)估我們的模型和基線。結(jié)果報(bào)告在表 3 中。我們所有的變體都以相當(dāng)大的優(yōu)勢(shì)優(yōu)于所有基線。有趣的是,當(dāng)數(shù)據(jù)是合成噪聲(S-NIAH-PK)時(shí),Moneta 表現(xiàn)出比其他模型更好的性能。這一觀察結(jié)果驗(yàn)證了 -范數(shù)目標(biāo)和保留門(mén)的有效性,因?yàn)樗鼈儗?duì)噪聲更加魯棒。


      6.4 消融實(shí)驗(yàn)

      在本節(jié)中,我們進(jìn)行消融實(shí)驗(yàn),以驗(yàn)證本文中討論的不同設(shè)計(jì)選擇是否對(duì)實(shí)現(xiàn)更好的結(jié)果有積極貢獻(xiàn)。

      p值對(duì)性能的影響。我們首先評(píng)估p值對(duì)Moneta性能的影響。我們將p值在{1, 1.5, 2, 2.8, 3, 3.2, 4}范圍內(nèi)變化,并將上下文窗口從2K調(diào)整至16K。結(jié)果如圖4所示。有趣的是,隨著p值增加,性能并未呈現(xiàn)單調(diào)變化趨勢(shì),當(dāng)p=3時(shí)達(dá)到最佳性能,而p=4時(shí)性能最差。此外,盡管不同p值會(huì)導(dǎo)致具有不同性能的記憶模塊,但隨著上下文長(zhǎng)度增加,擴(kuò)展規(guī)律幾乎保持一致。

      q值對(duì)性能的影響。類(lèi)似地,我們通過(guò)在{2, 3, 4, 5}范圍內(nèi)變化q值來(lái)評(píng)估其影響。有趣的是,與p值不同,q值能夠改變上下文長(zhǎng)度增加時(shí)的擴(kuò)展規(guī)律。這一現(xiàn)象的主要原因是q值決定了保留門(mén)的特性,一個(gè)強(qiáng)大的保留門(mén)可以改善記憶管理,從而帶來(lái)更好的性能表現(xiàn)。

      設(shè)計(jì)選擇的影響。為了評(píng)估架構(gòu)設(shè)計(jì)選擇,我們對(duì)Yaad進(jìn)行了消融實(shí)驗(yàn)。結(jié)果見(jiàn)表4。第一行報(bào)告了Yaad的原始性能,而(1)第二行移除了保留機(jī)制(即設(shè)β=1),(2)第三行使δ參數(shù)獨(dú)立于輸入,(3)第三行從Huber損失中移除?2損失項(xiàng),(4)第四行移除?1條件約束,(5)最后一行用線性層替換MLP。這些結(jié)果表明所有設(shè)計(jì)選擇都對(duì)模型性能具有貢獻(xiàn)。


      7 結(jié)論

      本文提出了一種通用框架 Miras,用于解釋在線優(yōu)化與測(cè)試時(shí)記憶化之間的關(guān)聯(lián)。Miras 框架能夠闡釋文獻(xiàn)中多種標(biāo)準(zhǔn)架構(gòu)選擇(例如遺忘門(mén))的作用,并有助于設(shè)計(jì)能夠更有效管理記憶的新一代架構(gòu)。基于我們的框架,我們提出了三種新穎的序列模型,每種模型都具有其各自的優(yōu)勢(shì)與局限性。實(shí)驗(yàn)評(píng)估表明,在各種下游任務(wù)中,所有這些變體均優(yōu)于 Transformer 和線性 RNN。本研究通過(guò) Miras 展示了一系列多樣化的變體。未來(lái),探索這些替代架構(gòu)在不同下游任務(wù)中的應(yīng)用是一個(gè)值得關(guān)注的研究方向。

      原文鏈接:https://arxiv.org/pdf/2504.13173

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      倆月了,一個(gè)也沒(méi)賣(mài)到中國(guó)去

      倆月了,一個(gè)也沒(méi)賣(mài)到中國(guó)去

      觀察者網(wǎng)
      2026-02-25 08:55:04
      本科已嚴(yán)重飽和的五個(gè)專(zhuān)業(yè),1、臨床醫(yī)學(xué),2、法學(xué),3、計(jì)算機(jī)

      本科已嚴(yán)重飽和的五個(gè)專(zhuān)業(yè),1、臨床醫(yī)學(xué),2、法學(xué),3、計(jì)算機(jī)

      明智家庭教育
      2026-01-31 10:29:14
      當(dāng)因殺死毒販,而讓半個(gè)國(guó)家燃起戰(zhàn)火后,終于理解了墨西哥的絕望

      當(dāng)因殺死毒販,而讓半個(gè)國(guó)家燃起戰(zhàn)火后,終于理解了墨西哥的絕望

      閱微札記
      2026-02-24 17:06:05
      利物浦后悔嗎?當(dāng)年免費(fèi)放走的 1 億邊鋒,如今完爆加克波

      利物浦后悔嗎?當(dāng)年免費(fèi)放走的 1 億邊鋒,如今完爆加克波

      瀾歸序
      2026-02-25 16:12:22
      WTT新加坡大滿(mǎn)貫:2月25日賽程公布!孫穎莎再登場(chǎng),何卓佳戰(zhàn)早田

      WTT新加坡大滿(mǎn)貫:2月25日賽程公布!孫穎莎再登場(chǎng),何卓佳戰(zhàn)早田

      劉森森
      2026-02-26 00:22:07
      彭佳慧回應(yīng)了!「想月付3萬(wàn)打發(fā)」罹癌經(jīng)紀(jì)人又被惹火:這是侮辱

      彭佳慧回應(yīng)了!「想月付3萬(wàn)打發(fā)」罹癌經(jīng)紀(jì)人又被惹火:這是侮辱

      ETtoday星光云
      2026-02-25 10:18:17
      湖北夫妻檔小吃攤年入超100萬(wàn),已買(mǎi)房買(mǎi)車(chē):每天炸500多根年糕、1100多根淀粉腸

      湖北夫妻檔小吃攤年入超100萬(wàn),已買(mǎi)房買(mǎi)車(chē):每天炸500多根年糕、1100多根淀粉腸

      臺(tái)州交通廣播
      2026-01-08 07:18:03
      對(duì)華合約全部撕毀!中國(guó)又一伙伴背后捅刀,騙走20億倒向美國(guó)

      對(duì)華合約全部撕毀!中國(guó)又一伙伴背后捅刀,騙走20億倒向美國(guó)

      離離言幾許
      2025-12-20 19:56:40
      勇士爆冷惜敗鵜鶘:梅爾頓28分賽季新高 錫安26+6穆雷賽季首秀

      勇士爆冷惜敗鵜鶘:梅爾頓28分賽季新高 錫安26+6穆雷賽季首秀

      醉臥浮生
      2026-02-25 11:34:46
      以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國(guó)并不會(huì)第一個(gè)翻臉

      以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國(guó)并不會(huì)第一個(gè)翻臉

      八斗小先生
      2025-12-26 09:33:27
      博士畢業(yè)于北京大學(xué),中科院植物所研究員以通訊作者身份在一區(qū)Top期刊上發(fā)表研究論文

      博士畢業(yè)于北京大學(xué),中科院植物所研究員以通訊作者身份在一區(qū)Top期刊上發(fā)表研究論文

      植物研究進(jìn)展
      2026-02-25 23:08:55
      深圳樓市2026年起風(fēng)了,深圳樓市南山區(qū)房?jī)r(jià)從9.3萬(wàn)變成了8.5萬(wàn)

      深圳樓市2026年起風(fēng)了,深圳樓市南山區(qū)房?jī)r(jià)從9.3萬(wàn)變成了8.5萬(wàn)

      有事問(wèn)彭叔
      2026-02-23 19:11:44
      尼格買(mǎi)提曬家宴,八個(gè)菜沒(méi)一個(gè)青菜?網(wǎng)友調(diào)侃:碳水盛宴

      尼格買(mǎi)提曬家宴,八個(gè)菜沒(méi)一個(gè)青菜?網(wǎng)友調(diào)侃:碳水盛宴

      愛(ài)吃冰棍的小痞子
      2026-02-24 12:15:26
      74歲陳凱歌在三亞豪宅過(guò)年,穿5萬(wàn)元皮鞋戴大金表,臉上有老年斑

      74歲陳凱歌在三亞豪宅過(guò)年,穿5萬(wàn)元皮鞋戴大金表,臉上有老年斑

      離離言幾許
      2026-02-25 16:07:01
      三孩政策刺激無(wú)果后,中央下狠手了!新政策讓3代人拍手叫好

      三孩政策刺激無(wú)果后,中央下狠手了!新政策讓3代人拍手叫好

      米果說(shuō)識(shí)
      2026-02-24 16:54:34
      起風(fēng)了!賴(lài)清德對(duì)大陸的稱(chēng)呼變了,鄭麗文表態(tài)驚人,柯建銘落幕了

      起風(fēng)了!賴(lài)清德對(duì)大陸的稱(chēng)呼變了,鄭麗文表態(tài)驚人,柯建銘落幕了

      諦聽(tīng)骨語(yǔ)本尊
      2026-02-25 19:30:14
      新加坡大滿(mǎn)貫賽:大爆冷!國(guó)乒丟掉1冠,混雙全軍覆沒(méi),0:3輸球

      新加坡大滿(mǎn)貫賽:大爆冷!國(guó)乒丟掉1冠,混雙全軍覆沒(méi),0:3輸球

      國(guó)乒二三事
      2026-02-25 18:35:04
      山東省泰安市政協(xié)原副主席倪慶賓被“雙開(kāi)”

      山東省泰安市政協(xié)原副主席倪慶賓被“雙開(kāi)”

      界面新聞
      2026-02-25 10:34:47
      騎士109-94擊敗尼克斯!哈登打破塵封9年紀(jì)錄,登頂騎士隊(duì)史第一

      騎士109-94擊敗尼克斯!哈登打破塵封9年紀(jì)錄,登頂騎士隊(duì)史第一

      籃球大視野
      2026-02-25 20:36:55
      孫穎莎超絕球品!主動(dòng)提醒對(duì)手可以挑戰(zhàn),3-1晉級(jí)16強(qiáng)約戰(zhàn)石洵瑤

      孫穎莎超絕球品!主動(dòng)提醒對(duì)手可以挑戰(zhàn),3-1晉級(jí)16強(qiáng)約戰(zhàn)石洵瑤

      乒談
      2026-02-25 20:55:47
      2026-02-26 05:00:49
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1240文章數(shù) 18關(guān)注度
      往期回顧 全部

      科技要聞

      “機(jī)器人只跳舞,沒(méi)什么用”

      頭條要聞

      夫妻晚5秒錯(cuò)過(guò)免費(fèi)高速付1700元:氣得我不得了

      頭條要聞

      夫妻晚5秒錯(cuò)過(guò)免費(fèi)高速付1700元:氣得我不得了

      體育要聞

      勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

      娛樂(lè)要聞

      黃曉明新戀情!與小22歲美女同游新加坡

      財(cái)經(jīng)要聞

      上海樓市放大招,地產(chǎn)預(yù)期別太大

      汽車(chē)要聞

      750km超長(zhǎng)續(xù)航 2026款小鵬X9純電版將于3月2日上市

      態(tài)度原創(chuàng)

      數(shù)碼
      健康
      旅游
      本地
      公開(kāi)課

      數(shù)碼要聞

      三星發(fā)布 Galaxy Buds 4 與 Buds 4 Pro 耳機(jī)產(chǎn)品

      轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車(chē)上班嗎?

      旅游要聞

      重慶酉陽(yáng)櫻花漫古城,吊腳飛檐藏春歸,這才是中式浪漫天花板!

      本地新聞

      津南好·四時(shí)總相宜

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版