網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

萬(wàn)物互聯(lián)：測(cè)時(shí)記憶、注意偏好、信息留存與在線優(yōu)化之旅

2026-02-06 12:00:53　來(lái)源: CreateAMind

上海舉報(bào)

分享至

萬(wàn)物互聯(lián)：測(cè)時(shí)記憶、注意偏好、信息留存與在線優(yōu)化之旅

It’s All Connected: A Journey Through Test-Time Memorization,Attentional Bias, Retention, and Online Optimization

摘要：

設(shè)計(jì)高效且有效的架構(gòu)主干，一直是增強(qiáng)基礎(chǔ)模型能力的核心研究方向。受人類(lèi)注意力偏向認(rèn)知現(xiàn)象的啟發(fā)——即自然傾向于優(yōu)先處理某些事件或刺激——我們重新概念化了神經(jīng)架構(gòu)，包括 Transformers、Titans 及現(xiàn)代線性循環(huán)神經(jīng)網(wǎng)絡(luò)，將它們視為聯(lián)想記憶模塊，這些模塊使用內(nèi)部目標(biāo)（稱(chēng)為注意力偏向）來(lái)學(xué)習(xí)鍵與值的映射。令人驚訝的是，我們觀察到大多數(shù)現(xiàn)有序列模型要么利用 (1) 點(diǎn)積相似性，要么利用 (2) ?2 回歸目標(biāo)作為其注意力偏向。超越這些目標(biāo)，我們提出了一組替代的注意力偏向配置及其有效近似，以穩(wěn)定其訓(xùn)練過(guò)程。接著，我們將現(xiàn)代深度學(xué)習(xí)架構(gòu)中的遺忘機(jī)制重新解釋為一種留存正則化的形式，從而為序列模型提供了一套新穎的遺忘門(mén)。基于這些見(jiàn)解，我們提出了 Miras，這是一個(gè)基于以下四種選擇來(lái)設(shè)計(jì)深度學(xué)習(xí)架構(gòu)的通用框架：(i) 聯(lián)想記憶架構(gòu)，(ii) 注意力偏向目標(biāo)，(iii) 留存門(mén)，以及 (iv) 記憶學(xué)習(xí)算法。我們提出了三個(gè)新穎的序列模型——Moneta、Yaad 和 Memora——它們超越了現(xiàn)有線性 RNN 的能力，同時(shí)保持了快速可并行的訓(xùn)練過(guò)程。我們的實(shí)驗(yàn)表明，Miras 中不同的設(shè)計(jì)選擇會(huì)產(chǎn)生具有不同優(yōu)勢(shì)的模型。例如，Miras 的某些實(shí)例在特定任務(wù)（如語(yǔ)言建模、常識(shí)推理和召回密集型任務(wù)）中取得了卓越的性能，甚至超越了 Transformers 和其他現(xiàn)代線性循環(huán)模型。

1 引言

為序列建模設(shè)計(jì)高效的架構(gòu)主干是增強(qiáng)基礎(chǔ)模型在語(yǔ)言、計(jì)算機(jī)視覺(jué)、計(jì)算生物學(xué)和神經(jīng)科學(xué)等領(lǐng)域能力的關(guān)鍵。雖然 Transformers 主要得益于其上下文學(xué)習(xí)能力和規(guī)模化學(xué)習(xí)能力，已在序列建模中穩(wěn)固確立為最先進(jìn)的模型，但其二次時(shí)間與空間復(fù)雜度限制了其在需要長(zhǎng)上下文建模任務(wù)中的應(yīng)用。

近期的努力旨在通過(guò)設(shè)計(jì)高效的循環(huán)替代方案來(lái)克服 Transformers 在長(zhǎng)上下文建模中的局限性。與 Transformers 線性增長(zhǎng)的內(nèi)存不同，這些模型將上下文壓縮到固定大小的內(nèi)存中，需要改進(jìn)內(nèi)存管理以獲得可比的性能。為了設(shè)計(jì)更有效的架構(gòu)，研究重點(diǎn)在于通過(guò)使用/設(shè)計(jì)更具表現(xiàn)力的以下方面來(lái)提升內(nèi)存容量及其管理：(1) 學(xué)習(xí)規(guī)則：從赫布規(guī)則到 Delta 規(guī)則；(2) 遺忘門(mén)：從 LSTM 到 Mamba2 再到 Titan 的遺忘門(mén)；(3) 更具表現(xiàn)力的內(nèi)存架構(gòu)：從 RetNet 和 LRU 的向量值內(nèi)存，到 Titans 和 TTT 的神經(jīng)深度內(nèi)存。

這些進(jìn)步的核心存在一個(gè)關(guān)鍵問(wèn)題：“這些序列模型背后的基本設(shè)計(jì)框架是什么，以及如何增強(qiáng)這些模型？”。受神經(jīng)心理學(xué)文獻(xiàn)中關(guān)于聯(lián)想記憶和學(xué)習(xí)的廣義定義的啟發(fā)，多項(xiàng)研究討論了 Transformers 與（線性）循環(huán)神經(jīng)網(wǎng)絡(luò)同聯(lián)想記憶之間的聯(lián)系。然而，這些研究要么 (1) 缺乏能完整闡明底層學(xué)習(xí)算法的普適性解釋?zhuān)?(2) 局限于特定的聯(lián)想記憶定義而缺乏通用性，和/或 (3) 無(wú)法描述標(biāo)準(zhǔn)且廣泛使用的組件，如遺忘門(mén)。

貢獻(xiàn)：受人類(lèi)注意力偏向認(rèn)知現(xiàn)象的啟發(fā)——即自然傾向于優(yōu)先處理某些事件或刺激——我們基于具有注意力偏向的廣義聯(lián)想記憶定義，重新概念化了神經(jīng)架構(gòu)，包括 Transformers、Titans 和其他現(xiàn)代線性循環(huán)神經(jīng)網(wǎng)絡(luò)。我們將注意力偏向定義并形式化為序列模型的內(nèi)部記憶目標(biāo)，旨在學(xué)習(xí)輸入之間的底層映射。我們的表述揭示，幾乎所有現(xiàn)有的序列模型都是利用同一類(lèi)型注意力偏向的聯(lián)想記憶。我們將現(xiàn)代深度學(xué)習(xí)架構(gòu)中現(xiàn)有的遺忘機(jī)制重新解釋為注意力偏向的一種留存 ?2 正則化形式，然后為序列模型提供了一套新穎的替代留存門(mén)，為如何平衡學(xué)習(xí)新概念與保留已學(xué)概念提供了新的見(jiàn)解。

基于我們對(duì)記憶和遺忘門(mén)的表述，我們提出了 Miras1，這是一個(gè)通過(guò)以下四種選擇來(lái)設(shè)計(jì)新穎序列建模架構(gòu)的基礎(chǔ)框架：(1) 注意力偏向（即記憶目標(biāo)），(2) 留存門(mén)，(3) 記憶架構(gòu)，以及 (4) 記憶學(xué)習(xí)算法（即優(yōu)化器）。我們提出并討論了幾種新穎的設(shè)計(jì)選擇，從而產(chǎn)生了超越現(xiàn)有序列建模架構(gòu)的新架構(gòu)。

最后，我們專(zhuān)注于 Miras 的三個(gè)新穎變體——Moneta、Yaad 和 Memora——它們基于超越簡(jiǎn)單 ?2 回歸目標(biāo)的注意力偏向，以及比現(xiàn)有機(jī)制更穩(wěn)健的新型留存門(mén)控機(jī)制。我們進(jìn)一步在語(yǔ)言建模、常識(shí)推理、大海撈針和召回密集型任務(wù)上對(duì)這三個(gè)變體進(jìn)行了實(shí)驗(yàn)評(píng)估。結(jié)果表明這些變體性能優(yōu)越，超越了最先進(jìn)的序列模型。

路線圖：在第 2 節(jié)中，我們回顧了文獻(xiàn)并討論了本文使用的相關(guān)概念。在第 3 節(jié)中，我們提出并討論了聯(lián)想記憶的廣義定義，并正式定義了注意力偏向的概念。接著，我們討論了兩種視角——學(xué)習(xí)-保留和跟隨正則化領(lǐng)導(dǎo)者——以通過(guò)優(yōu)化透鏡來(lái)解讀序列建模，并證明學(xué)習(xí)-保留相對(duì)于 FTRL 的普適性。在第 4 節(jié)中，我們介紹了 Miras 框架并討論了它如何統(tǒng)一現(xiàn)代序列模型。在第 5 節(jié)中，為了展示 Miras 框架的潛力，我們討論了針對(duì) (1) 注意力偏向和 (2) 留存門(mén)（遺忘門(mén)）的多種新穎設(shè)計(jì)選擇。隨后在第 5.3 節(jié)，我們介紹了作為 Miras 變體的三個(gè)新穎序列模型，并討論了如何以可并行化的方式訓(xùn)練它們。最后，我們的實(shí)驗(yàn)評(píng)估在第 6 節(jié)中報(bào)告。

2 預(yù)備知識(shí)與背景

在本節(jié)中，我們將回顧全文所涉及的相關(guān)研究和背景概念。

為了解決上述限制，近年來(lái)，使用矩陣值內(nèi)存并采用 Delta 學(xué)習(xí)規(guī)則的循環(huán)模型變得越來(lái)越受歡迎。盡管有顯著優(yōu)勢(shì)，即使是這些基于 Delta 規(guī)則的循環(huán)模型也面臨理論限制，并且在實(shí)踐中性能一般。最近，多項(xiàng)研究旨在通過(guò)添加標(biāo)量或通道級(jí)遺忘門(mén)機(jī)制、使用負(fù)特征值以及多步學(xué)習(xí)來(lái)提高此類(lèi)模型的性能。然而，由于內(nèi)存架構(gòu)的表達(dá)能力不足，它們?cè)陂L(zhǎng)上下文任務(wù)中仍然存在性能下降的問(wèn)題。

深度記憶模塊：Titans 與測(cè)試時(shí)訓(xùn)練 為了克服有限的內(nèi)存并擴(kuò)展深度序列模型的有效上下文長(zhǎng)度，近期的研究聚焦于具有深度記憶模塊的新一代架構(gòu)。這些架構(gòu)建立在元學(xué)習(xí)視角之上，其中記憶是一個(gè)使用梯度下降（可能帶動(dòng)量）更新的 MLP 架構(gòu)。Sun 等人 (2024) 進(jìn)一步提供了一個(gè)統(tǒng)一的視角，闡釋了線性和 softmax 注意力如何分別是（核）回歸損失的參數(shù)化和非參數(shù)化解，但將其他現(xiàn)代線性 RNNs 視為該類(lèi)模型之外的方法。最近，在我們的一項(xiàng)并行工作中，Wang 等人 (2025) 表明，通過(guò)對(duì)現(xiàn)代 RNNs（如 RetNet、Mamba）進(jìn)行額外簡(jiǎn)化，它們大致可歸為內(nèi)部?jī)?yōu)化回歸損失的同類(lèi)模型。然而，“這些序列模型背后能夠準(zhǔn)確統(tǒng)一現(xiàn)有架構(gòu)的基本設(shè)計(jì)框架是什么？”這個(gè)問(wèn)題仍未得到解答。此外，遺忘門(mén)的作用及其在現(xiàn)代序列模型中的替代選擇，目前的研究仍顯不足。

3 聯(lián)想記憶、注意力偏向與留存

聯(lián)想記憶是人類(lèi)學(xué)習(xí)中不可或缺的組成部分，一直是文獻(xiàn)中許多人造神經(jīng)架構(gòu)的靈感來(lái)源。然而，這些研究只定義了聯(lián)想記憶概念的特定實(shí)例，將架構(gòu)限制在實(shí)體間某種特定類(lèi)型的相似性度量范圍內(nèi)。廣義而言，聯(lián)想記憶是一種將一組鍵映射到一組值的算子。因此，為了學(xué)習(xí)數(shù)據(jù)中潛在的映射模式，它需要一個(gè)針對(duì)某種記憶類(lèi)型并衡量所學(xué)映射質(zhì)量的目標(biāo)：

需注意以下幾點(diǎn)：

備注1.當(dāng)我們用參數(shù) W W參數(shù)化記憶時(shí)，我們使用 M ( W , k )
。在這種參數(shù)化設(shè)置下，公式 (4) 中的優(yōu)化問(wèn)題應(yīng)在參數(shù) W W上進(jìn)行。此外，在參數(shù)化設(shè)置中，我們可能會(huì)使用額外的正則化項(xiàng) R ( W )
來(lái)控制對(duì)過(guò)去數(shù)據(jù)的保留。

備注2.學(xué)習(xí)鍵與值之間的映射（公式 4）是一個(gè)元學(xué)習(xí)問(wèn)題，其中注意力偏向在內(nèi)循環(huán)中被優(yōu)化，而神經(jīng)網(wǎng)絡(luò)的所有其他參數(shù)（例如線性投影、卷積等）則在外循環(huán)中被優(yōu)化。因此，模型學(xué)習(xí)如何在測(cè)試時(shí)將數(shù)據(jù)存儲(chǔ)到其參數(shù)中。

3.1 通過(guò)優(yōu)化的視角學(xué)習(xí)記憶與留存

定義 3.1 將基于聯(lián)想記憶概念的神經(jīng)架構(gòu)設(shè)計(jì)，轉(zhuǎn)化為通過(guò)最小化目標(biāo)函數(shù) L L來(lái)學(xué)習(xí)鍵與值之間的底層映射。為了優(yōu)化公式 4，一個(gè)簡(jiǎn)單的方法是采用梯度下降的思想。具體來(lái)說(shuō)，給定一個(gè)新的鍵值對(duì)，我們按如下方式更新記憶：

3.2 視角一：在線回歸與跟隨正則化領(lǐng)導(dǎo)者

公式 (5) 可視為對(duì)損失函數(shù)序列執(zhí)行一步在線梯度下降：

公式 (7) 使用了損失函數(shù)的線性近似和二次正則化。然而，原則上我們可以使用損失函數(shù)的其他近似以及其他正則化函數(shù)，正如過(guò)去在線性?xún)?yōu)化或一般優(yōu)化中所使用的那樣。這種改變是開(kāi)發(fā)其他優(yōu)化算法（如鏡像下降）背后的思想。更具體地說(shuō)，我們可以將公式 (7) 中的更新規(guī)則推廣為以下形式：

3.3 視角二：學(xué)習(xí)最新令牌同時(shí)保留先前信息

我們?cè)诟戒?B 中提供了證明。上述命題表明，在一些溫和假設(shè)下，（學(xué)習(xí)-保留視角）也可以解釋由（跟隨正則化領(lǐng)導(dǎo)者視角）得到的方法。因此，（學(xué)習(xí)-保留視角）可被視為一個(gè)更通用的版本。這就是為什么我們?cè)诮酉聛?lái)的大部分推導(dǎo)中主要關(guān)注這一視角。

備注3：根據(jù)上述視角，我們可以看到，即使使用額外的全局正則化，也不存在記憶擦除或遺忘過(guò)程（現(xiàn)代架構(gòu)中的常見(jiàn)術(shù)語(yǔ)），但模型可能會(huì)決定不保留記憶的過(guò)去狀態(tài)。有趣的是，這一觀察也與人類(lèi)的記憶過(guò)程相符，即大腦不會(huì)擦除記憶，但記憶可能因提取失敗而變得無(wú)法訪問(wèn)。因此，我們隨后將使用 “留存門(mén)”來(lái)指代這一項(xiàng)，而非遺忘門(mén)。

備注4：如我們?cè)诘?節(jié)討論并總結(jié)在表1中的那樣，大多數(shù)現(xiàn)有的現(xiàn)代序列模型都在使用梯度下降來(lái)優(yōu)化聯(lián)想記憶目標(biāo)（公式4中的注意力偏向）。因此，為了進(jìn)一步理解現(xiàn)有序列模型及其在線學(xué)習(xí)解釋之間的聯(lián)系，我們討論了上述兩種限于基于梯度下降更新規(guī)則的視角。然而，我們?cè)诠?中對(duì)注意力偏向和聯(lián)想記憶的初始定義更為寬泛，并且可以通過(guò)任何優(yōu)化算法（例如，甚至牛頓法或非參數(shù)解）進(jìn)行優(yōu)化。

4 MIRAS：學(xué)習(xí)用魯棒且富有表達(dá)力的記憶進(jìn)行記憶

基于我們關(guān)于聯(lián)想記憶、注意力偏差的定義以及之前的觀點(diǎn)，我們提出了 MIRAS 框架，它不僅精確地統(tǒng)一了現(xiàn)有的骨干架構(gòu)，還為如何設(shè)計(jì)下一代序列模型提供了見(jiàn)解。如第3節(jié)早先討論的，學(xué)習(xí)聯(lián)想記憶可以解釋為一個(gè)元學(xué)習(xí)任務(wù)，在此任務(wù)中，聯(lián)想記憶學(xué)習(xí)如何在測(cè)試時(shí)壓縮數(shù)據(jù)并將其存儲(chǔ)到其參數(shù)中。在這類(lèi)任務(wù)中，記憶的架構(gòu)尤為重要，因?yàn)樵谳^長(zhǎng)上下文中，記憶結(jié)構(gòu)的表達(dá)能力可能會(huì)限制其學(xué)習(xí)潛在模式的能力。因此，設(shè)計(jì)序列模型的第一個(gè)選擇是記憶的結(jié)構(gòu)。給定由一組參數(shù) W W參數(shù)化的記憶結(jié)構(gòu)，如前所述，我們旨在通過(guò)一個(gè)學(xué)習(xí)算法（例如梯度下降）來(lái)最小化帶有記憶保留正則項(xiàng) Ret ( ? ) 的損失函數(shù) ? ( W ; ? )
。相應(yīng)地，MIRAS 需要四個(gè)設(shè)計(jì)選擇：

5 超越現(xiàn)有的注意力偏差與保留門(mén)機(jī)制

5.2 替代的保留門(mén)機(jī)制

變體 1：通過(guò) -散度在縮放概率單純形上進(jìn)行記憶化。在學(xué)習(xí)過(guò)程中，一種防止數(shù)值不穩(wěn)定和值爆炸的常見(jiàn)技術(shù)是將搜索空間限制在一個(gè)有界域內(nèi)。遵循這一原則，為了避免數(shù)值不穩(wěn)定性，我們可以將變量約束在（縮放的）概率單純形內(nèi)。換句話(huà)說(shuō)，我們可以將狀態(tài)限制在如下約束集內(nèi)：

5.3 MIRAS 的變體：MONETA、YAAD 和 MEMORA

在上一節(jié)中，我們討論了注意力偏差和保留門(mén)的不同潛在選擇，以展示 MIRAS 的通用性和潛力。在本節(jié)中，基于我們的框架，我們提出了三種新穎的序列模型，每種模型都基于不同的動(dòng)機(jī)設(shè)計(jì)，并討論了它們?nèi)绾卫每焖俨⑿杏?xùn)練。

YAAD。基于我們關(guān)于保護(hù)記憶免受極端事件（令牌）影響的魯棒性記憶重要性的討論，我們基于 Huber 目標(biāo)設(shè)計(jì)了 YAAD。即在 MIRAS 框架中，對(duì)于記憶結(jié)構(gòu)的選擇，我們遵循 MONETA，使用與上述相同架構(gòu)的 MLP；對(duì)于注意力偏差的選擇，我們使用 Huber 損失（由公式 16 定義）；對(duì)于保留門(mén)的選擇，為簡(jiǎn)潔起見(jiàn)，我們結(jié)合使用局部和全局保留項(xiàng)，表示為

這等價(jià)于 Behrouz 等人（2024c）引入的“遺忘門(mén)”機(jī)制；最后，我們直接使用梯度下降作為記憶學(xué)習(xí)算法。根據(jù)以上選擇，我們可以將得到的記憶學(xué)習(xí)過(guò)程描述如下：

Memora。 最后，在 Memora 中，我們采用了彈性網(wǎng)絡(luò)正則化的思想（即硬保留和軟保留）。為此，在 MIRAS 框架中：(1) 在記憶架構(gòu)的選擇上，與上述變體類(lèi)似，我們使用 MLP（架構(gòu)與之前的變體相同）。(2) 在注意力偏差的選擇上，我們使用簡(jiǎn)單的 ?? 回歸損失。(3) 在保留門(mén)的選擇上，我們使用如公式 21 所示的 KL 散度。(4) 最后，我們使用梯度下降來(lái)優(yōu)化記憶，從而得到以下更新規(guī)則：

5.4 架構(gòu)骨干與快速訓(xùn)練

架構(gòu)骨干。對(duì)于架構(gòu)骨干，我們完全遵循近期研究（Behrouz 等人 2024c; Yang 等人 2024a）的做法：在 Llama 的宏觀架構(gòu)中，使用帶有 SwiGLU() 激活函數(shù)的 MLP、旋轉(zhuǎn)位置編碼（RoPE）（Su 等人 2024）和 RMSNorm（Zhang 等人 2019），將注意力模塊替換為我們 MIRAS 的變體。對(duì)于 MIRAS 層模塊，我們遵循近現(xiàn)代線性循環(huán)模型（Behrouz 等人 2024c; Yang 等人 2024a），在查詢(xún)、鍵和值投影之后分別加入一維深度可分離卷積層（卷積核大小為 4）。為了訓(xùn)練穩(wěn)定性，我們同樣對(duì) q 和 k 使用 ? 2
歸一化。MIRAS 層模塊的輸出經(jīng)過(guò)歸一化，并通過(guò)一個(gè)線性層進(jìn)行門(mén)控（Mehta 等人 2023）。

6 實(shí)驗(yàn)

在我們的實(shí)驗(yàn)評(píng)估中，我們旨在回答三個(gè)主要問(wèn)題：(1) 不同的注意力偏差在實(shí)踐中是否會(huì)導(dǎo)致不同的架構(gòu)？(2) 不同類(lèi)型的保留門(mén)（即保留門(mén)機(jī)制）如何影響模型在長(zhǎng)上下文中的性能？(3) 與基線模型相比，Memora、Moneta 和 Yaad 在下游任務(wù)中的表現(xiàn)如何？

實(shí)驗(yàn)設(shè)置。我們使用訓(xùn)練上下文窗口大小為 4096 來(lái)訓(xùn)練我們的模型，使用的數(shù)據(jù)集為 FineWeb-Edu (Penedo 等人 2024)（用于語(yǔ)言建模和常識(shí)推理任務(wù)）或 C4 數(shù)據(jù)集 (Raffel 等人 2020)（用于擴(kuò)展規(guī)律分析）。我們使用的模型參數(shù)量級(jí)為 120M、340M、760M 和 1.3B。小模型（120M 和 340M）在從數(shù)據(jù)集中采樣的 15B tokens 上訓(xùn)練，中等模型（760M）在 30B tokens 上訓(xùn)練，大模型在 100B tokens 上訓(xùn)練。基線結(jié)果由 Behrouz 等人 (2024c) 報(bào)告。

6.1 語(yǔ)言建模與常識(shí)推理

我們遵循近期研究 (Behrouz 等人 2024c; Yang 等人 2024a,c)，首先關(guān)注語(yǔ)言建模的困惑度以及常識(shí)推理任務(wù)。Memora、Yaad、Moneta 以及參數(shù)量為 340M、760M 和 1.3B 的基線模型的結(jié)果在表 2 中報(bào)告。我們所有的變體都優(yōu)于所有基線，包括 Transformer++、現(xiàn)代線性循環(huán)模型和混合方法。相較于混合模型的優(yōu)越性能尤為重要，因?yàn)槲覀兯械淖凅w都是純循環(huán)的（無(wú)注意力機(jī)制）。在 Miras 的三個(gè)變體中，雖然 Moneta 的表現(xiàn)略弱于 Memora 和 Yaad，但其他兩個(gè)變體表現(xiàn)接近，并且根據(jù)任務(wù)和模型規(guī)模，最佳模型會(huì)有所不同。

6.2 擴(kuò)展規(guī)律

為了評(píng)估模型的擴(kuò)展規(guī)律并與基線進(jìn)行比較，本節(jié)中，我們繪制了它們?cè)诓煌Ｐ鸵?guī)模和上下文窗口下的性能表現(xiàn)。

上下文長(zhǎng)度。我們首先將訓(xùn)練上下文長(zhǎng)度從 2K 變化到 32K，對(duì)規(guī)模為 340M 和 760M 的兩個(gè)模型版本進(jìn)行評(píng)估。結(jié)果報(bào)告在圖 3（中和右）中。當(dāng)增加上下文長(zhǎng)度時(shí)，Miras 的所有三個(gè)變體都比最先進(jìn)的基線模型擴(kuò)展得更好。我們將這種優(yōu)越性能歸因于：(1) 富有表達(dá)力的記憶架構(gòu)。與使用向量值和矩陣值記憶的 Mamba2 和 GSA 等基線不同，我們的變體使用具有更強(qiáng)表達(dá)能力的 2 層 MLP 來(lái)從更長(zhǎng)的序列中學(xué)習(xí)。(2) 保留門(mén)和注意力偏差的選擇：我們所有的三個(gè)變體都超越了標(biāo)準(zhǔn)的注意力偏差和保留門(mén)。這些選擇可以幫助記憶更好地管理其固定大小的容量。

模型規(guī)模。我們還在圖 3（左）中報(bào)告了我們的模型和基線在 FLOPs 與困惑度方面的表現(xiàn)。在幾乎相同的 FLOPs 預(yù)算下，所有三個(gè)變體都優(yōu)于所有基線。這些結(jié)果再次支持了強(qiáng)大記憶設(shè)計(jì)的重要性。

6.3 大海撈針

為了評(píng)估我們的模型和基線的有效上下文窗口，我們使用“大海撈針”任務(wù)。在該任務(wù)中，我們?cè)u(píng)估模型從長(zhǎng)干擾文本（即“干草堆”）中檢索特定信息（即“針”）的能力。我們專(zhuān)注于 RULER 基準(zhǔn)測(cè)試 (Hsieh 等人 2024) 中的單針任務(wù) (S-NIAH)，并在長(zhǎng)度為 1K、2K、4K 和 8K 的序列上評(píng)估我們的模型和基線。結(jié)果報(bào)告在表 3 中。我們所有的變體都以相當(dāng)大的優(yōu)勢(shì)優(yōu)于所有基線。有趣的是，當(dāng)數(shù)據(jù)是合成噪聲（S-NIAH-PK）時(shí)，Moneta 表現(xiàn)出比其他模型更好的性能。這一觀察結(jié)果驗(yàn)證了 -范數(shù)目標(biāo)和保留門(mén)的有效性，因?yàn)樗鼈儗?duì)噪聲更加魯棒。

6.4 消融實(shí)驗(yàn)

在本節(jié)中，我們進(jìn)行消融實(shí)驗(yàn)，以驗(yàn)證本文中討論的不同設(shè)計(jì)選擇是否對(duì)實(shí)現(xiàn)更好的結(jié)果有積極貢獻(xiàn)。

p值對(duì)性能的影響。我們首先評(píng)估p值對(duì)Moneta性能的影響。我們將p值在{1, 1.5, 2, 2.8, 3, 3.2, 4}范圍內(nèi)變化，并將上下文窗口從2K調(diào)整至16K。結(jié)果如圖4所示。有趣的是，隨著p值增加，性能并未呈現(xiàn)單調(diào)變化趨勢(shì)，當(dāng)p=3時(shí)達(dá)到最佳性能，而p=4時(shí)性能最差。此外，盡管不同p值會(huì)導(dǎo)致具有不同性能的記憶模塊，但隨著上下文長(zhǎng)度增加，擴(kuò)展規(guī)律幾乎保持一致。

q值對(duì)性能的影響。類(lèi)似地，我們通過(guò)在{2, 3, 4, 5}范圍內(nèi)變化q值來(lái)評(píng)估其影響。有趣的是，與p值不同，q值能夠改變上下文長(zhǎng)度增加時(shí)的擴(kuò)展規(guī)律。這一現(xiàn)象的主要原因是q值決定了保留門(mén)的特性，一個(gè)強(qiáng)大的保留門(mén)可以改善記憶管理，從而帶來(lái)更好的性能表現(xiàn)。

設(shè)計(jì)選擇的影響。為了評(píng)估架構(gòu)設(shè)計(jì)選擇，我們對(duì)Yaad進(jìn)行了消融實(shí)驗(yàn)。結(jié)果見(jiàn)表4。第一行報(bào)告了Yaad的原始性能，而（1）第二行移除了保留機(jī)制（即設(shè)β=1），（2）第三行使δ參數(shù)獨(dú)立于輸入，（3）第三行從Huber損失中移除?2損失項(xiàng)，（4）第四行移除?1條件約束，（5）最后一行用線性層替換MLP。這些結(jié)果表明所有設(shè)計(jì)選擇都對(duì)模型性能具有貢獻(xiàn)。

7 結(jié)論

本文提出了一種通用框架 Miras，用于解釋在線優(yōu)化與測(cè)試時(shí)記憶化之間的關(guān)聯(lián)。Miras 框架能夠闡釋文獻(xiàn)中多種標(biāo)準(zhǔn)架構(gòu)選擇（例如遺忘門(mén)）的作用，并有助于設(shè)計(jì)能夠更有效管理記憶的新一代架構(gòu)。基于我們的框架，我們提出了三種新穎的序列模型，每種模型都具有其各自的優(yōu)勢(shì)與局限性。實(shí)驗(yàn)評(píng)估表明，在各種下游任務(wù)中，所有這些變體均優(yōu)于 Transformer 和線性 RNN。本研究通過(guò) Miras 展示了一系列多樣化的變體。未來(lái)，探索這些替代架構(gòu)在不同下游任務(wù)中的應(yīng)用是一個(gè)值得關(guān)注的研究方向。

原文鏈接：https://arxiv.org/pdf/2504.13173

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.