<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      M+框架來了,增加LLM隱空間記憶,不再受上下文窗口限制

      0
      分享至



      本文的第一作者Yu Wang來自加州大學圣地亞哥分校,主要研究方向為Memory for LLMs and Memory for LLM Agents. 該論文于2024年在MIT-IBM Waston Lab實習過程中完成,通訊作者Zexue He也畢業(yè)于加州大學圣地亞哥分校。

      M+是在 MemoryLLM 之上提出的長期隱空間記憶擴展框架:通過把「過期」隱藏向量寫入CPU - 側長期記憶池,再用協(xié)同檢索器拉回最相關記憶,它將 8 B 級模型的有效記憶跨度從原本不到 20 k tokens 提升到 160 k tokens 以上,同時顯存占用保持不變。



      • 論文標題:M+: Extending MemoryLLM with Scalable Long-Term Memory
      • 論文鏈接:https://arxiv.org/abs/2502.00592
      • 代碼倉庫:https://github.com/wangyu-ustc/MemoryLLM
      • 開源模型:https://huggingface.co/YuWangX/mplus-8b

      背景:上下文 ≠ 記憶 & 現(xiàn)有記憶模型的缺陷

      上下文窗口并不能直接等價于記憶。GPT-4.1 之類的模型即便支持 100 萬 token,也會隨窗口線性升高顯存與延遲,難以落地本地部署。

      業(yè)界主流做法是 “Token-Level Memory”:把歷史內容或三元組存在數(shù)據(jù)庫 / 向量庫,檢索后再拼接回 prompt;MemGPT等系統(tǒng)即屬此類。該類做法不需要重復訓練,直接結合 GPT-4 這樣的大模型便可以獲得很不錯的性能,但是,它也會有一些隨之而來的問題:(1)冗余:原始文本并非最緊湊表達,重復率高。(2)沖突難解:遇到相互矛盾或不斷更新的信息時,文本級沖突消解復雜。(3)多模態(tài)能力弱:由于數(shù)據(jù)庫格式為文本,處理音頻或者圖片,視頻數(shù)據(jù)將相對困難。

      因此,我們希望探索隱空間 (Latent-Space) 的 Memory -- 既壓縮又可端到端訓練,更接近人類在神經激活中存儲信息的方式。

      M + 的關鍵改進:Long-Term Memory

      在 MemoryLLM 中,我們?yōu)?8B 的 Llama3 模型引入了約 1.67B 的 Memory。Llama3-8B 的 Transformer 共包含 32 層。當?shù)谝粚咏邮盏皆~輸入后,會通過 Embedding 層將詞轉化為一系列 4096 維的向量?;谶@一特點,我們設計了 MemoryLLM,在每一層都加入 N 個 Memory Tokens(實驗中 N=12800)。在生成過程中,這些 Memory Tokens 會作為每一層的 Prefix,通過 Cross-Attention 將信息注入后續(xù)層,使模型能 “看到” 保存在 Memory Pool 中的歷史信息。



      在更新階段,我們會將每層 Memory Token 中最后 K 個(實驗中 K=256)與需要寫入的信息一同送入 Transformer,再次經過 Cross-Attention,將信息壓入新的 Memory Tokens 中(如下圖所示)。與此同時,我們在原有 Memory 中隨機丟棄 K 個舊 Token,并將新生成的 K 個 Token 放到 Memory 尾部,完成更新。



      基于這樣的設計,借助每層 12800 個 Memory Vectors,我們在 50k tokens 內都能保持良好的信息留存(最早 MemoryLLM-7B 版本只做到 20k,后續(xù)在 GitHub 提供的新版模型 https://github.com/wangyu-ustc/MemoryLLM 可達 50k)。然而,這樣的記憶容量仍無法滿足我們對更長序列的期待。要進一步擴展 Memory,單靠原有的 1.67B 容量已遠遠不夠,因此我們提出了Long-Term Memory。

      如何高效實現(xiàn) Long-Term Memory?考慮到 MemoryLLM 中每一個 Memory Token 本質上都來自 Hidden States,我們將那些在更新過程中被 “丟棄” 的 Memory Token 并非直接舍棄,而是將其保存在長期記憶池中(如下圖)。



      僅僅保存是不夠的,我們還需要具備強大的提取能力。最初我們嘗試用 Attention 來從長期記憶中檢索 Hidden States,但實驗表明 Attention 在提取 Hidden States 時效果有限(在論文的消融實驗中做了詳盡對比)。因此我們提出協(xié)同提取器(Co-trained Retriever),并與全模型進行聯(lián)合訓練(如下圖)。



      通過這一結構,我們將模型的有效記憶跨度從 50k 一舉提升到 160k,且由于 Memory 主要駐留在 CPU,不會顯著增加 GPU 負擔。

      M + 的實驗結果

      顯著性能提升及更少的 GPU 使用:在 Longbook-QA 和 Longbook-Event-QA 兩個數(shù)據(jù)集上,我們都在更少 GPU 的使用下(單卡 18GB 左右)獲得了更強大的性能。





      更強的信息留存能力:在 SQuAD 數(shù)據(jù)集上表現(xiàn)出遠超 MemoryLLM-7B 以及相關 ablation baseline 的信息留存能力,可以達到 160k 依舊不完全遺忘過去的信息。





      結語

      M+ 展示了我們在探索隱空間長期記憶領域的重要進展,也為下一代具備持續(xù)記憶能力的語言模型提供了堅實的技術支撐。未來,我們將繼續(xù)研究更高效的存儲機制、更智能的檢索策略,以及與多模態(tài)輸入更自然融合的隱空間記憶架構。在此方向上,M+ 不僅是對 MemoryLLM 的一次擴展,也是我們對 “讓模型擁有接近人類記憶能力” 這一愿景的又一次有力實踐。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      悲催!一男子露營為陌生女孩提供帳篷睡袋遭損壞,要賠償被罵拉黑

      悲催!一男子露營為陌生女孩提供帳篷睡袋遭損壞,要賠償被罵拉黑

      火山詩話
      2025-12-17 08:41:36
      中國已經提前準備好,開戰(zhàn)之后的第一件事,先廢掉美國的“星鏈”

      中國已經提前準備好,開戰(zhàn)之后的第一件事,先廢掉美國的“星鏈”

      科普100克克
      2025-12-17 01:07:54
      不死癌癥、千年老二,被傳“掏空家產”的周杰倫,生活早已大變樣

      不死癌癥、千年老二,被傳“掏空家產”的周杰倫,生活早已大變樣

      冷紫葉
      2025-12-17 20:17:39
      性能力與壽命關系被發(fā)現(xiàn)!男性40歲后,睪酮越高,死亡風險越低

      性能力與壽命關系被發(fā)現(xiàn)!男性40歲后,睪酮越高,死亡風險越低

      藥師說健康
      2025-12-05 09:47:10
      26歲女子顏值秒殺女明星,男子相中才知東莞工作,要求男方月薪1.5w

      26歲女子顏值秒殺女明星,男子相中才知東莞工作,要求男方月薪1.5w

      趣筆談
      2025-12-16 22:57:31
      刺激夜:巴塞羅那2-0晉級,切爾西3-1晉級,埃因霍溫3-0晉級,埃及2-1

      刺激夜:巴塞羅那2-0晉級,切爾西3-1晉級,埃因霍溫3-0晉級,埃及2-1

      側身凌空斬
      2025-12-17 06:32:05
      嫁法國老頭真相大白僅五個月,41歲李宇春最近動態(tài)曝出,令人唏噓

      嫁法國老頭真相大白僅五個月,41歲李宇春最近動態(tài)曝出,令人唏噓

      涵豆說娛
      2025-12-16 16:32:46
      中央財辦:有關方面正在制定北京(京津冀)、上海(長三角)國際科技創(chuàng)新中心建設方案

      中央財辦:有關方面正在制定北京(京津冀)、上海(長三角)國際科技創(chuàng)新中心建設方案

      界面新聞
      2025-12-16 21:26:50
      86年洪學智訪美,美上將嘲諷:你哪個大學畢業(yè)的?洪學智:美國空軍大學!美軍當場啞火

      86年洪學智訪美,美上將嘲諷:你哪個大學畢業(yè)的?洪學智:美國空軍大學!美軍當場啞火

      歷史回憶室
      2025-12-13 13:56:13
      打臉電視劇,這才是太平天國真正的王爺,臉上刀疤讓特效黯然失色

      打臉電視劇,這才是太平天國真正的王爺,臉上刀疤讓特效黯然失色

      情感大頭說說
      2025-12-16 15:41:48
      騙走 80 后眼淚的神片:《媽媽再愛我一次》,中年再看全是PUA

      騙走 80 后眼淚的神片:《媽媽再愛我一次》,中年再看全是PUA

      白羽居士
      2025-12-09 18:38:18
      蘋果官方回應與安卓互通:僅為測試版,正式版不一定上線

      蘋果官方回應與安卓互通:僅為測試版,正式版不一定上線

      PChome電腦之家
      2025-12-17 14:29:43
      英國首相這一招屬實沒想到,把訪華當成開玩笑?

      英國首相這一招屬實沒想到,把訪華當成開玩笑?

      談芯說科技
      2025-12-17 19:46:11
      黎智英被定罪,兒子:希望各國權衡與中國關系時,再提釋放父親。

      黎智英被定罪,兒子:希望各國權衡與中國關系時,再提釋放父親。

      南權先生
      2025-12-17 16:51:04
      南海撞機王偉成功跳傘,咋10萬人都找不到他?直到20多年后才明白

      南海撞機王偉成功跳傘,咋10萬人都找不到他?直到20多年后才明白

      鶴羽說個事
      2025-12-12 14:31:49
      女教師跳樓身亡,更多細節(jié)流出,疑被逼上婚車,跳樓前說換衣服

      女教師跳樓身亡,更多細節(jié)流出,疑被逼上婚車,跳樓前說換衣服

      阿纂看事
      2025-12-16 09:39:55
      突發(fā)!賴清德開始抓人,國民黨13人被帶走,鄭麗怒批賴清德13分鐘

      突發(fā)!賴清德開始抓人,國民黨13人被帶走,鄭麗怒批賴清德13分鐘

      觸摸史跡
      2025-12-17 19:06:28
      笑了!柬泰沖突后,泰國駐華大使館微博下面,全是一樣的評論

      笑了!柬泰沖突后,泰國駐華大使館微博下面,全是一樣的評論

      消失的電波
      2025-12-15 14:10:23
      6分鐘4犯2場9犯!焦泊喬為何打成了大番薯?粵迷:杜鋒別再罵他了

      6分鐘4犯2場9犯!焦泊喬為何打成了大番薯?粵迷:杜鋒別再罵他了

      后仰大風車
      2025-12-17 07:10:06
      高市早苗妄稱臺灣問題應通過對話和平解決,國臺辦答澎湃

      高市早苗妄稱臺灣問題應通過對話和平解決,國臺辦答澎湃

      澎湃新聞
      2025-12-17 10:52:26
      2025-12-17 21:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11943文章數(shù) 142512關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      美方威脅歐盟:點名了 別逼我動手

      頭條要聞

      美方威脅歐盟:點名了 別逼我動手

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態(tài) 長城歐拉5上市 限時9.18萬元起

      態(tài)度原創(chuàng)

      旅游
      游戲
      房產
      健康
      手機

      旅游要聞

      “旅超”大賽賦能申城假日游,元旦、春節(jié)假期玩法煥新

      獵魂世界:少女比比東技能信息匯總!第七大中毒流派正式降臨!

      房產要聞

      封關前夕!豪庭銘苑超前交付,敬呈海口生活新范本

      這些新療法,讓化療不再那么痛苦

      手機要聞

      一加 Ace 6T,165Hz電競屏+8300mAh電池,2000元檔高性價比之選

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲欧美成人一区二区三区| 日韩在线视频线观看一区| 午夜福利92国语| 亚洲色www永久网站| 中文字幕丰满乱子无码视频| 天天色成人| 中文字幕乱码亚洲中文在线| 人妻熟人中文字幕一区二区| 亚洲国产av无码综合原创国产| 亚洲熟妇久久精品| 亚洲成av人片大线观看| 久久躁日日躁AAAAXXXX| 91你懂的| 另类一区| 欧美人与禽ZoZ0| Jizz日本18| 亚洲色七七| 亚洲精品久久久久久久久久吃药| 亚洲毛多水多男女| 五月综合色| 国产精品18久久久久久麻辣| 国产欧美日韩免费看AⅤ视频| 四虎影视库国产精品一区| 一区二区三区国产亚洲网站| 啊灬啊灬啊灬快灬高潮了电影片段 | 无码中文av有码中文a| 麻豆tv入口在线看| 义马市| 一区二区三区四区视频| 日韩亚洲国产综合高清| 亚洲精品视频免费| 中文字幕久久久久人妻中出| 文中字幕一区二区三区视频播放| 中文字幕熟女人妻丝袜| 日韩无码毛片| 欧美综合图区| 天天插天天透| 69精品丰满人妻无码视频a片| 亚洲熟妇自偷自拍另欧美| 精品国产一区二区三区国产馆| 久久久国产精品消防器材|