<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      為什么這篇谷歌論文被稱為「Attention is all you need」V2

      0
      分享至

      從小老師就愛說“好記性不如爛筆頭”,那么我們為什么不給有“記憶缺陷”的大模型配一個小本本記上總結歸納的要點呢?

      繼著名的“Attention Is All You Need”之后,谷歌新論文再度引爆圈內:我們可能忽略了AI的“另一半大腦”

      這篇文章題為
      嵌套學習:深度學習架構的幻象(Nested Learning: The Illusion of Deep Learning Architectures)
      在圈內被譽為是“Attention is all you need”V2



      失憶的巨人

      你是否曾對AI感到一絲“恨鐵不成鋼”?你剛剛在對話中詳細解釋過一個概念,三句話之后它就可能完全遺忘,仿佛從未發生。ChatGPT們上知天文下知地理,卻學不會你今天剛教它的一件小事。



      這并非偶然的Bug,而是當前所有大型語言模型(LLMs)共同的“先天疾病”——數字失憶癥

      為了“治療”它,過去十年,整個行業幾乎只遵循一條黃金定律:把模型做得更深、更大。我們不斷堆疊Transformer層,追逐萬億參數,相信“規模即智能”,期待著記憶相關的能力也能“涌現”出來。

      但是,這個努力方向有著明顯的問題:僅提高算法復雜度可能并不會使能力顯著提升

      具體而言,深度模型的計算深度可能不會隨著層數的增加而改變,模型的擴大對某些參數的容量提升影響十分有限,快速適應新任務、持續學習以及泛化性也很難通過參數量堆疊“自發涌現”。另外,受限于優化器,訓練過程可能收斂到一個次優解。

      近日,谷歌一項顛覆性的研究指出,我們可能忽略了一個與“深度”同等重要、甚至更為根本的維度

      這項名為“嵌套學習”的研究,正以燎原之勢在學術圈內引發地震。許多資深研究者將其私下稱為“Attention is All You Need” V2。它沒有提出新的炫酷模塊,而是試圖回答了那個最根本的問題:機器學習的本質,究竟是什么?

      優化器竟是記憶體

      一切顛覆性的認知,往往始于對常識的重新審視。研究團隊選擇了一個最基礎、最不被注意的起點:優化器

      無論是經典的隨機梯度下降,還是如今廣泛使用的Adam,我們都將其視為訓練模型的“引擎”或“導航儀”——它計算梯度,指引參數朝損失下降的方向前進,僅此而已。

      然而,這篇論文給出了一個反直覺的證明:主流的優化器本身,就是一個持續進行著“記憶”的關聯記憶系統

      這是什么意思?想象一下,優化器不僅在看當前的路況(即時梯度),它內部還有一個默默做筆記的黑盒子。這個盒子不斷壓縮、存儲一路走來所有梯度變化的“模式”與歷史。當我們以為自己在做“訓練模型”這一件事時,實際上已經不知不覺地運行了多個嵌套的、在不同時間尺度上并行的小型學習程序

      這個發現,成為了撬動整個新范式的支點。它意味著,從最底層的優化器,到中層的注意力機制,再到整個神經網絡,都可以被統一地重新審視——它們不再是功能各異被拼湊起來的零件,而是在不同速度、不同抽象層級上,嵌套運行的“學習-記憶”模塊

      我們熟悉的、引以為傲的“深度學習”體系,從這個全新的視角看,僅僅是這個更宏大、更立體范式的一個扁平化投影



      缺失的維度

      基于這一核心洞察,論文提出了一個簡潔而深刻的新范式:嵌套學習。它認為,真正有效的智能學習需要兩個正交的維度:

      1. 深度:即模型的層數與容量,這是我們過去十年全力拓展的。

      2. 頻率:即模型內部組件自我更新的節奏與速度,這是我們先前幾乎完全忽略的。

      人工智能的進步常受到人腦的啟發,這次也不例外。

      人類之所以能持續學習、終身成長,是因為大腦同時用多種“生物時鐘”在工作。有些神經元回路快速反應,處理瞬息萬變的感官信息(如正在進行對話);有些則緩慢而堅定地鞏固,將重要模式沉淀為長期知識或技能。這是一個連續、平滑的時間頻譜,信息在不同頻率的“通道”間有序流動、加工和儲存。

      而當前的大模型就像得了“順行性失憶癥”,這種病的患者在病癥發作后無法形成新的長期記憶,但此前的既有記憶則保持完好。這種狀況將患者的知識與體驗局限在兩個時間片段:一個是很久遠的過去(發病之前),另一個是極其短暫的現在。患者會不斷地經歷每一個“當下”,仿佛它們永遠是嶄新的、無法被記住的。

      這與當前的大模型情況相似,只有兩種極端的工作頻率:一種是快速響應但轉瞬即逝的對話緩存,另一種是在預訓練完成后便凍結的長期知識。它嚴重缺失了中間所有頻譜的“記憶通道”。因此,任何新知識都無處安放,要么在對話結束后遺忘,要么覆蓋舊記憶為代價以高昂的計算成本更新——這正是“數字失憶癥”的根源。



      HOPE與連續記憶光譜

      全新的理論,需要全新的架構來證明。基于“嵌套學習”范式,研究團隊構建了名為HOPE的新型架構。其核心創新是一個連續記憶系統

      這不再是一兩個孤立的記憶模塊,而是一系列像光譜一樣排列的MLP模塊。每個模塊都以預設的、不同的頻率進行更新。信息輸入后,會在這些不同節奏的記憶模塊間自動流動與分配:

      高頻模塊像“工作記憶”,快速捕捉對話中的即時細節與上下文。

      中頻模塊像“近期記憶”,負責提煉和歸納一段時間內出現的模式。

      低頻模塊像“長期記憶”,緩慢而穩定地將最重要的知識沉淀為模型固有能力。

      這個過程,高度模仿了神經科學中信息從海馬體向新皮層轉移、鞏固的經典機制。在初步實驗中,HOPE已經在標準語言建模和常識推理任務上展現了強大的競爭力。



      更重要的是,它顯露出了解決持續學習問題的巨大潛力——新知識可以在這條“記憶光譜”上找到自己合適的位置,被漸進式地消化吸收,而非引發系統性的崩潰或遺忘。

      一場靜待發生的范式轉移

      “嵌套學習”的價值,或許不在于明天就取代Transformer,成為大模型的主流骨架。它的深遠意義在于,提供了一套全新的設計邏輯和思考框架

      它的成功啟示我們,下一代AI的突破,不一定依賴于發明更復雜的“神經元積木”,而在于為AI設計一套能激發潛能的框架。這正是其被譽為“V2”的原因——如同2017年“注意力”機制統一了序列建模的視野,“嵌套學習”正試圖為學習過程本身,構建一個統一、可解釋的“白箱”模型。

      當然,這仍是非常前沿的探索,這場關于“記憶”與“學習”本質的重新思考,才剛剛拉開序幕。人工智能的未來,或許不僅需要更深的網絡,更需要一個能夠學習和演化的系統,而不僅僅是作為一個靜止的、被凝固在訓練完成那一刻的“知識琥珀”

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      1971年,劉思齊入獄后向毛主席求救,毛澤東最高指示:娃娃們無罪

      1971年,劉思齊入獄后向毛主席求救,毛澤東最高指示:娃娃們無罪

      鶴羽說個事
      2025-12-29 15:38:35
      劉邦為呂雉洗腳,發現足底黑痣,當夜血洗皇后寢宮,14宮人喪命

      劉邦為呂雉洗腳,發現足底黑痣,當夜血洗皇后寢宮,14宮人喪命

      星宇共鳴
      2025-12-26 10:06:16
      天大的鍋!費德勒因瑞士旅游熱潮遭祖國政府高層批評

      天大的鍋!費德勒因瑞士旅游熱潮遭祖國政府高層批評

      網球之家
      2025-12-29 13:19:18
      被處分僅1月,張水華官宣新賽事!時間線曝光,白巖松果然沒說錯

      被處分僅1月,張水華官宣新賽事!時間線曝光,白巖松果然沒說錯

      李健政觀察
      2025-12-29 16:32:30
      政壇頂級抽象:愛潑斯坦案機密,被網友一秒破解

      政壇頂級抽象:愛潑斯坦案機密,被網友一秒破解

      酷玩實驗室
      2025-12-29 11:28:42
      可以「追殺」徐鶯,誰敢奈何「康生」?

      可以「追殺」徐鶯,誰敢奈何「康生」?

      家傳編輯部
      2025-12-28 09:37:04
      李宗仁歸國之后,希望能出任人大副委員長一職,毛主席卻給出了三條關鍵理由,直言此事并不合適

      李宗仁歸國之后,希望能出任人大副委員長一職,毛主席卻給出了三條關鍵理由,直言此事并不合適

      史海孤雁
      2025-12-25 16:48:16
      五點圍島 解放軍的兩面“盾牌”有何玄機?

      五點圍島 解放軍的兩面“盾牌”有何玄機?

      看看新聞Knews
      2025-12-29 23:41:03
      《新聞聯播》放了這段畫面!無人機俯瞰臺北101

      《新聞聯播》放了這段畫面!無人機俯瞰臺北101

      看看新聞Knews
      2025-12-30 00:21:18
      美軍悍然扣押中方油輪!大陸攔截美對臺島軍售的船只,時機已到了

      美軍悍然扣押中方油輪!大陸攔截美對臺島軍售的船只,時機已到了

      趣文說娛
      2025-12-26 15:22:25
      日本天塌了?我國正式宣布這一決定!網友表示:早該這樣了!

      日本天塌了?我國正式宣布這一決定!網友表示:早該這樣了!

      愛吃醋的貓咪
      2025-12-29 19:54:22
      央視:王楚欽已和國家隊教練組充分溝通,明年1月不參加比賽

      央視:王楚欽已和國家隊教練組充分溝通,明年1月不參加比賽

      懂球帝
      2025-12-29 12:46:11
      日本擁核已進入倒計時?殘酷現實:我們可能真的攔不住

      日本擁核已進入倒計時?殘酷現實:我們可能真的攔不住

      遠方風林
      2025-12-27 19:03:37
      特朗普大膽開麥,美國已替代聯合國,中方警告:臺島或將成火藥桶

      特朗普大膽開麥,美國已替代聯合國,中方警告:臺島或將成火藥桶

      博覽歷史
      2025-12-29 18:27:35
      43歲賈玲近況:退出春晚、淡出綜藝,解散公司,她把自己作沒了?

      43歲賈玲近況:退出春晚、淡出綜藝,解散公司,她把自己作沒了?

      夢錄的西方史話
      2025-12-22 18:47:01
      大羅:當年我賽前豪言要戴帽,結果在場上對手差點把我牙打掉

      大羅:當年我賽前豪言要戴帽,結果在場上對手差點把我牙打掉

      懂球帝
      2025-12-29 17:36:55
      “黃河畫家”徐惠君126平尺巨幅畫作被人無意“潑墨”,本人稱:該畫作估價380萬元,不會追查肇事者,希望網友提供補救建議,讓墨漬成為神來之筆

      “黃河畫家”徐惠君126平尺巨幅畫作被人無意“潑墨”,本人稱:該畫作估價380萬元,不會追查肇事者,希望網友提供補救建議,讓墨漬成為神來之筆

      極目新聞
      2025-12-29 20:27:57
      聯合國都未承認的事,日本稱“毫無疑問”,中方一句話讓日媒破防

      聯合國都未承認的事,日本稱“毫無疑問”,中方一句話讓日媒破防

      蘇浩
      2025-12-30 09:00:05
      快訊/曹西平深夜驚傳家中離世!享壽66歲 前天才發文感嘆地震

      快訊/曹西平深夜驚傳家中離世!享壽66歲 前天才發文感嘆地震

      ETtoday星光云
      2025-12-30 07:06:11
      亞洲周刊再報猛料,為成功出手龐來臣虛藏品,聯手篡改民國史。

      亞洲周刊再報猛料,為成功出手龐來臣虛藏品,聯手篡改民國史。

      百態人間
      2025-12-29 16:47:24
      2025-12-30 10:23:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11942文章數 176346關注度
      往期回顧 全部

      科技要聞

      Manus官宣加入Meta,收購金額達數十億美金

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      體育要聞

      “史上最貴”的世界杯,球迷成了韭菜

      娛樂要聞

      44歲林俊杰官宣戀情 帶23歲女友見家長

      財經要聞

      翁杰明:宏觀數據與居民微觀感受存在差距

      汽車要聞

      “路”要越走越深,猛士的智能越野時代來了

      態度原創

      本地
      家居
      手機
      藝術
      公開課

      本地新聞

      即將過去的2025年,對重慶的影響竟然如此深遠

      家居要聞

      東方雅韻 溫馨恬適

      手機要聞

      5倍差價!9999元iPhone對決1999元榮耀,設計同優秀誰更值?

      藝術要聞

      毛主席寫給表兄的信,認全字才能算行家,你能行嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久99日韩国产精品久久99| 石城县| caoporn国产| 日本中文字幕a√在线| 狠狠色丁香久久婷婷综合五月| 人妻白浆-ThePorn| 337p粉嫩大胆噜噜噜| 亚洲AV色图| 人人综合亚洲无线码另类| 国产女人高潮视频在线观看| 中文字幕精品久久久久人妻| 人妻无码av中文系列久| 亚洲精品国产一区黑色丝袜 | 佛山市| 巨鹿县| 日韩亚洲精品一卡二卡| 亚洲精品色在线网站| 天堂…中文在线最新版在线 | 亚洲自拍偷拍激情视频| 日韩精品人妻中文字幕有码| 久草福利资源站| 91精品在线播放| 色啪综合| AV探花| 神农架林区| 97人妻精品一区二区三区| 亚洲欧美精品综合在线观看| 麻豆 美女 丝袜 人妻 中文| 女子spa高潮呻吟抽搐| 天美传媒mv免费观看完整| 国产一区二区不卡在线| 亚洲av中文| 国产精品久久久久电影| 97福利视频| 国产一卡二卡在线| 在线人人车操人人看视频| 久久不见久久见免费影院www日本 亚洲综合精品一区二区三区 | 自拍视频在线观看成人| av四虎| 温泉县| 亚洲色大成网站www永久一区|