<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      為什么這篇谷歌論文被稱為「Attention is all you need」V2

      0
      分享至

      從小老師就愛說“好記性不如爛筆頭”,那么我們?yōu)槭裁床唤o有“記憶缺陷”的大模型配一個小本本記上總結(jié)歸納的要點呢?

      繼著名的“Attention Is All You Need”之后,谷歌新論文再度引爆圈內(nèi):我們可能忽略了AI的“另一半大腦”

      這篇文章題為
      嵌套學(xué)習(xí):深度學(xué)習(xí)架構(gòu)的幻象(Nested Learning: The Illusion of Deep Learning Architectures)
      在圈內(nèi)被譽為是“Attention is all you need”V2



      失憶的巨人

      你是否曾對AI感到一絲“恨鐵不成鋼”?你剛剛在對話中詳細(xì)解釋過一個概念,三句話之后它就可能完全遺忘,仿佛從未發(fā)生。ChatGPT們上知天文下知地理,卻學(xué)不會你今天剛教它的一件小事。



      這并非偶然的Bug,而是當(dāng)前所有大型語言模型(LLMs)共同的“先天疾病”——數(shù)字失憶癥

      為了“治療”它,過去十年,整個行業(yè)幾乎只遵循一條黃金定律:把模型做得更深、更大。我們不斷堆疊Transformer層,追逐萬億參數(shù),相信“規(guī)模即智能”,期待著記憶相關(guān)的能力也能“涌現(xiàn)”出來。

      但是,這個努力方向有著明顯的問題:僅提高算法復(fù)雜度可能并不會使能力顯著提升

      具體而言,深度模型的計算深度可能不會隨著層數(shù)的增加而改變,模型的擴大對某些參數(shù)的容量提升影響十分有限,快速適應(yīng)新任務(wù)、持續(xù)學(xué)習(xí)以及泛化性也很難通過參數(shù)量堆疊“自發(fā)涌現(xiàn)”。另外,受限于優(yōu)化器,訓(xùn)練過程可能收斂到一個次優(yōu)解。

      近日,谷歌一項顛覆性的研究指出,我們可能忽略了一個與“深度”同等重要、甚至更為根本的維度

      這項名為“嵌套學(xué)習(xí)”的研究,正以燎原之勢在學(xué)術(shù)圈內(nèi)引發(fā)地震。許多資深研究者將其私下稱為“Attention is All You Need” V2。它沒有提出新的炫酷模塊,而是試圖回答了那個最根本的問題:機器學(xué)習(xí)的本質(zhì),究竟是什么?

      優(yōu)化器竟是記憶體

      一切顛覆性的認(rèn)知,往往始于對常識的重新審視。研究團隊選擇了一個最基礎(chǔ)、最不被注意的起點:優(yōu)化器

      無論是經(jīng)典的隨機梯度下降,還是如今廣泛使用的Adam,我們都將其視為訓(xùn)練模型的“引擎”或“導(dǎo)航儀”——它計算梯度,指引參數(shù)朝損失下降的方向前進,僅此而已。

      然而,這篇論文給出了一個反直覺的證明:主流的優(yōu)化器本身,就是一個持續(xù)進行著“記憶”的關(guān)聯(lián)記憶系統(tǒng)

      這是什么意思?想象一下,優(yōu)化器不僅在看當(dāng)前的路況(即時梯度),它內(nèi)部還有一個默默做筆記的黑盒子。這個盒子不斷壓縮、存儲一路走來所有梯度變化的“模式”與歷史。當(dāng)我們以為自己在做“訓(xùn)練模型”這一件事時,實際上已經(jīng)不知不覺地運行了多個嵌套的、在不同時間尺度上并行的小型學(xué)習(xí)程序

      這個發(fā)現(xiàn),成為了撬動整個新范式的支點。它意味著,從最底層的優(yōu)化器,到中層的注意力機制,再到整個神經(jīng)網(wǎng)絡(luò),都可以被統(tǒng)一地重新審視——它們不再是功能各異被拼湊起來的零件,而是在不同速度、不同抽象層級上,嵌套運行的“學(xué)習(xí)-記憶”模塊

      我們熟悉的、引以為傲的“深度學(xué)習(xí)”體系,從這個全新的視角看,僅僅是這個更宏大、更立體范式的一個扁平化投影



      缺失的維度

      基于這一核心洞察,論文提出了一個簡潔而深刻的新范式:嵌套學(xué)習(xí)。它認(rèn)為,真正有效的智能學(xué)習(xí)需要兩個正交的維度:

      1. 深度:即模型的層數(shù)與容量,這是我們過去十年全力拓展的。

      2. 頻率:即模型內(nèi)部組件自我更新的節(jié)奏與速度,這是我們先前幾乎完全忽略的。

      人工智能的進步常受到人腦的啟發(fā),這次也不例外。

      人類之所以能持續(xù)學(xué)習(xí)、終身成長,是因為大腦同時用多種“生物時鐘”在工作。有些神經(jīng)元回路快速反應(yīng),處理瞬息萬變的感官信息(如正在進行對話);有些則緩慢而堅定地鞏固,將重要模式沉淀為長期知識或技能。這是一個連續(xù)、平滑的時間頻譜,信息在不同頻率的“通道”間有序流動、加工和儲存。

      而當(dāng)前的大模型就像得了“順行性失憶癥”,這種病的患者在病癥發(fā)作后無法形成新的長期記憶,但此前的既有記憶則保持完好。這種狀況將患者的知識與體驗局限在兩個時間片段:一個是很久遠的過去(發(fā)病之前),另一個是極其短暫的現(xiàn)在。患者會不斷地經(jīng)歷每一個“當(dāng)下”,仿佛它們永遠是嶄新的、無法被記住的。

      這與當(dāng)前的大模型情況相似,只有兩種極端的工作頻率:一種是快速響應(yīng)但轉(zhuǎn)瞬即逝的對話緩存,另一種是在預(yù)訓(xùn)練完成后便凍結(jié)的長期知識。它嚴(yán)重缺失了中間所有頻譜的“記憶通道”。因此,任何新知識都無處安放,要么在對話結(jié)束后遺忘,要么覆蓋舊記憶為代價以高昂的計算成本更新——這正是“數(shù)字失憶癥”的根源。



      HOPE與連續(xù)記憶光譜

      全新的理論,需要全新的架構(gòu)來證明。基于“嵌套學(xué)習(xí)”范式,研究團隊構(gòu)建了名為HOPE的新型架構(gòu)。其核心創(chuàng)新是一個連續(xù)記憶系統(tǒng)

      這不再是一兩個孤立的記憶模塊,而是一系列像光譜一樣排列的MLP模塊。每個模塊都以預(yù)設(shè)的、不同的頻率進行更新。信息輸入后,會在這些不同節(jié)奏的記憶模塊間自動流動與分配:

      高頻模塊像“工作記憶”,快速捕捉對話中的即時細(xì)節(jié)與上下文。

      中頻模塊像“近期記憶”,負(fù)責(zé)提煉和歸納一段時間內(nèi)出現(xiàn)的模式。

      低頻模塊像“長期記憶”,緩慢而穩(wěn)定地將最重要的知識沉淀為模型固有能力。

      這個過程,高度模仿了神經(jīng)科學(xué)中信息從海馬體向新皮層轉(zhuǎn)移、鞏固的經(jīng)典機制。在初步實驗中,HOPE已經(jīng)在標(biāo)準(zhǔn)語言建模和常識推理任務(wù)上展現(xiàn)了強大的競爭力。



      更重要的是,它顯露出了解決持續(xù)學(xué)習(xí)問題的巨大潛力——新知識可以在這條“記憶光譜”上找到自己合適的位置,被漸進式地消化吸收,而非引發(fā)系統(tǒng)性的崩潰或遺忘。

      一場靜待發(fā)生的范式轉(zhuǎn)移

      “嵌套學(xué)習(xí)”的價值,或許不在于明天就取代Transformer,成為大模型的主流骨架。它的深遠意義在于,提供了一套全新的設(shè)計邏輯和思考框架

      它的成功啟示我們,下一代AI的突破,不一定依賴于發(fā)明更復(fù)雜的“神經(jīng)元積木”,而在于為AI設(shè)計一套能激發(fā)潛能的框架。這正是其被譽為“V2”的原因——如同2017年“注意力”機制統(tǒng)一了序列建模的視野,“嵌套學(xué)習(xí)”正試圖為學(xué)習(xí)過程本身,構(gòu)建一個統(tǒng)一、可解釋的“白箱”模型。

      當(dāng)然,這仍是非常前沿的探索,這場關(guān)于“記憶”與“學(xué)習(xí)”本質(zhì)的重新思考,才剛剛拉開序幕。人工智能的未來,或許不僅需要更深的網(wǎng)絡(luò),更需要一個能夠?qū)W習(xí)和演化的系統(tǒng),而不僅僅是作為一個靜止的、被凝固在訓(xùn)練完成那一刻的“知識琥珀”

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      信號!滬媒首曝國乒教練職責(zé):據(jù)此秦志戩當(dāng)總教練,馬琳副總教練

      信號!滬媒首曝國乒教練職責(zé):據(jù)此秦志戩當(dāng)總教練,馬琳副總教練

      籃球看比賽
      2025-12-21 13:19:00
      演員王傳君發(fā)文宣布退出

      演員王傳君發(fā)文宣布退出

      民間平哥
      2025-12-19 15:41:11
      28年前直播香港回歸4位主持人,2人去世1人墮落,僅一人順利退休

      28年前直播香港回歸4位主持人,2人去世1人墮落,僅一人順利退休

      小熊侃史
      2025-12-19 11:04:51
      私密的權(quán)力:包臀裙與我的靜默角力

      私密的權(quán)力:包臀裙與我的靜默角力

      疾跑的小蝸牛
      2025-12-21 20:30:47
      石宇奇衛(wèi)冕失敗!第二局0-7崩盤手腕明顯不適 祝賀波波夫顯格局

      石宇奇衛(wèi)冕失敗!第二局0-7崩盤手腕明顯不適 祝賀波波夫顯格局

      顏小白的籃球夢
      2025-12-21 19:37:05
      若沒有尸檢,小洛熙的去世只歸結(jié)為手術(shù)風(fēng)險

      若沒有尸檢,小洛熙的去世只歸結(jié)為手術(shù)風(fēng)險

      慕容律師
      2025-12-20 21:08:21
      空砍36+4+3!我們被打爆了,詹姆斯賽后不滿發(fā)聲,而哈登把話挑明

      空砍36+4+3!我們被打爆了,詹姆斯賽后不滿發(fā)聲,而哈登把話挑明

      金風(fēng)說
      2025-12-21 20:06:34
      有色不是普漲主線!這4個被低估小金屬,才是真機會

      有色不是普漲主線!這4個被低估小金屬,才是真機會

      雙色球的方向舵
      2025-12-21 00:59:11
      太搞笑!全紅嬋到京后,陳若琳肉眼可見的慌張,連連擺手拒絕禮物

      太搞笑!全紅嬋到京后,陳若琳肉眼可見的慌張,連連擺手拒絕禮物

      做一個合格的吃瓜群眾
      2025-12-21 16:15:07
      明年繼續(xù)漲養(yǎng)老金?3500元以下漲300,7000元以上不漲可以嗎?

      明年繼續(xù)漲養(yǎng)老金?3500元以下漲300,7000元以上不漲可以嗎?

      王五說說看
      2025-12-21 09:04:57
      張凱毅撒謊!黃金鳳冠被實錘3D打印,設(shè)計師下場打假,工費很低廉

      張凱毅撒謊!黃金鳳冠被實錘3D打印,設(shè)計師下場打假,工費很低廉

      小海娛計
      2025-12-19 10:38:27
      工信部發(fā)話:老百姓要什么,就造什么樣的電動車

      工信部發(fā)話:老百姓要什么,就造什么樣的電動車

      老特有話說
      2025-12-20 22:13:36
      1959 年,特赦后的邱行湘打算去做搬運工糊口,周總理了解情況后告訴他:“你是國家干部啊!”

      1959 年,特赦后的邱行湘打算去做搬運工糊口,周總理了解情況后告訴他:“你是國家干部啊!”

      源溯歷史
      2025-12-21 15:01:27
      按薄一波的資歷,假如參加55年授銜,能不能被授予“開國大將”?

      按薄一波的資歷,假如參加55年授銜,能不能被授予“開國大將”?

      鶴羽說個事
      2025-12-20 11:25:04
      45歲演員張柏芝稱已立好遺囑,演員寧靜認(rèn)同,稱現(xiàn)在立遺囑不算早,強調(diào)人死后“不能留下一屁股債”

      45歲演員張柏芝稱已立好遺囑,演員寧靜認(rèn)同,稱現(xiàn)在立遺囑不算早,強調(diào)人死后“不能留下一屁股債”

      極目新聞
      2025-12-21 15:34:48
      突發(fā)!益陽女孩豆豆去世,年僅7歲,發(fā)燒僅1天,11月視頻一語成讖

      突發(fā)!益陽女孩豆豆去世,年僅7歲,發(fā)燒僅1天,11月視頻一語成讖

      鋭娛之樂
      2025-12-21 15:48:01
      袁紹麾下3支超級精銳,其中兩支是雇傭兵,如何被曹操輕松打垮?

      袁紹麾下3支超級精銳,其中兩支是雇傭兵,如何被曹操輕松打垮?

      大千世界觀
      2025-12-20 19:08:34
      看CPTPP契約精神與WTO誠信原則解讀東西社會文化的差異

      看CPTPP契約精神與WTO誠信原則解讀東西社會文化的差異

      說故事的阿襲
      2025-12-16 10:07:38
      時代少年團缺席星光大賞舞臺引爭議:5842萬星光值為何換不來一個表演機會?

      時代少年團缺席星光大賞舞臺引爭議:5842萬星光值為何換不來一個表演機會?

      歷史滴溫度
      2025-12-21 18:51:10
      不敢置信!知名演員霍思燕帶狗狗拿國際冠軍!網(wǎng)友卻吵起來了!

      不敢置信!知名演員霍思燕帶狗狗拿國際冠軍!網(wǎng)友卻吵起來了!

      阿訊說天下
      2025-12-21 11:53:00
      2025-12-21 21:23:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      11890文章數(shù) 176340關(guān)注度
      往期回顧 全部

      科技要聞

      生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個應(yīng)用

      頭條要聞

      妻兒三人被發(fā)小入室殺害 家屬:兇手還假裝毫不知情

      頭條要聞

      妻兒三人被發(fā)小入室殺害 家屬:兇手還假裝毫不知情

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      星光大賞太尷尬!搶話擋鏡頭,場地還小

      財經(jīng)要聞

      老房子“強制體檢”,政府出手了

      汽車要聞

      -30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

      態(tài)度原創(chuàng)

      游戲
      親子
      健康
      本地
      公開課

      德瑪西亞杯:讓一追二,EDG三局戰(zhàn)勝LGD

      親子要聞

      Who can resist the piano romance from a 3-year-old...

      這些新療法,讓化療不再那么痛苦

      本地新聞

      云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 万州区| 国产av激情久久无码天堂| a毛片免费在线观看| 69国产精品久久久久久人| 国产精品美女久久久| XXXX18HD亚州护土| 国产麻豆天美果冻无码视频| 久久人精品| 东北妇女精品bbwbbw| 日本成人有码在线视频| 日本体内she精高潮| 成人看的污污超级黄网站免费| 伊人综合成人| 欧美阿v视频| 国产乱码精品一区二区三| 白城市| 国产午夜亚洲精品久久| 亚洲三区在线观看无套内射| 日本不卡高清| 国产精品被狂躁到高潮| 天堂8中文在线最新版在线| 成人Av毛片| 国产男女无遮挡猛进猛出 | 免费乱理伦片在线观看| 军人全身脱精光自慰| 伊人精品在线| 亚洲激情偷拍| 亚洲色鬼| 亚洲国产精品久久青草无码| 老熟女网站| 国产精品亚洲一区二区三区| 亚洲av二区| 女人被爽到高潮视频免费国产| 国模精品无码| 日韩第四页| 亚洲人人色| 亚洲精品国产成人无码区在线| 日本特黄特色aaa大片免费| 香港经典a毛片免费观看播放| 国产熟女网站| 国产后入又长又硬|