<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      MIT最新發現:這十年,算法進步被高估了

      0
      分享至



      機器之心報道

      機器之心編輯部

      在過去十年中,AI 的進步主要由兩股緊密相關的力量推動:迅速增長的計算預算,以及算法創新。

      相比之下,計算量的增長較容易衡量,但我們仍然缺乏對算法進步的清晰量化,究竟哪些變化帶來了效率提升,這些提升的幅度有多大,以及它們在不同計算規模下是否依然成立。

      2024 年,有研究通過分析數百個語言模型,他們估計在過去十年里,算法進步在所謂的有效計算量(effective compute)方面貢獻了超過 4 個數量級的提升;而根據對歷史 AI 文獻的分析,計算規模本身增長了 7 個數量級。

      具體而言,所有算法創新加起來使模型的效率提高了大約 22,000 倍,這意味著在理論上可以用少得多的浮點運算次數(FLOPs)達到相同的性能水平。

      然而,我們仍然缺乏對這類進步的精確分解,而關于算法進步來源的許多關鍵問題仍未得到充分研究。例如:各種算法改進之間是如何相互作用的?算法進步是由一系列小改動累積而成,還是由少數幾次重大突破推動的?算法改進是像摩爾定律那樣平滑持續地發展,還是呈現間斷平衡(即長時間停滯 + 突然大跳躍)的模式?

      為回答這些問題,來自 MIT 等機構的研究者采用了三種互補的方法:

      • 對語言模型中的重要算法改進進行消融實驗;
      • 開展 scaling 實驗,以測量不同架構在最優 scaling 行為上的差異;
      • 對數據與參數 scaling 轉換進行理論分析。



      • 論文地址:https://arxiv.org/pdf/2511.21622
      • 論文標題:On the Origin of Algorithmic Progress in AI

      最終得到三條結論:

      1:經過實驗評估的大多數算法創新都只帶來了小幅的、與規模無關的效率提升,總體計算效率提升不到 10 倍,并且在推算到 2025 年的計算能力極限(2 × 1023 FLOPs)時,這些提升僅占總改進的不到 10%。這表明,與規模無關的算法進步在整體效率提升中所占的份額很小

      2:本文發現有兩項強烈依賴規模(scale-dependent)的算法創新:從 LSTM 到 Transformer,以及從 Kaplan 到 Chinchilla 。當將其外推到 2025 年的計算前沿時,這兩項創新合計占據了全部效率提升的 91%。這意味著:對于小規模模型而言,算法進步的幅度比此前認為的要小幾個數量級。

      3:在規模依賴型創新的情況下,效率提升不僅需要持續的計算投入,而且算法進步的速度還強烈依賴于你選擇的參考算法。換句話說,相對于某一個基線算法,連續模型之間的進步率可能看起來是指數級的;但相對于另外一個基線算法,它卻可能完全為零。

      總體來看,這些發現表明:算法進步可能本質上就是依賴規模的,要真正體現其效益需要不斷增長計算規模。同時,這也意味著算法進步對大模型開發者的益處遠大于對小規模參與者的益處。



      規模不變型算法

      本文首先通過大量的消融實驗來分析單個算法的影響,從而繪制出算法改進的細粒度圖景。此外,本文還嘗試估計了多項算法組合后的聯合效果。

      本文發現:原始論文(即提出某項算法改進的那篇論文)所聲稱的效率提升,往往遠高于后續文獻給出的估計,也高于本文的實驗結果。



      規模不變型算法的效率提升既小且分布高度不均

      實驗中發現,從 LSTM 切換到 Modern Transformer 的總效率提升為 6.28×,而從 LSTM 切換到 Retro Transformer 的效率提升為 4.69×。這比 Ho 等人(2024)的估計(他們認為 LSTM→Transformer 的提升約 60×)小得多。

      雖然本文確實觀察到一些改進(例如 Adam 優化器、以及從 post-layernorm 切換到 pre-RMSNorm)帶來了大約 2× 的效率提升,但作者測量的大多數創新帶來的提升都很小。

      有趣的是,他們看到一個高度偏斜的效率提升分布:盡管所有被消融的創新帶來的提升都低于 4×,但提升倍數卻極不均勻,主要集中在少數幾項改進上,例如 Adam 或 pre-layernorm。

      從這個角度來看,算法進步比之前想象的更加斷裂 / 不連續:多年小幅改進之后,會出現一次較大的算法躍遷。

      許多改進的效率提升幅度很小,這也推動本文開展第二部分實驗,比較算法變化在不同規模下的影響,從而揭示這些變化對神經網絡 scaling laws 的作用。

      依賴于規模的算法

      前文提到,算法改進在小規模模型上帶來的收益非常有限。因此自然會產生一個問題:在大規模下,算法收益會變得更大嗎?

      因此,本文對不同架構、優化器,以及算法創新進行了 scaling 實驗,以更好地理解它們的效率提升如何隨計算規模變化。

      實驗模型主要為 LSTM、Transformer,以及兩種 Transformer 變體:Modern Transformer、Retro Transformer。

      規模擴展實驗:從 LSTM 到 Transformer

      圖 4A 展示了 LSTM 與現代 Transformer 在 scaling 上的差異,圖 4B 展示了現代 Transformer 與 Retro Transformer 的 scaling 差異。



      Scaling 圖表表明,神經網絡架構的改進并不是規模不變的,而是具有隨規模增加而回報提升的特性(increasing returns to scale)。

      算法進步強烈依賴于算力規模與參考基線

      算法進步可能主要由算力提升所驅動

      本文提出一個疑問:此前將算法進步與時間掛鉤的說法,是否其實是由算力投入的持續增長所驅動?

      已有估計表明,前沿模型的計算預算正以每年 4.2 倍的速度呈指數增長。因此,隨著算力預算呈指數級提升,算法進步的速率可能更多是受這一規律性的算力擴張所推動,而不是源于不斷涌現的算法創新。

      本文發現:在 2017–2025 年間,幾乎所有可解釋的算法進步都來自兩項規模依賴型的創新:從 LSTM 換成 Transformer,以及從 Kaplan 換成 Chinchilla 的訓練策略。其他所有算法改進加起來只占很小一部分。

      在總計 21,400 倍(相對于 LSTM 模型)的性能提升中,本文發現 846 倍的提升是通過從 LSTM 模型轉向 Kaplan Transformer 模型實現的,而近 10 倍的提升則歸功于 Chinchilla 調整訓練策略。這兩項創新共同構成了總相對效率提升的 91%。



      算法進步的速度,取決于你拿誰當對照組

      如果算法變得更強,是不是意味著進步更快,其實這完全取決于你選誰來當參照物。換個參照物,算法進步的速度立刻就變了。

      因為有些算法改進是規模依賴型(scale-dependent) 的:在大模型、大算力下提升巨大;但在小模型、小算力下幾乎沒作用。

      這導致一個有趣現象:如果你用 LSTM 當參照:Transformer 系列(尤其是更大模型)會顯得算法進步是指數增長的(論文測到一年增長率大約 63%,非常快);但如果你用 Transformer 自己當參照,隨著規模變大,你只看到算法只比以前好 2 倍,幾乎沒增長。

      也就是說:換個對照組,算法進步就從指數增長變成增長幅度很少。



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      93年存款4萬5,《老舅》讓觀眾看清國產劇假窮人有多離譜

      93年存款4萬5,《老舅》讓觀眾看清國產劇假窮人有多離譜

      娛樂圈十三太保
      2025-12-17 16:32:22
      外籍男子國際航班上辱罵兩名中國女乘客,哈爾濱女博士用英語反擊,當事人:他酒后鬧事,被帶離后全場鼓掌

      外籍男子國際航班上辱罵兩名中國女乘客,哈爾濱女博士用英語反擊,當事人:他酒后鬧事,被帶離后全場鼓掌

      極目新聞
      2025-12-18 13:41:36
      意外!上港球迷曾質疑他不如蒯紀聞,如今德轉身價飆升到350萬

      意外!上港球迷曾質疑他不如蒯紀聞,如今德轉身價飆升到350萬

      懂個球
      2025-12-18 17:42:06
      哈佛大學驚奇發現:壽命和晚飯有關!晚飯吃的越多,活的就越久?

      哈佛大學驚奇發現:壽命和晚飯有關!晚飯吃的越多,活的就越久?

      阿捤武器裝備科普
      2025-12-16 19:00:35
      500強黃金企業金雅福相關理財項目出現延期兌付,公司總部已搬離,當地政府部門全面介入,律師稱涉嫌非法吸存

      500強黃金企業金雅福相關理財項目出現延期兌付,公司總部已搬離,當地政府部門全面介入,律師稱涉嫌非法吸存

      每日經濟新聞
      2025-12-18 17:18:10
      為什么中國革命,一會兒左一會兒右?講講課本不會告訴你的真相

      為什么中國革命,一會兒左一會兒右?講講課本不會告訴你的真相

      聞識
      2025-12-17 12:02:57
      特朗普又有大動作,另起爐灶成立“C5”,中俄在列,歐洲盟友出局

      特朗普又有大動作,另起爐灶成立“C5”,中俄在列,歐洲盟友出局

      兵說
      2025-12-17 16:30:28
      我退休后回老家養老,村書記擺架子要給我上一課,不料縣長來考察

      我退休后回老家養老,村書記擺架子要給我上一課,不料縣長來考察

      五元講堂
      2025-12-04 11:49:42
      蘋果官宣:部分老款 iPhone 存在嚴重技術故障

      蘋果官宣:部分老款 iPhone 存在嚴重技術故障

      簡科技
      2025-12-17 19:00:17
      記者:徐正源與國安進行了深度接觸,隨后被相關方面“叫停”

      記者:徐正源與國安進行了深度接觸,隨后被相關方面“叫停”

      懂球帝
      2025-12-18 13:00:48
      《全女格斗》,體現了一個時代的工匠精神

      《全女格斗》,體現了一個時代的工匠精神

      街機時代
      2025-12-17 18:00:03
      海南突然搶了臺灣飯碗?島內企業慌了!年輕人扎堆去大陸?

      海南突然搶了臺灣飯碗?島內企業慌了!年輕人扎堆去大陸?

      李博世財經
      2025-12-18 14:25:42
      給口碑最好的10部諜戰劇排名:《沉默的榮耀》第10,第1實至名歸

      給口碑最好的10部諜戰劇排名:《沉默的榮耀》第10,第1實至名歸

      皮皮電影
      2025-11-19 13:55:03
      從澳大利亞探親回來,才敢說幾句真心話,移民真的不適合所有人嗎

      從澳大利亞探親回來,才敢說幾句真心話,移民真的不適合所有人嗎

      i書與房
      2025-12-18 11:10:02
      國際足聯開罰單!亞洲勁旅歸化違規:3場比賽被判0-3!罰款9萬

      國際足聯開罰單!亞洲勁旅歸化違規:3場比賽被判0-3!罰款9萬

      小火箭愛體育
      2025-12-18 12:14:57
      你聽過的相聲里最棒的現掛是啥?網友:除了馬季,其他都不是現掛

      你聽過的相聲里最棒的現掛是啥?網友:除了馬季,其他都不是現掛

      帶你感受人間冷暖
      2025-12-18 00:10:08
      張韶涵“裁員裁到大動脈”登熱搜,前發型師發文回應

      張韶涵“裁員裁到大動脈”登熱搜,前發型師發文回應

      紅星新聞
      2025-12-18 11:38:30
      泰國重申停火必要條件, 柬埔寨暫無回應

      泰國重申停火必要條件, 柬埔寨暫無回應

      每日經濟新聞
      2025-12-17 23:00:35
      超級罕見!廣西發現稀有血型“恐龍血”,全球僅2例報道

      超級罕見!廣西發現稀有血型“恐龍血”,全球僅2例報道

      黃河新聞網呂梁頻道
      2025-12-18 14:07:02
      三觀盡毀!“性冷淡”女教師床上發騷求歡,情婦人設崩塌惹眾怒!

      三觀盡毀!“性冷淡”女教師床上發騷求歡,情婦人設崩塌惹眾怒!

      歷史偉人錄
      2025-12-18 16:59:42
      2025-12-18 19:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11950文章數 142512關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽

      頭條要聞

      南京博物院稱受贈5幅畫被鑒定為"假" 捐贈者后人回應

      頭條要聞

      南京博物院稱受贈5幅畫被鑒定為"假" 捐贈者后人回應

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      時尚
      本地
      數碼
      房產
      游戲

      “棕色大衣”今年冬天又火了,怎么搭都高級時髦

      本地新聞

      云游安徽|決戰烽火照古今,千秋一脈看宿州

      數碼要聞

      XREAL 1S智能AR眼鏡上架預約:3299元,首發原生2D→3D

      房產要聞

      太強了!封關時刻,兩天砸下50億!央企綠發,重倉三亞!

      從雙榜第一到500名外!《劍靈》衍生作1年停運,玩家吐槽毀IP

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 玩弄放荡人妻少妇系列| 18无码粉嫩小泬无套在线观看| 男女做爰真人视频直播| 免费情侣作爱视频| 亚洲午夜精品久久久久久抢| 免费日本黄色| 人人网aV| 亚洲欧美人成电影在线观看| 国产亚洲天堂另类综合| 亚洲1234区| 亚洲中文字幕A| 久久久久久毛片免费播放| а√天堂8资源中文在线| 亚洲欧洲av| 砚山县| 亚洲无线一二三四区手机| 久久久久国产一区二区三区| jizzjizz在线观看| 镇江市| 老司机午夜免费精品视频| 国产欧美日韩亚洲一区二区三区 | 起碰免费公开97在线视频| 97色综合| 又粗又大又硬又长又爽| 天天综合天天做天天综合| 国产精品护士| 色婷婷?av| 亚洲精品国产电影| 欧美偷拍视频| 无线亚洲成人| 色欲人妻综合网站| 又污又爽又黄的网站| 久久中文字幕日韩无码视频| 亚洲精品97久久一| 一本色道久久综合亚洲色| 人妻丰满熟妇av无码区hd | 国产粗大| 吉林省| 97免费公开在线视频| 亚洲国产精品久久久久4婷婷| 3P免费视频在线观看|