網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

清華TsinghuaNLP團(tuán)隊(duì)，登上Nature子刊封面：“模型的能力密度，每3.5個(gè)月翻倍”

2025-11-26 11:29:52　來源: 賽博禪心

北京舉報(bào)

分享至

Nature Machine Intelligence 封面

《Densing Law of LLMs》論文，登上 Nature Machine Intelligence 封面

這篇論文，提出了一個(gè)很有趣的點(diǎn)

Densing Law 模型的能力密度，每 3.5 個(gè)月翻倍

通過分析了 51 個(gè)開源模型，量化了一個(gè)現(xiàn)象：

? 模型能力密度，呈指數(shù)級(jí)增長， 倍增周期約 3.5 個(gè)月
? 這意味著達(dá)到同等性能水平，所需的參數(shù)量 每 3.5 個(gè)月減少一半
? 伴隨參數(shù)效率的提升，同等性能下的 推理成本每 2.6 個(gè)月腰斬

本論文的第一作者為肖朝軍，通訊作者為韓旭、劉知遠(yuǎn)、孫茂松，來自清華TsinghuaNLP團(tuán)隊(duì)

論文回顧

讓我先用簡明的方式，簡單講下論文：能力密度，每 3.5 個(gè)月翻倍，這里的能力密度是什么？

能力密度 = 等效參數(shù)量 ÷ 實(shí)際參數(shù)量

「能力密度」是怎么得來的

換句話說：
2B 模型跑出 4B 的成績，密度就是 2

Llama-1 發(fā)布時(shí)，密度不到 0.1

兩年后，Gemma-2-9B 和 MiniCPM-3-4B 接近 2

模型能力密度趨勢圖

兩年，能力密度提高 20 倍
和體感是不是很接近？模型咔咔在變聰明

那么...怎么漲的？
你可能聽說過小模型變強(qiáng)的兩種做法：

? 剪枝：把大模型參數(shù)砍掉一部分
? 量化：把參數(shù)精度從 32 位降到 8 位

但論文發(fā)現(xiàn)，這兩種方法都會(huì)讓密度下降

? Llama-3.2-3B/1B 從 8B 剪枝來，密度比原模型低
? Llama-3.1-minitron-4B 也是，密度也低
? GPTQ 量化后，密度同樣下降

剪枝/量化都沒啥用，圖自論文 Fig.3b

論文解釋：
壓縮過程中訓(xùn)練不充分，能力沒塞回去

密度提升靠的是更好的預(yù)訓(xùn)練數(shù)據(jù)，更好的架構(gòu)，后期壓縮是沒用的
那如果 3.5 個(gè)月翻倍這個(gè)規(guī)律持續(xù)下去，會(huì)怎樣？
論文給了幾個(gè)推論

密度提升靠的是更好的預(yù)訓(xùn)練數(shù)據(jù)，更好的架構(gòu)，后期壓縮是沒用的

那如果 3.5 個(gè)月翻倍這個(gè)規(guī)律持續(xù)下去，會(huì)怎樣？

論文給了幾個(gè)推論

推論一：推理成本指數(shù)下降

密度翻倍，同等性能所需參數(shù)量減半，算力顯存跟著減半

論文算了一下：同等性能的推理成本，每 2.6 個(gè)月腰斬

各種模型的調(diào)用價(jià)格，飛速下降，圖自論文 Fig.3a 推論二：ChatGPT 加速了密度增長

ChatGPT 發(fā)布前，密度增長斜率是 0.0048，發(fā)布后變成了 0.0073

ChatGPT 發(fā)布后，斜率明顯上升，圖自論文 Fig.3c

增速提升 50%

這說明... AI 大火之后，人、錢、資源都涌了進(jìn)來，增速實(shí)打?qū)嵦岣吡?/p>

推論三：端側(cè)設(shè)備會(huì)越來越能打

在過去幾年里，相同價(jià)格芯片的計(jì)算能力大約每 2.1 年翻一番

而根據(jù)上面的結(jié)論，模型密度每 3.5 個(gè)月翻倍

疊加一下：固定價(jià)格端側(cè)設(shè)備，能跑的有效參數(shù)量每 88 天翻番

emmmmnm...未來可期

又不是不可能... 歷史回顧

這部分和論文無關(guān)，是我自己整理的行業(yè)數(shù)據(jù)，我們來看看實(shí)際價(jià)格

先說量販?zhǔn)?/p>

2022 年底，ChatGPT 發(fā)布的時(shí)候，能用到的模型叫text-davinci-003 ，后面也被稱作 GPT-3，定價(jià)是 20 美元/百萬 token

2024 年 7 月，GPT-4o mini 出來了，0.15 美元/百萬輸入 token，比 GPT-3.5 Turbo 便宜 60%，MMLU 跑分還更高——82% vs 69.8%

2024 年 8 月，Gemini-1.5-Flash，0.075 美元/百萬 token

從 text-davinci-003 到 Gemini Flash，20 個(gè)月，降了 266 倍

旗艦?zāi)Ｐ湍兀?/p>

最開始的 GPT-4，是 23年6月13日發(fā)布的，輸入是 60 美元/百萬 token。還有個(gè)更貴的 GPT-4-32k，輸入是 60美金/百萬 token

而最新的 GPT-5.1 則只需要 1.25 美元/百萬 token

OpenAI 的模型價(jià)格

順便說一下，國產(chǎn)平替 GLM-4.6 更是低至 0.3 美元/百萬 token，要啥自行車

GLM 的模型價(jià)格

不僅僅是價(jià)格巨幅降低，性能也是節(jié)節(jié)攀升，曾經(jīng)的模型能力，從現(xiàn)在的角度，完全不夠看

模型能力進(jìn)化史再看小模型

2024 年 2 月，MiniCPM-2.4B 發(fā)布，參數(shù)量只有 Mistral-7B 的 35%，跑分接近 Mistral-7B，中文、數(shù)學(xué)、代碼還更強(qiáng)，整體超過 Llama2-13B、MPT-30B、Falcon-40B

還是看這個(gè)圖，圈子大小表示參數(shù)量

考慮到 Mistral-7B 是 2023 年 9 月發(fā)布的，那么...

4 個(gè)月，參數(shù)量砍到 35%，性能不降

這樣的例子還很多，大致都可以和論文的 Densing Law 對(duì)得上，未來大模型的發(fā)展都可以參照這個(gè)來評(píng)判

穿插個(gè)題外話：Dense vs MoE

上文中，我提到過兩種模型，一種是幾百B的，另一種則是幾B的...

一些朋友可能會(huì)好奇，為啥都是大模型，有的賊大，有的賊小...

這其實(shí)是個(gè)架構(gòu)問題，有些是 MoE 架構(gòu)，體積大，適合服務(wù)器部署（訓(xùn)練/規(guī)模化推理成本有優(yōu)勢）；有些是 Dense 架構(gòu)，體積小，適合本地部署（尺寸上有優(yōu)勢），詳細(xì)的解釋可以看這里：

總結(jié)

一句話展望
按這個(gè)發(fā)展速度，在小天才手表上，跑 Nano Banana，指日可待

圖是ai畫的，但我是認(rèn)真的...現(xiàn)在的小天才，已經(jīng)比安尼亞克（ENIAC）強(qiáng)太多了

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

越南披露腐敗大案三名高官個(gè)人獲利近600萬億越南盾

中國新聞周刊 2025-12-24 21:57:35
12778 跟貼 12778
美國再向委內(nèi)瑞拉施壓中方在安理會(huì)上連說5個(gè)"反對(duì)"

看看新聞Knews 2025-12-24 10:42:04
17429 跟貼 17429

軍事專家:"特朗普級(jí)"戰(zhàn)艦設(shè)計(jì)疑大量借鑒中國055大驅(qū)

看看新聞Knews 2025-12-24 18:01:02
10290 跟貼 10290

搶瘋了！各地門店大排長龍，排號(hào)炒到400元一個(gè)！網(wǎng)友：怎么又火了？

觀威海 2025-12-24 10:14:23
2574 跟貼 2574
中央批準(zhǔn)：馮忠華任廣州市委書記

北京日?qǐng)?bào) 2025-12-24 12:08:20
1784 跟貼 1784

李凱爾回應(yīng)：恢復(fù)美國國籍不屬實(shí)

北京日?qǐng)?bào)客戶端 2025-12-24 15:54:10
3426 跟貼 3426

美國新一代高鐵列車"更新"后降速 700公里要7個(gè)多小時(shí)

澎湃新聞 2025-12-24 21:10:46
127 跟貼 127
日本可能數(shù)人遭到輻射外交部回應(yīng)

財(cái)聯(lián)社 2025-12-24 15:27:39
165 跟貼 165

馬龍，獲國家級(jí)教練資格

揚(yáng)子晚報(bào) 2025-12-24 12:34:27
1688 跟貼 1688
東莞一公園給石墩加裝金屬護(hù)欄多此一舉還是優(yōu)化安全舉措？

封面新聞 2025-12-24 17:37:06
276 跟貼 276
長城魏建軍回應(yīng)魏牌“九年八換CEO”：并不是我們辭退人家，是他們自己感覺壓力特別大

紅星資本局 2025-12-24 11:41:09
980 跟貼 980
超近畫面:福建艦彈射裝置可"0幀"急停

央視新聞客戶端 2025-12-24 22:39:13
668 跟貼 668
烤雞少年用"肉寶王"調(diào)味業(yè)內(nèi)人發(fā)聲

封面新聞 2025-12-23 17:37:03
564 跟貼 564
俄首次在白俄部署"榛樹"導(dǎo)彈盧卡申科：上限為10套

澎湃新聞 2025-12-24 07:26:32
753 跟貼 753
江蘇一市明年起征收生活垃圾處理費(fèi)，每戶每月4元

環(huán)球網(wǎng)資訊 2025-12-24 10:42:44
257 跟貼 257
胖東來賣喬丹親簽球衣，售價(jià)13.8萬元，回應(yīng)：保真

大象新聞 2025-12-24 20:41:03
153 跟貼 153
湖北省政府批準(zhǔn)：這一收費(fèi)站，撤銷！

湖北發(fā)布 2025-12-24 09:43:07
66 跟貼 66
醫(yī)學(xué)本科生被曝一年發(fā)40多篇論文，溫州醫(yī)科大學(xué)工作人員回應(yīng)

極目新聞 2025-12-24 21:09:37
255 跟貼 255
麗江古城區(qū)文旅公開喊話小紅書，此前發(fā)布的公眾號(hào)文章已刪除

極目新聞 2025-12-24 12:05:54
1116 跟貼 1116
一夜之間狂漲，刷新歷史最高點(diǎn)！有人狂呼“解套”，有人抓緊買入：趁價(jià)格還不算高

環(huán)球網(wǎng)資訊 2025-12-25 07:24:58
0 跟貼 0
工信部：11月我國移動(dòng)電話用戶總數(shù)減少200萬戶

南方都市報(bào) 2025-12-24 20:05:21
51 跟貼 51
多地農(nóng)民可評(píng)職稱，無外語、論文要求 53歲中級(jí)職稱農(nóng)民：技術(shù)服務(wù)時(shí)更有底氣

紅星新聞 2025-12-24 20:43:44
11 跟貼 11
Sidery：馬刺被認(rèn)為是特雷-墨菲三世的潛在下家

北青網(wǎng)-北京青年報(bào) 2025-12-25 07:36:04
2 跟貼 2
“80后”富豪局長，要“自掏腰包”登月？

上觀新聞 2025-12-25 07:12:07
6 跟貼 6
微調(diào)查｜電動(dòng)自行車被套牌，車主屢屢接到交通違法信息怎么辦？

新京報(bào) 2025-12-25 08:55:34
0 跟貼 0
東莞小伙王帥去世，僅20歲！凌晨5點(diǎn)跳湖，父親發(fā)文透露更多細(xì)節(jié)

來科點(diǎn)譜 2025-12-25 08:57:04
0 跟貼 0
大爺丟失手機(jī) 格格幫忙止損

錦繡太原 2025-12-25 08:46:06
0 跟貼 0
母子雙雙落水后被好心人用竹竿救起，救人者：只是做了一件應(yīng)該做的小事

黃河新聞網(wǎng)呂梁頻道 2025-12-25 09:00:32
0 跟貼 0

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

清華TsinghuaNLP團(tuán)隊(duì)，登上Nature子刊封面：“模型的能力密度，每3.5個(gè)月翻倍”

老板監(jiān)視員工微信只需300元

26歲廣西球王，在質(zhì)疑聲中成為本土得分王

懷孕增重30斤！闞清子驚傳誕一女夭折？

美國未來18個(gè)月不對(duì)中國芯片加額外關(guān)稅

“運(yùn)動(dòng)版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

11月單品銷量Top20：蘋果包圓前三，榮耀X70國產(chǎn)第一

這些新療法，讓化療不再那么痛苦

山東財(cái)經(jīng)稅收專業(yè)超群！就業(yè)前景解析

毛主席草書背后的故事：小練字者迷失，書法之路揭示真相。

法式大平層 智能家居添彩

法式大平層智能家居添彩