![]()
Nature Machine Intelligence 封面
《Densing Law of LLMs》 論文,登上 Nature Machine Intelligence 封面
這篇論文,提出了一個(gè)很有趣的點(diǎn)
Densing Law 模型的能力密度,每 3.5 個(gè)月翻倍
通過分析了 51 個(gè)開源模型,量化了一個(gè)現(xiàn)象:
? 模型能力密度,呈指數(shù)級(jí)增長, 倍增周期約 3.5 個(gè)月
? 這意味著達(dá)到同等性能水平,所需的參數(shù)量 每 3.5 個(gè)月減少一半
? 伴隨參數(shù)效率的提升,同等性能下的 推理成本每 2.6 個(gè)月腰斬
本論文的第一作者為肖朝軍,通訊作者為韓旭、劉知遠(yuǎn)、孫茂松,來自清華TsinghuaNLP團(tuán)隊(duì)
論文回顧
讓我先用簡明的方式,簡單講下論文:能力密度,每 3.5 個(gè)月翻倍,這里的能力密度是什么?
能力密度 = 等效參數(shù)量 ÷ 實(shí)際參數(shù)量
![]()
「能力密度」是怎么得來的
換句話說:
2B 模型跑出 4B 的成績,密度就是 2
Llama-1 發(fā)布時(shí),密度不到 0.1
兩年后,Gemma-2-9B 和 MiniCPM-3-4B 接近 2
![]()
模型能力密度趨勢圖
兩年,能力密度提高 20 倍
和體感是不是很接近?模型咔咔在變聰明
那么...怎么漲的?
你可能聽說過小模型變強(qiáng)的兩種做法:
? 剪枝 :把大模型參數(shù)砍掉一部分
? 量化 :把參數(shù)精度從 32 位降到 8 位
但論文發(fā)現(xiàn),這兩種方法都會(huì)讓密度下降
? Llama-3.2-3B/1B 從 8B 剪枝來,密度比原模型低
? Llama-3.1-minitron-4B 也是,密度也低
? GPTQ 量化后,密度同樣下降
論文解釋:
壓縮過程中訓(xùn)練不充分,能力沒塞回去
密度提升靠的是更好的預(yù)訓(xùn)練數(shù)據(jù),更好的架構(gòu),后期壓縮是沒用的
那如果 3.5 個(gè)月翻倍這個(gè)規(guī)律持續(xù)下去,會(huì)怎樣?
論文給了幾個(gè)推論
密度提升靠的是更好的預(yù)訓(xùn)練數(shù)據(jù),更好的架構(gòu),后期壓縮是沒用的
那如果 3.5 個(gè)月翻倍這個(gè)規(guī)律持續(xù)下去,會(huì)怎樣?
論文給了幾個(gè)推論
推論一:推理成本指數(shù)下降
密度翻倍,同等性能所需參數(shù)量減半,算力顯存跟著減半
論文算了一下:同等性能的推理成本,每 2.6 個(gè)月腰斬
![]()
各種模型的調(diào)用價(jià)格,飛速下降,圖自論文 Fig.3a 推論二:ChatGPT 加速了密度增長
ChatGPT 發(fā)布前,密度增長斜率是 0.0048,發(fā)布后變成了 0.0073
![]()
ChatGPT 發(fā)布后,斜率明顯上升,圖自論文 Fig.3c
增速提升 50%
這說明... AI 大火之后,人、錢、資源都涌了進(jìn)來,增速實(shí)打?qū)嵦岣吡?/p>
推論三:端側(cè)設(shè)備會(huì)越來越能打
在過去幾年里,相同價(jià)格芯片的計(jì)算能力大約每 2.1 年翻一番
而根據(jù)上面的結(jié)論,模型密度每 3.5 個(gè)月翻倍
疊加一下:固定價(jià)格端側(cè)設(shè)備,能跑的有效參數(shù)量每 88 天翻番
emmmmnm...未來可期
![]()
又不是不可能... 歷史回顧
這部分和論文無關(guān),是我自己整理的行業(yè)數(shù)據(jù),我們來看看實(shí)際價(jià)格
![]()
先說量販?zhǔn)?/p>
2022 年底,ChatGPT 發(fā)布的時(shí)候,能用到的模型叫text-davinci-003 ,后面也被稱作 GPT-3,定價(jià)是 20 美元/百萬 token
2024 年 7 月,GPT-4o mini 出來了,0.15 美元/百萬輸入 token,比 GPT-3.5 Turbo 便宜 60%,MMLU 跑分還更高——82% vs 69.8%
2024 年 8 月,Gemini-1.5-Flash,0.075 美元/百萬 token
從 text-davinci-003 到 Gemini Flash,20 個(gè)月,降了 266 倍
旗艦?zāi)P湍兀?/p>
最開始的 GPT-4,是 23年6月13日發(fā)布的,輸入是 60 美元/百萬 token。還有個(gè)更貴的 GPT-4-32k,輸入是 60美金/百萬 token
而最新的 GPT-5.1 則只需要 1.25 美元/百萬 token
![]()
OpenAI 的模型價(jià)格
順便說一下,國產(chǎn)平替 GLM-4.6 更是低至 0.3 美元/百萬 token,要啥自行車
![]()
GLM 的模型價(jià)格
不僅僅是價(jià)格巨幅降低,性能也是節(jié)節(jié)攀升,曾經(jīng)的模型能力,從現(xiàn)在的角度,完全不夠看
![]()
模型能力進(jìn)化史 再看小模型
2024 年 2 月,MiniCPM-2.4B 發(fā)布,參數(shù)量只有 Mistral-7B 的 35%,跑分接近 Mistral-7B,中文、數(shù)學(xué)、代碼還更強(qiáng),整體超過 Llama2-13B、MPT-30B、Falcon-40B
![]()
還是看這個(gè)圖,圈子大小表示參數(shù)量
考慮到 Mistral-7B 是 2023 年 9 月發(fā)布的,那么...
4 個(gè)月,參數(shù)量砍到 35%,性能不降
這樣的例子還很多,大致都可以和論文的 Densing Law 對(duì)得上,未來大模型的發(fā)展都可以參照這個(gè)來評(píng)判
穿插個(gè)題外話:Dense vs MoE
上文中,我提到過兩種模型,一種是幾百B的,另一種則是幾B的...
一些朋友可能會(huì)好奇,為啥都是大模型,有的賊大,有的賊小...
這其實(shí)是個(gè)架構(gòu)問題,有些是 MoE 架構(gòu),體積大,適合服務(wù)器部署(訓(xùn)練/規(guī)模化推理成本有優(yōu)勢);有些是 Dense 架構(gòu),體積小,適合本地部署(尺寸上有優(yōu)勢),詳細(xì)的解釋可以看這里:
總結(jié)
一句話展望
按這個(gè)發(fā)展速度,在小天才手表上,跑 Nano Banana,指日可待
![]()
圖是ai畫的,但我是認(rèn)真的...現(xiàn)在的小天才,已經(jīng)比安尼亞克(ENIAC)強(qiáng)太多了
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.