![]()
導語
大語言模型已成為人工智能發展的重要里程碑。既有的規模法則表明,隨著模型規模的擴大,LLM的性能會持續提升,但這也對訓練與部署帶來顯著挑戰。盡管業界不斷嘗試提升模型效率,卻仍缺乏關于不同規模LLM的效率發展趨勢與評價體系的統一共識。為解決性能與效率之間的張力,本文提出“能力密度”這一概念,用以衡量模型在單位參數上所體現的有效能力,從而在性能與效率兩個維度上提供統一的評價框架。我們進一步給出一項經驗性發現,即“密度定律”:LLM的能力密度隨時間呈指數增長。基于多個主流基準的評估結果顯示,開源LLM的最大能力密度大約每3.5個月翻倍。這意味著,實現同等性能所需的參數規模與推理成本均在指數下降,為高效LLM的開發策略提供了新的啟示。
關鍵詞:大語言模型(LLMs)、規模法則(Scaling Law)、能力密度(Capability Density)、密度定律(Densing Law)、效率評估(Efficiency Evaluation)
鄭鴻盛丨作者
趙思怡丨審校
![]()
論文題目:Densing law of LLMs 論文鏈接:https://www.nature.com/articles/s42256-025-01137-0 發表時間:2025年11月6日 論文來源:Nature Machine Intelligence
能力密度的指數躍遷,
正在悄悄改變 AI 的未來
近兩年,大模型的突飛猛進讓人切身感受到“技術狂飆”,然而一個更耐人尋味的現象也隨之浮現:模型能力不斷提高,推理成本卻在飛速下降;小模型越來越頻繁地逼近甚至超越大模型;而“繼續堆參數”似乎不再是性能提升的唯一途徑。2025年11月6日發表于Nature Machine Intelligence 的論文《Densing Law of LLMs》給出了一種顛覆性的解釋——大模型正在從拼“規模”轉向拼“密度”。研究發現,LLM的“能力密度”(capability density)正以指數速度增長,約每3.5個月翻一倍,這意味著達到同等性能所需的參數量大幅減少,推理成本呈指數級下降,端側智能(在手機、PC等本地設備運行大模型)將比預期更早成熟。這不是簡單的性能提升,而是一場關于效率的革命。讓我們從這篇可能深刻影響未來五年的論文開始,重新理解大模型的進化方向。
過去衡量模型能力,業界普遍遵循“參數越大,性能越強”的直覺,但隨著大量開源模型的涌現,這一直覺邏輯開始失靈,出現7B模型逼近甚至匹敵70B模型,4B模型在部分任務上超過13B模型,手機端模型也逐漸具備ChatGPT3.5的水平,而訓練數據質量與訓練策略的重要性日益凸顯。這些現象共同指向一個事實——參數量已無法充分解釋模型能力的差異,規模不再等同于質量。因此,真正需要關注的已不再是“模型有多大”,而是“模型的效率有多高”。
什么是“能力密度”?簡單來說,它衡量的是模型“每個參數的含金量”。其定義為:能力密度 = 模型的有效能力 ÷ 實際參數量。這里的“有效能力”并非模型自身的參數規模,而是一個反推值:如果某模型達到特定性能,那么一套參考模型需要多少參數才能取得相同表現,這個等效參數量記為 N?(此處的參考模型為研究者自建的一系列不同參數規模、結構一致、訓練流程一致的小參數規模模型)。于是能力密度可寫為 ρ = N? / N,用來刻畫模型訓練得是否“緊實”。例如,一個3B模型若達到參考模型6B的能力,則密度 ρ = 6 / 3 = 2,代表其單位參數效率極高;反之,若一個7B模型只能達到參考模型3B的水平,則 ρ < 1,說明其參數利用率偏低。本質上,能力密度回答的就是那一句:模型的每個參數到底“值不值錢”?
密度定律:能力密度正以指數方式增長
本研究中最重要的發現之一,是大模型的能力密度隨時間呈現穩定的指數增長趨勢。研究者選取五十余個近年來發布的開源基礎模型,覆蓋多個系列(如 Llama、Mistral、Gemma、Phi、DeepSeek、MiniCPM 等),并在多個主流基準(MMLU、BBH、MATH、HumanEval、MBPP)上進行統一評估。結果顯示,模型的最大能力密度大約每 3.5 個月翻一倍,這一趨勢在不同任務和不同模型之間都十分一致。
![]()
圖 1|近年來開源大模型的能力密度趨勢。每個點代表一個模型,圓點越大參數量越大。從圖中可以看到,隨著時間推移,能力密度的上界呈現清晰的指數增長。
這一指數增長趨勢意味著:未來達到相同性能所需的參數量將持續減少。換言之,人們慣常認為的“大模型能力強、但成本高”的認知,將在未來不斷被弱化。更令人興奮的是,這種指數增長在新模型中體現得更為突出,特別是數據質量、訓練策略更為精細的小模型,往往展現出遠超其規模的能力密度。
能力密度提升的一個自然結果,是實現相同性能所需的實際參數量不斷減少。與此同時,推理成本也正在以類似的指數速度下降。文章對多個高性能模型的API調用價格進行了整理,并展示了一個同樣令人驚訝的趨勢:模型的推理價格大約每2.6個月減半。2022 年 GPT-3.5 的價格約為每百萬token需要20美元,而到了 2024 年,Gemini Flash的推理價格僅為0.075美元,相當于下降了超過260倍。
![]()
圖 2|近年來幾個主流語言模型的推理價格變化。性能優于 GPT-3.5 的大語言模型(LLMs)的應用程序接口(API)定價。線條連接各時間點定價最低的模型,最便宜模型的API定價呈指數下降。
推理成本的下降不僅來自模型能力密度的提升,也來自底層推理技術的優化,例如 FlashAttention、PagedAttention、量化推理格式、稀疏激活架構等。隨著模型本身越來越“緊實”,推理成本的下降幅度也將持續擴大。
當密度定律遇上 Moore 定律:
端側智能將提前爆發
當能力密度的指數增長與硬件性能的指數增長疊加時,一個更加激進的趨勢會出現。過去數十年里,硬件晶體管密度大約每兩年翻一倍;如今,大模型的能力密度每3.5個月翻一倍。兩者的乘積效果意味著:在固定價格的硬件上,能夠運行的“有效模型規模”約每88天翻一倍。
這預示著什么?預示著過去需要云端大模型才能實現的能力,未來將能在手機、電腦、平板等設備上高效運行。端側 AI 的普及速度可能遠超過我們目前的想象,隱私計算、低成本部署、離線大模型應用將因此迎來爆發式發展。
![]()
圖 3|大模型的高性能正向小規模模型遷移,同時端側可運行模型的能力快速提升(圖片源于網絡)。紅色虛線區域代表接近GPT-4V水平的模型帶寬,隨著時間推移,越來越小的模型逐漸逼近這一性能區間;下方藍色虛線趨勢線展示了能夠在端側設備運行的模型能力不斷上升。
高密度模型不是“壓”出來的,而是“練”出來的
在參數規模快速被重新評估的背景下,一個看似合理的猜想是:既然參數越少越高效,那么剪枝、蒸餾、量化等模型壓縮技術應該更容易得到高能力密度的小模型。但論文的實驗結果卻指向相反方向——壓縮后的模型能力密度整體上并不比原模型高,甚至往往更低。其根本原因在于,壓縮過程雖然減少了模型的實際參數量,卻沒有讓模型獲得足夠的再訓練,從而無法讓這些“更輕”的參數真正承擔起更高的能力負載。尤其是量化,雖然降低了內存和推理成本,但不可避免地帶來一定的性能損失。因此,真正高密度的小模型,并不是“從大模型壓縮而來”,而是“從一開始就為高密度而訓練”的結果。
能力密度之所以能夠持續提升,主要源于三方面的共同推動。首先,訓練數據的規模與質量顯著提高。以Llama系列為例,Llama-3 所使用的15萬億token數據不僅規模遠超Llama-1的1.4萬億token,且在清洗與篩選流程上更加精細,這使模型能夠在同樣結構下學習到更豐富、更可靠的知識。其次,模型結構日益高效。以稀疏專家模型(MoE)為代表的新架構,使模型在推理時僅激活部分專家,從而以更低的計算量獲得更強的表達能力,大幅提高“參數的利用率”。最后,訓練算法不斷演進。無論是將強化學習前移到預訓練階段,還是利用高質量的合成數據和“弱到強”(weak-to-strong)訓練策略,這些方法都讓模型能夠在固定參數量下挖掘出更高的能力上限。這些因素共同作用,使得模型在“單位參數上可以學習到更多能力”,從而推動能力密度不斷攀升。
當然,謹慎來說能力密度的增長不可能無限持續。信息論告訴我們,每個參數能夠存儲的信息量是有限的,模型參數的表達能力也有理論上界。隨著模型的訓練方式、數據質量和結構不斷提升,能力密度的增長最終將遇到瓶頸。屆時,如果要繼續突破當前框架的限制,可能需要依賴全新的技術范式,例如量子計算、類腦計算或其他尚未成熟的計算架構。盡管如此,在可預見的未來幾年中,能力密度仍會保持高速增長,模型變“密”的趨勢不會減弱。
密度定律不僅是一個科學觀察,更是一個具有產業指導意義的趨勢。對于模型研發而言,它提示我們,未來的競爭不再是單純擴大參數規模,而是追求“更高密度”的訓練方法與更高質量的數據;對于企業而言,可以據此預測未來模型成本的下降趨勢,從而更合理安排AI投入;對于硬件和應用產業,則意味著端側智能將迎來快速擴張,本地運行大模型將從技術挑戰變成新常態。
從“大”到“密”,AI 的進化正在加速重寫
《Densing Law of LLMs》揭示的,是一種隱藏在大模型演化背后的“效率革命”。在這個新的發展階段,模型不再依賴“堆大”,而是通過更智能的訓練、更優的數據、更精細的結構獲得更高的效率。能力密度的指數提升讓我們看到:未來的大模型既可能更強,也可能更輕、更快、更便宜,甚至隨時運行在每個人的口袋里。
我們正在見證語言模型從“規模時代”邁向“密度時代”,而這一轉變,或許將深刻改變未來五年乃至整個AI產業的面貌。
大模型2.0讀書會
o1模型代表大語言模型融合學習與推理的新范式。集智俱樂部聯合北京師范大學系統科學學院教授張江、Google DeepMind研究科學家馮熙棟、阿里巴巴強化學習研究員王維塤和中科院信工所張杰共同發起,本次讀書會將關注大模型推理范式的演進、基于搜索與蒙特卡洛樹的推理優化、基于強化學習的大模型優化、思維鏈方法與內化機制、自我改進與推理驗證。希望通過讀書會探索o1具體實現的技術路徑,幫助我們更好的理解機器推理和人工智能的本質。讀書會已完結,現在報名可加入社群并解鎖回放視頻權限。
詳情請見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.