![]()
大語(yǔ)言模型(LLMs)的爆發(fā)式增長(zhǎng)引領(lǐng)了人工智能領(lǐng)域的范式轉(zhuǎn)移,取得了巨大的工程成功。然而,一個(gè)關(guān)鍵的悖論依然存在:盡管 LLMs 在實(shí)踐中表現(xiàn)卓越,但其理論研究仍處于起步階段,導(dǎo)致這些系統(tǒng)在很大程度上被視為難以捉摸的「黑盒」。
為了打破這一僵局,中國(guó)人民大學(xué)的研究者們采用了一種統(tǒng)一的基于生命周期的分類(lèi)法,將 LLM 理論研究整合為六個(gè)階段:數(shù)據(jù)準(zhǔn)備、模型準(zhǔn)備、訓(xùn)練、對(duì)齊、推理和評(píng)估。
本文系統(tǒng)綜述了驅(qū)動(dòng) LLM 性能的底層理論與機(jī)制,深入分析了數(shù)據(jù)混合的數(shù)學(xué)依據(jù)、不同架構(gòu)的表示極限以及對(duì)齊算法的優(yōu)化動(dòng)力學(xué),并指出了合成數(shù)據(jù)自我提升、安全保證數(shù)學(xué)邊界等前沿挑戰(zhàn)。本綜述旨在為 LLM 發(fā)展從工程啟發(fā)式方法向嚴(yán)謹(jǐn)科學(xué)學(xué)科的轉(zhuǎn)型提供結(jié)構(gòu)化路線圖。
![]()
- 論文標(biāo)題:Beyond the Black Box: Theory and Mechanism of Large Language Models
- 論文鏈接:https://arxiv.org/abs/2601.02907
引言
近年來(lái),ChatGPT、DeepSeek、Llama、Claude 等模型的涌現(xiàn)標(biāo)志著 AI 領(lǐng)域的深刻變革。隨著系統(tǒng)規(guī)模的擴(kuò)大,LLMs 展現(xiàn)出類(lèi)似人類(lèi)推理的行為,正改變著人類(lèi)與信息交互的方式。然而,正如核物理的發(fā)展經(jīng)歷了從愛(ài)因斯坦的質(zhì)能方程到原子彈爆炸的 40 年跨度,AI 領(lǐng)域的理論與應(yīng)用同步也存在顯著滯后。
盡管工程上取得了巨大成功,LLM 的理論理解仍面臨兩大挑戰(zhàn):一是規(guī)模帶來(lái)的前所未有的數(shù)學(xué)復(fù)雜度;二是模型展現(xiàn)出的諸多「涌現(xiàn)」現(xiàn)象(如幻覺(jué)、涌現(xiàn)能力、Scaling Laws 等)難以在統(tǒng)一框架下解釋。
為了解決研究碎片化的問(wèn)題,來(lái)自中國(guó)人民大學(xué)高瓴人工智能學(xué)院的研究團(tuán)隊(duì)發(fā)布了最新綜述論文 《Beyond the Black Box: Theory and Mechanism of Large Language Models》。本文不僅是一份文獻(xiàn)索引,更是一份試圖將 LLM 研究從 「工程啟發(fā)式」推向「嚴(yán)謹(jǐn)科學(xué)」的路線圖。
本綜述提出了涵蓋六大階段的生命周期路線圖。
![]()
圖表 1: 大語(yǔ)言模型理論與機(jī)制路線圖。
LLM 理論與機(jī)制的六大階段
數(shù)據(jù)準(zhǔn)備階段 (Data Preparation):探討如何保證更好的數(shù)據(jù)利用率,并量化數(shù)據(jù)特征對(duì)模型最終能力的影響,分析數(shù)據(jù)混合策略 (Data Mixture)、去重與過(guò)濾機(jī)制以及記憶 (Memorization) 與模型能力之間的關(guān)系。
模型準(zhǔn)備階段 (Model Preparation):從理論上評(píng)估架構(gòu)能力,理解 Transformer 結(jié)構(gòu)的表示能力極限、優(yōu)化景觀(如「河谷」假設(shè))以及從展開(kāi)優(yōu)化視角設(shè)計(jì)新架構(gòu)。
訓(xùn)練階段 (Training):研究簡(jiǎn)單的學(xué)習(xí)目標(biāo)如何鍛造出復(fù)雜的涌現(xiàn)能力,分析 Scaling Laws 的本質(zhì)、預(yù)訓(xùn)練的獲益機(jī)制以及參數(shù)高效微調(diào)(PEFT,如 LoRA)的機(jī)制。
對(duì)齊階段 (Alignment):探討魯棒對(duì)齊是否在數(shù)學(xué)上可實(shí)現(xiàn),分析 RLHF(的動(dòng)力學(xué),研究「超級(jí)對(duì)齊」(Superalignment)與「弱到強(qiáng)泛化」 (Weak-to-Strong Generalization)。
推理階段 (Inference):解密凍結(jié)權(quán)重的模型如何在測(cè)試時(shí)模擬學(xué)習(xí)與算法執(zhí)行,分析提示工程 (Prompt Engineering)、上下文學(xué)習(xí) (In-Context Learning) 的機(jī)制以及推理時(shí)擴(kuò)展 (Inference-Time Scaling) 帶來(lái)的推理能力提升。
評(píng)估階段 (Evaluation):從理論上定義與衡量復(fù)雜的、主觀的人類(lèi)價(jià)值觀,探討基準(zhǔn)測(cè)試的有效性、LLM-as-a-Judge 的可靠性以及安全性與透明度的形式化保證。
各個(gè)階段代表性的研究?jī)?nèi)容如下所述。
1 數(shù)據(jù)準(zhǔn)備階段:智能的基礎(chǔ)
![]()
圖表 2: 數(shù)據(jù)準(zhǔn)備階段的理論概覽。
數(shù)據(jù)準(zhǔn)備不僅僅是工程上的設(shè)計(jì),而是決定模型能力的基石。研究者們從三個(gè)維度剖析了數(shù)據(jù)的理論機(jī)制:
- 數(shù)據(jù)混合的數(shù)學(xué)邏輯:研究者利用多源學(xué)習(xí)視角,證明了當(dāng)多任務(wù)結(jié)構(gòu)共享時(shí),泛化界限不再取決于模型海量的原始參數(shù),而是取決于總壓縮編碼長(zhǎng)度。通過(guò)引入「數(shù)據(jù)混合定律」(Data Mixing Laws),小規(guī)模實(shí)驗(yàn)擬合驗(yàn)證損失函數(shù),實(shí)現(xiàn)對(duì)大規(guī)模混合策略性能的預(yù)先計(jì)算。最終,研究者們使用各種不同的理論框架,動(dòng)態(tài)尋找最優(yōu)數(shù)據(jù)混合權(quán)重的前沿方法。
- 去重與過(guò)濾的理論保障:實(shí)證研究確認(rèn)了去重能直接減少不必要的記憶,從而降低隱私風(fēng)險(xiǎn)。各種理論框架證明了高質(zhì)量、高信息密度的網(wǎng)頁(yè)數(shù)據(jù)甚至能超越人工精選語(yǔ)料。
- 記憶機(jī)制的量化分析:模型對(duì)數(shù)據(jù)的記憶并非簡(jiǎn)單的「死記硬背」。理解這種記憶機(jī)制是平衡知識(shí)獲取與隱私保護(hù)的關(guān)鍵。研究者們認(rèn)為模型通過(guò)整合模糊重復(fù)序列形成復(fù)雜記憶,也揭示了熵與記憶之間的相關(guān)性。
此外,這一階段也存在著重要的前沿開(kāi)放問(wèn)題:
- 合成數(shù)據(jù)與自主進(jìn)化:合成數(shù)據(jù)能否為模型帶來(lái)理論上的性能提升?模型是否能夠通過(guò)生成合成數(shù)據(jù)從而實(shí)現(xiàn)自主進(jìn)化?
- 數(shù)據(jù)污染:訓(xùn)練與測(cè)試數(shù)據(jù)的泄漏為 LLM 的隱私問(wèn)題帶來(lái)了挑戰(zhàn),能否從理論上規(guī)避或者緩解這一問(wèn)題?
2 模型準(zhǔn)備階段:架構(gòu)的表示極限
![]()
圖表 3: 模型準(zhǔn)備階段的理論概覽。
選擇何種模型架構(gòu)不僅關(guān)乎效率,更決定了信息的表示上限。研究者們通過(guò)以下視角探討了架構(gòu)的本質(zhì):
- 表示能力的邊界:研究者們探討了 Transformer 作為通用逼近器的數(shù)學(xué)證明,并分析了在無(wú)限精度下 Transformer 的圖靈完備性。通過(guò)電路復(fù)雜度(Circuit Complexity)理論,研究者分析了 Transformer 等架構(gòu)在處理層級(jí)結(jié)構(gòu)語(yǔ)言時(shí)的表達(dá)上限與下限,揭示了模型寬度如何成為函數(shù)組合能力的通信瓶頸。
- 優(yōu)化景觀的幾何特性:研究者們提出了諸如「河谷(River Valley)模型」等假設(shè),解釋了 Warmup-Stable-Decay 類(lèi)學(xué)習(xí)率調(diào)度如何引導(dǎo)參數(shù)在復(fù)雜的函數(shù)空間中跨越「山坡」并在「河床」方向高效前進(jìn)。
- 理論驅(qū)動(dòng)的架構(gòu)設(shè)計(jì):從「展開(kāi)優(yōu)化(Unrolled Optimization)」和「測(cè)試時(shí)訓(xùn)練(TTT)」的視角,研究者將網(wǎng)絡(luò)層等效為優(yōu)化算法的迭代步驟,為理解前沿的模型架構(gòu)提供了統(tǒng)一框架。
除此之外,研究者們也在關(guān)注模型架構(gòu)的演進(jìn),并從理論視角對(duì)新架構(gòu)進(jìn)行設(shè)計(jì)與分析:
- 線性注意力模型:線性遞歸模型在提升效率的同時(shí),是否存在無(wú)法逾越的表示瓶頸(如關(guān)聯(lián)回想能力的缺失)?
- 循環(huán)模型與隱式推理:權(quán)重共享的循環(huán)架構(gòu)是否能通過(guò)增加推斷深度,在更少的參數(shù)量下實(shí)現(xiàn)更強(qiáng)的泛化?
3 訓(xùn)練階段:模型能力的鍛造爐
![]()
圖表 4: 訓(xùn)練階段的理論概覽。
訓(xùn)練階段將靜態(tài)架構(gòu)轉(zhuǎn)化為具備智能的實(shí)體。研究者們對(duì)預(yù)訓(xùn)練和微調(diào)的機(jī)制進(jìn)行了深入解構(gòu):
- 預(yù)訓(xùn)練的收益機(jī)制:研究者論證了預(yù)訓(xùn)練本質(zhì)上是學(xué)習(xí)數(shù)據(jù)的底層上下文結(jié)構(gòu),并提出了「壓縮即智能」的觀點(diǎn),認(rèn)為語(yǔ)言模型的目標(biāo)是實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的無(wú)損壓縮。從信息論視角出發(fā),論證了 LLM 作為強(qiáng)大的無(wú)損壓縮器,其壓縮效率與下游任務(wù)性能之間存在強(qiáng)線性關(guān)系。
- Scaling Laws 的本質(zhì):通過(guò)對(duì)計(jì)算、數(shù)據(jù)和參數(shù)規(guī)模的冪律關(guān)系分析,研究者探討了能力「涌現(xiàn)」背后的連續(xù)性過(guò)程,并分析了流形假設(shè)下內(nèi)在維度如何決定縮放指數(shù)。
- 微調(diào)的數(shù)學(xué)保障:針對(duì) LoRA 等 PEFT 技術(shù),研究者分析了其在低秩子空間中的優(yōu)化動(dòng)力學(xué),證明了低秩適配器在對(duì)齊預(yù)訓(xùn)練特征梯度方面的有效性,并揭示了權(quán)重初始化(如 A 隨機(jī)、B 置零)對(duì)收斂穩(wěn)定性的關(guān)鍵影響。
此外,這一階段也存在著優(yōu)化層面的前沿探索:
- 超參數(shù)遷移:如何實(shí)現(xiàn)在小規(guī)模模型上尋找的最優(yōu)超參數(shù),能夠「零樣本」地直接應(yīng)用于萬(wàn)億級(jí)模型?
- 優(yōu)化算法的演進(jìn):除了 Adam 等一階優(yōu)化器,矩陣敏感型優(yōu)化器(如 Muon)如何利用 Hessian 結(jié)構(gòu)的塊對(duì)角特性加速收斂?
4 對(duì)齊階段:安全與價(jià)值的數(shù)學(xué)邊界
![]()
圖表 5: 對(duì)齊階段的理論概覽。
對(duì)齊不僅是指令遵循,更是人類(lèi)價(jià)值觀的注入。研究者們從安全性與動(dòng)力學(xué)視角進(jìn)行了審視:
- 對(duì)齊的理論基礎(chǔ):研究者分析了安全對(duì)齊的數(shù)學(xué)邊界,探討了現(xiàn)有對(duì)齊方法是否只是「淺層防御」,以及對(duì)齊后的模型是否存在回復(fù)原始分布的「彈性」。研究者認(rèn)為只要有害行為的概率不被完全消除,通過(guò)對(duì)抗性提示觸發(fā)違規(guī)行為在數(shù)學(xué)上是不可避免的。
- 弱到強(qiáng)泛化(W2SG):在超智能時(shí)代,弱監(jiān)督者如何可靠地控制強(qiáng)受訓(xùn)者?研究者從偏差 - 方差分解等視角,分析了強(qiáng)模型糾正弱信號(hào)錯(cuò)誤的機(jī)制,并界定了泛化增益。
- 強(qiáng)化學(xué)習(xí)的作用:研究者探討了 RL 是激活了預(yù)訓(xùn)練中的潛在模式(如代碼能力、數(shù)學(xué)推理能力),還是通過(guò)長(zhǎng)期的策略復(fù)位真正擴(kuò)張了推理邊界。同時(shí)量化了對(duì)齊與預(yù)訓(xùn)練知識(shí)保持之間的權(quán)衡,并從變分信息瓶頸視角提出了緩解「Reward Hacking」的方法。
此外,對(duì)齊階段還面臨著深層次的開(kāi)放挑戰(zhàn):
- 訓(xùn)練與對(duì)齊的關(guān)系:SFT 和 RL 在塑造模型行為上有何本質(zhì)區(qū)別?為什么 RL 在泛化性上通常優(yōu)于簡(jiǎn)單的行為克隆?
- RL 的前沿疆界:在缺乏驗(yàn)證器的開(kāi)放領(lǐng)域,如何設(shè)計(jì)高效的獎(jiǎng)勵(lì)信號(hào)?
5 推理階段:解密靜態(tài)模型的前向過(guò)程
![]()
圖表 6: 推理階段的理論概覽。
推理是釋放模型潛力的關(guān)鍵環(huán)節(jié)。研究者們解密了大模型推理中的「思維」過(guò)程:
- 提示工程與機(jī)制分析:研究者從任務(wù)重參數(shù)化角度理解 Prompt,利用 Token 分布動(dòng)力學(xué)和歸納頭(Induction Heads)機(jī)制,剖析了 Prompt 如何引導(dǎo)模型內(nèi)部的信息路由。
- 上下文學(xué)習(xí)(ICL)的機(jī)制:研究者對(duì)比了「算法執(zhí)行」與「任務(wù)定位」兩種觀點(diǎn),探討了 Transformer 是否在推斷時(shí)隱式地運(yùn)行了優(yōu)化算法。
- 推理時(shí)擴(kuò)展(Inference-Time Scaling):研究者分析了 CoT 如何作為模型的 「深度擴(kuò)展器」,證明思維鏈能顯著提升 Transformer 的計(jì)算復(fù)雜度上限,并探討了搜索算法如何通過(guò)外部計(jì)算換取推理質(zhì)量。
此外,推理階段也暴露了一些特殊的理論現(xiàn)象:
- 過(guò)度思考(Overthinking):在推理時(shí)投入更多計(jì)算資源是否總是正向的?模型為何會(huì)在簡(jiǎn)單問(wèn)題上陷入冗余推理?
- 隱式推理(Latent Reasoning):模型能否在不輸出顯式 Token 的情況下,直接在隱空間中完成多路徑的思維并行?
6 評(píng)估階段:從基準(zhǔn)測(cè)試到形式化保證
![]()
圖表 7: 評(píng)估階段的理論概覽。
評(píng)估是大模型進(jìn)步的標(biāo)準(zhǔn),但當(dāng)前的評(píng)估手段正面臨嚴(yán)峻挑戰(zhàn):
- 基準(zhǔn)測(cè)試?yán)碚摚貉芯空呃貌煌睦碚摽蚣芊治隽藗鹘y(tǒng)基準(zhǔn)測(cè)試的飽和問(wèn)題與捷徑學(xué)習(xí)現(xiàn)象,并剖析了「LLM-as-a-Judge」模式中的系統(tǒng)性偏見(jiàn)。
- 安全性與透明度:研究者深入探討了可解釋性(如 Sparse Autoencoders),對(duì)模型內(nèi)部特征進(jìn)行解構(gòu),并利用計(jì)算不可解性證明了在任何可計(jì)算的 LLM 中,幻覺(jué)都是不可消除的理論必然。
- 抗誤用機(jī)制:研究者通過(guò)水印(Watermarking)等技術(shù),探討了識(shí)別 AI 生成內(nèi)容與保持文本質(zhì)量之間的理論權(quán)衡。
此外,評(píng)估階段也催生了關(guān)于模型內(nèi)部表示的深刻討論:
- 線性表示假設(shè):語(yǔ)義概念(如真實(shí)性)在模型潛空間中是否真的以線性方向編碼?
- 推理失效模式:如「逆轉(zhuǎn)詛咒(Reversal Curse)」和「位置偏差(Lost-in-the-Middle)」,這些失敗案例揭示了自回歸模型在邏輯對(duì)稱(chēng)性上的本質(zhì)缺陷。
結(jié)語(yǔ):邁向 AGI 的未來(lái)
盡管我們已經(jīng)邁出了從經(jīng)驗(yàn)邁向科學(xué)的第一步,但隨著 LLM 的不斷發(fā)展,更多的前沿理論問(wèn)題依然亟待解決。正如愛(ài)因斯坦所言:「科學(xué)的偉大目標(biāo)是用最少數(shù)量的假設(shè)或公理推導(dǎo)出最大數(shù)量的經(jīng)驗(yàn)事實(shí)。」我們希望為社區(qū)提供一份結(jié)構(gòu)化的 LLM 理論研究路線圖,共同揭開(kāi)黑盒背后的真理。
作者介紹
劉勇,中國(guó)人民大學(xué),長(zhǎng)聘副教授,博士生導(dǎo)師,國(guó)家級(jí)高層次青年人才。長(zhǎng)期從事機(jī)器學(xué)習(xí)基礎(chǔ)理論研究,共發(fā)表論文 100 余篇,其中以第一作者 / 通訊作者發(fā)表頂級(jí)期刊和會(huì)議論文近 50 篇,涵蓋機(jī)器學(xué)習(xí)領(lǐng)域頂級(jí)期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和頂級(jí)會(huì)議 ICML、NeurIPS 等。獲中國(guó)人民大學(xué)「杰出學(xué)者」、中國(guó)科學(xué)院「青年創(chuàng)新促進(jìn)會(huì)」成員、中國(guó)科學(xué)院信息工程研究所「引進(jìn)優(yōu)青」等稱(chēng)號(hào)。主持國(guó)家自然科學(xué)面上 / 基金青年、北京市面上項(xiàng)目、中科院基礎(chǔ)前沿科學(xué)研究計(jì)劃、騰訊犀牛鳥(niǎo)基金、CCF - 華為胡楊林基金等項(xiàng)目。
甘澤宇,中國(guó)人民大學(xué)高瓴人工智能學(xué)院博士研究生,本科及碩士研究生畢業(yè)于中國(guó)人民大學(xué)信息學(xué)院。當(dāng)前主要研究方向包括大模型機(jī)理分析。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.