![]()
編輯|+0
站在 2026 年的開端回望,LLM 的架構(gòu)之爭(zhēng)似乎進(jìn)入了一個(gè)新的微妙階段。過(guò)去幾年,Transformer 架構(gòu)以絕對(duì)的統(tǒng)治力橫掃了人工智能領(lǐng)域,但隨著算力成本的博弈和對(duì)推理效率的極致追求,挑戰(zhàn)者們從未停止過(guò)腳步。
知名 AI 研究員 Sebastian Raschka 的最新洞察中,他不僅回應(yīng)了關(guān)于「Transformer 是否會(huì)被取代」的年度終極之問,更敏銳地捕捉到了近期業(yè)界的一個(gè)重要轉(zhuǎn)向:從單純追求模型參數(shù)的「大力出奇跡」,轉(zhuǎn)向了混合架構(gòu)與效率微調(diào)的精細(xì)化戰(zhàn)爭(zhēng)。
同時(shí),文章還探討了一個(gè)極具潛力的變量:擴(kuò)散語(yǔ)言模型。這類模型在 Google 等巨頭的布局下會(huì)有怎樣的表現(xiàn)?它們?cè)凇腹ぞ哒{(diào)用」上的天然缺陷是否會(huì)成為阿喀琉斯之踵?而在高質(zhì)量數(shù)據(jù)日益枯竭的今天,擴(kuò)散模型又是否能憑借「超級(jí)數(shù)據(jù)學(xué)習(xí)者」的特性,成為打破數(shù)據(jù)墻的關(guān)鍵?
以下內(nèi)容編譯自 Sebastian Raschka 的最新博文,并結(jié)合文中提及的前沿論文及往期深度分析進(jìn)行了系統(tǒng)性拓展,以便讀者獲取更完整的上下文視角。
![]()
- 博客地址:https://x.com/rasbt/status/2010376305720594810
最近幾周,我經(jīng)常被問到的一個(gè)問題是:在 2026 年,我們是否會(huì)看到自回歸 Transformer 架構(gòu)(即標(biāo)準(zhǔn)的 LLM)的替代方案。
就目前而言,我堅(jiān)信Transformer 在未來(lái)(至少一到幾年內(nèi))仍將保持其在 SOTA 性能方面的地位。它是當(dāng)前 AI 生態(tài)系統(tǒng)的基石,擁有最成熟的工具鏈和優(yōu)化方案。
但是,情況確實(shí)會(huì)發(fā)生一些微調(diào)。這并不是說(shuō)架構(gòu)會(huì)一成不變,而是這種變化更多體現(xiàn)在「效率」和「混合」上,而非徹底的推倒重來(lái)。
效率戰(zhàn)爭(zhēng):
混合架構(gòu)與線性注意力的崛起
臨近去年年底,我們看到業(yè)界更加關(guān)注混合架構(gòu)以及如何提高其效率。當(dāng)然,這并不是什么新想法,但近期來(lái)自頂尖實(shí)驗(yàn)室的發(fā)布表明,目前的側(cè)重點(diǎn)已明顯向此傾斜。
我們回顧一下 DeepSeek V3 以及隨后的 R1,它們展示了混合專家模型(MoE)和多頭潛在注意力(MLA)的強(qiáng)大之處。DeepSeek V3 通過(guò) MLA 顯著減少了推理時(shí)的 KV Cache 占用,而 MoE 架構(gòu)則允許模型在擁有 6710 億參數(shù)的同時(shí),每次推理僅激活 370 億參數(shù)。這種在保持模型巨大容量的同時(shí)極致壓縮推理成本的設(shè)計(jì)思路,正是 2025 年末到 2026 年的主旋律。
但這還不是全部。除了 MoE,我們看到了更激進(jìn)的效率嘗試,例如Qwen3-Next、Kimi Linear、Nvidia Nemotron 3,以及采用了稀疏注意力機(jī)制的 DeepSeek V3.2。(如果您對(duì)更多細(xì)節(jié)感興趣,我在之前的《Big LLM Architecture Comparison》一文中對(duì)此進(jìn)行了報(bào)道。)
![]()
帶有這類效率調(diào)整的 Transformer 架構(gòu)示意圖。
- 相關(guān)鏈接:https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison
為什么大家都在卷「線性注意力」或「稀疏注意力」?
標(biāo)準(zhǔn)的 Transformer 注意力機(jī)制(Scaled Dot-Product Attention)具有 O(N^2) 的復(fù)雜度,這意味著隨著上下文長(zhǎng)度的增加,計(jì)算成本呈二次方爆炸式增長(zhǎng)。
- Qwen3-NextKimi Linear采用了一種混合策略:它們并非完全拋棄標(biāo)準(zhǔn)注意力,而是將高效的線性層(如 Gated DeltaNet)與全注意力層以一定比例(如 3:1)混合。這種設(shè)計(jì)試圖在捕捉長(zhǎng)距離依賴(全注意力的強(qiáng)項(xiàng))和推理速度(線性層的強(qiáng)項(xiàng))之間找到最佳平衡點(diǎn)。
- DeepSeek V3.2則引入了稀疏注意力,通過(guò)只計(jì)算最重要的 Token 之間的相互作用,進(jìn)一步降低了計(jì)算開銷。
這些「微調(diào)」表明,2026 年的競(jìng)爭(zhēng)不再僅僅是看誰(shuí)的模型更聰明,而是看誰(shuí)能在更長(zhǎng)的上下文、更低的延遲下提供同等的智能。
擴(kuò)散語(yǔ)言模型:
速度與代價(jià)的博弈
話說(shuō)回來(lái),除了 Transformer 的變體,擴(kuò)散語(yǔ)言模型怎么樣?
擴(kuò)散語(yǔ)言模型之所以具有吸引力,是因?yàn)樗鼈兡軌蛞韵鄬?duì)快速且低廉的成本生成 Token。與自回歸模型(AR)那種「一個(gè)字接一個(gè)字」的串行生成不同,擴(kuò)散模型采用的是并行生成。
想象一下,自回歸模型像是一個(gè)人在打字,必須打完上一個(gè)字才能打下一個(gè);而擴(kuò)散模型更像是在沖洗一張照片,整段文字從模糊的噪聲中同時(shí)顯現(xiàn),經(jīng)過(guò)數(shù)次「去噪」迭代后變得清晰。
我前陣子在《Beyond Standard LLMs》一文中對(duì)此多寫了一些。簡(jiǎn)而言之,我認(rèn)為 2026 年我們會(huì)看到更多相關(guān)內(nèi)容,Google 可能會(huì)推出Gemini Diffusion作為其更便宜的 Flash 模型的替代品。Google 已經(jīng)在其技術(shù)博客中暗示了這一點(diǎn),強(qiáng)調(diào)其生成速度「明顯快于我們目前最快的模型」。
- 相關(guān)鏈接:https://magazine.sebastianraschka.com/p/beyond-standard-llms
然而,雖然擴(kuò)散語(yǔ)言模型的優(yōu)勢(shì)在于它們可以并行生成 Token,但這同時(shí)也是一個(gè)巨大的缺點(diǎn)。因?yàn)橛捎诓⑿猩傻奶匦裕?strong>它們無(wú)法在響應(yīng)鏈中原生地整合工具調(diào)用。
在自回歸模型中,模型可以生成「調(diào)用計(jì)算器」的指令,暫停,等待結(jié)果,然后再繼續(xù)生成。而在擴(kuò)散模型中,整個(gè)響應(yīng)是同時(shí)生成的,很難在中間插入一個(gè)外部工具的交互步驟。這使得它們?cè)谧鳛橹悄荏w使用時(shí)面臨巨大挑戰(zhàn)。

文本擴(kuò)散過(guò)程示例。
此外,雖然眾所周知文本擴(kuò)散推理效率更高,但最近的研究也表明,如果你為了提升質(zhì)量而增加去噪步數(shù)以匹配自回歸模型的性能,那么最終的計(jì)算預(yù)算其實(shí)是相差無(wú)幾的。
數(shù)據(jù)枯竭時(shí)代的「超級(jí)學(xué)習(xí)者」
那么,我想表達(dá)什么呢?既然擴(kuò)散模型有這些缺陷,為什么我還認(rèn)為它值得關(guān)注?
我原本計(jì)劃討論一月份發(fā)布的近期一系列有趣的研究,但我還是想簡(jiǎn)要重點(diǎn)介紹一篇我在「待讀論文」清單上的、2025 年 11 月的有趣論文,它強(qiáng)調(diào)了擴(kuò)散語(yǔ)言模型的一個(gè)有趣優(yōu)勢(shì):《Diffusion Language Models are Super Data Learners》。
- 論文地址:https://arxiv.org/abs/2511.03276
![]()
來(lái)自論文《Diffusion Language Models are Super Data Learners》的帶注釋圖表。
這篇論文提出了一個(gè)在 2026 年至關(guān)重要的觀點(diǎn):當(dāng)高質(zhì)量數(shù)據(jù)變得稀缺時(shí),擴(kuò)散模型可能是更好的學(xué)習(xí)者。
眾所周知,互聯(lián)網(wǎng)上的高質(zhì)量文本數(shù)據(jù)正在接近枯竭。對(duì)于自回歸(AR)模型來(lái)說(shuō),通常我們只讓模型把數(shù)據(jù)「看」一遍(1 Epoch)。如果讓 AR 模型反復(fù)在同一份數(shù)據(jù)上訓(xùn)練,它們很容易過(guò)擬合,即死記硬背訓(xùn)練數(shù)據(jù),導(dǎo)致在未見過(guò)的新任務(wù)上表現(xiàn)下降。
然而,上述論文表明,當(dāng)進(jìn)行多 Epoch 訓(xùn)練時(shí),文本擴(kuò)散模型的表現(xiàn)可能優(yōu)于標(biāo)準(zhǔn)的自回歸(AR)大語(yǔ)言模型。
根據(jù)論文的研究結(jié)果,在嚴(yán)格控制的預(yù)訓(xùn)練設(shè)置下,當(dāng)唯一數(shù)據(jù)量有限時(shí),通過(guò)增加訓(xùn)練輪數(shù),擴(kuò)散語(yǔ)言模型的表現(xiàn)持續(xù)超越了自回歸模型。
這一現(xiàn)象被稱為「Crossover(交叉點(diǎn))」:
- 當(dāng)數(shù)據(jù)量充足時(shí),AR 模型學(xué)得更快。
- 但當(dāng)數(shù)據(jù)受限時(shí),DLM 是最終的贏家。例如,一個(gè) 10 億參數(shù)的 DLM 模型,僅僅通過(guò)反復(fù)訓(xùn)練 10 億個(gè) Token(這在今天看是非常小的數(shù)據(jù)量),在 HellaSwag 和 MMLU 基準(zhǔn)測(cè)試上分別達(dá)到了 >56% 和 >33% 的準(zhǔn)確率,且沒有使用任何特殊技巧。
為什么會(huì)這樣?論文歸結(jié)為三個(gè)因素:
- 任意順序建模:AR 模型被迫只能從左到右學(xué)習(xí),而擴(kuò)散模型可以學(xué)習(xí)文本中任意位置之間的依賴關(guān)系。
- 超高密度計(jì)算:通過(guò)迭代的雙向去噪,DLM 在訓(xùn)練時(shí)實(shí)際上對(duì)每個(gè)樣本進(jìn)行了更深度的壓榨。
- 內(nèi)置的蒙特卡洛增強(qiáng):擴(kuò)散過(guò)程本身就是一種數(shù)據(jù)增強(qiáng)。同一個(gè)句子,每次加噪的方式都不一樣,相當(dāng)于把一條數(shù)據(jù)變成了無(wú)數(shù)條變體。
更有趣的是,論文發(fā)現(xiàn),對(duì)于 DLM 來(lái)說(shuō),驗(yàn)證集損失的上升并不意味著下游能力的下降。即便模型在驗(yàn)證集上看起來(lái)「過(guò)擬合」了,它在實(shí)際任務(wù)(如代碼生成、推理)上的表現(xiàn)仍在提升。
由于成本原因,過(guò)去沒有人會(huì)在多個(gè) Epoch 上訓(xùn)練大語(yǔ)言模型。但在數(shù)據(jù)枯竭的今天,如果我們不得不進(jìn)行多 Epoch 訓(xùn)練,擴(kuò)散模型似乎提供了一條新出路。
這確實(shí)是有趣的結(jié)果!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.