<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Sebastian Raschka 2026預(yù)測(cè):Transformer統(tǒng)治依舊,擴(kuò)散模型崛起

      0
      分享至



      編輯|+0

      站在 2026 年的開端回望,LLM 的架構(gòu)之爭(zhēng)似乎進(jìn)入了一個(gè)新的微妙階段。過(guò)去幾年,Transformer 架構(gòu)以絕對(duì)的統(tǒng)治力橫掃了人工智能領(lǐng)域,但隨著算力成本的博弈和對(duì)推理效率的極致追求,挑戰(zhàn)者們從未停止過(guò)腳步。

      知名 AI 研究員 Sebastian Raschka 的最新洞察中,他不僅回應(yīng)了關(guān)于「Transformer 是否會(huì)被取代」的年度終極之問,更敏銳地捕捉到了近期業(yè)界的一個(gè)重要轉(zhuǎn)向:從單純追求模型參數(shù)的「大力出奇跡」,轉(zhuǎn)向了混合架構(gòu)與效率微調(diào)的精細(xì)化戰(zhàn)爭(zhēng)。

      同時(shí),文章還探討了一個(gè)極具潛力的變量:擴(kuò)散語(yǔ)言模型。這類模型在 Google 等巨頭的布局下會(huì)有怎樣的表現(xiàn)?它們?cè)凇腹ぞ哒{(diào)用」上的天然缺陷是否會(huì)成為阿喀琉斯之踵?而在高質(zhì)量數(shù)據(jù)日益枯竭的今天,擴(kuò)散模型又是否能憑借「超級(jí)數(shù)據(jù)學(xué)習(xí)者」的特性,成為打破數(shù)據(jù)墻的關(guān)鍵?

      以下內(nèi)容編譯自 Sebastian Raschka 的最新博文,并結(jié)合文中提及的前沿論文及往期深度分析進(jìn)行了系統(tǒng)性拓展,以便讀者獲取更完整的上下文視角。



      • 博客地址:https://x.com/rasbt/status/2010376305720594810

      最近幾周,我經(jīng)常被問到的一個(gè)問題是:在 2026 年,我們是否會(huì)看到自回歸 Transformer 架構(gòu)(即標(biāo)準(zhǔn)的 LLM)的替代方案。

      就目前而言,我堅(jiān)信Transformer 在未來(lái)(至少一到幾年內(nèi))仍將保持其在 SOTA 性能方面的地位。它是當(dāng)前 AI 生態(tài)系統(tǒng)的基石,擁有最成熟的工具鏈和優(yōu)化方案。

      但是,情況確實(shí)會(huì)發(fā)生一些微調(diào)。這并不是說(shuō)架構(gòu)會(huì)一成不變,而是這種變化更多體現(xiàn)在「效率」和「混合」上,而非徹底的推倒重來(lái)。

      效率戰(zhàn)爭(zhēng):

      混合架構(gòu)與線性注意力的崛起

      臨近去年年底,我們看到業(yè)界更加關(guān)注混合架構(gòu)以及如何提高其效率。當(dāng)然,這并不是什么新想法,但近期來(lái)自頂尖實(shí)驗(yàn)室的發(fā)布表明,目前的側(cè)重點(diǎn)已明顯向此傾斜。

      我們回顧一下 DeepSeek V3 以及隨后的 R1,它們展示了混合專家模型(MoE)和多頭潛在注意力(MLA)的強(qiáng)大之處。DeepSeek V3 通過(guò) MLA 顯著減少了推理時(shí)的 KV Cache 占用,而 MoE 架構(gòu)則允許模型在擁有 6710 億參數(shù)的同時(shí),每次推理僅激活 370 億參數(shù)。這種在保持模型巨大容量的同時(shí)極致壓縮推理成本的設(shè)計(jì)思路,正是 2025 年末到 2026 年的主旋律。

      但這還不是全部。除了 MoE,我們看到了更激進(jìn)的效率嘗試,例如Qwen3-Next、Kimi Linear、Nvidia Nemotron 3,以及采用了稀疏注意力機(jī)制的 DeepSeek V3.2。(如果您對(duì)更多細(xì)節(jié)感興趣,我在之前的《Big LLM Architecture Comparison》一文中對(duì)此進(jìn)行了報(bào)道。)



      帶有這類效率調(diào)整的 Transformer 架構(gòu)示意圖。

      • 相關(guān)鏈接:https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison

      為什么大家都在卷「線性注意力」或「稀疏注意力」?

      標(biāo)準(zhǔn)的 Transformer 注意力機(jī)制(Scaled Dot-Product Attention)具有 O(N^2) 的復(fù)雜度,這意味著隨著上下文長(zhǎng)度的增加,計(jì)算成本呈二次方爆炸式增長(zhǎng)。

      • Qwen3-NextKimi Linear采用了一種混合策略:它們并非完全拋棄標(biāo)準(zhǔn)注意力,而是將高效的線性層(如 Gated DeltaNet)與全注意力層以一定比例(如 3:1)混合。這種設(shè)計(jì)試圖在捕捉長(zhǎng)距離依賴(全注意力的強(qiáng)項(xiàng))和推理速度(線性層的強(qiáng)項(xiàng))之間找到最佳平衡點(diǎn)。
      • DeepSeek V3.2則引入了稀疏注意力,通過(guò)只計(jì)算最重要的 Token 之間的相互作用,進(jìn)一步降低了計(jì)算開銷。

      這些「微調(diào)」表明,2026 年的競(jìng)爭(zhēng)不再僅僅是看誰(shuí)的模型更聰明,而是看誰(shuí)能在更長(zhǎng)的上下文、更低的延遲下提供同等的智能。

      擴(kuò)散語(yǔ)言模型:

      速度與代價(jià)的博弈

      話說(shuō)回來(lái),除了 Transformer 的變體,擴(kuò)散語(yǔ)言模型怎么樣?

      擴(kuò)散語(yǔ)言模型之所以具有吸引力,是因?yàn)樗鼈兡軌蛞韵鄬?duì)快速且低廉的成本生成 Token。與自回歸模型(AR)那種「一個(gè)字接一個(gè)字」的串行生成不同,擴(kuò)散模型采用的是并行生成。

      想象一下,自回歸模型像是一個(gè)人在打字,必須打完上一個(gè)字才能打下一個(gè);而擴(kuò)散模型更像是在沖洗一張照片,整段文字從模糊的噪聲中同時(shí)顯現(xiàn),經(jīng)過(guò)數(shù)次「去噪」迭代后變得清晰。

      我前陣子在《Beyond Standard LLMs》一文中對(duì)此多寫了一些。簡(jiǎn)而言之,我認(rèn)為 2026 年我們會(huì)看到更多相關(guān)內(nèi)容,Google 可能會(huì)推出Gemini Diffusion作為其更便宜的 Flash 模型的替代品。Google 已經(jīng)在其技術(shù)博客中暗示了這一點(diǎn),強(qiáng)調(diào)其生成速度「明顯快于我們目前最快的模型」。

      • 相關(guān)鏈接:https://magazine.sebastianraschka.com/p/beyond-standard-llms

      然而,雖然擴(kuò)散語(yǔ)言模型的優(yōu)勢(shì)在于它們可以并行生成 Token,但這同時(shí)也是一個(gè)巨大的缺點(diǎn)。因?yàn)橛捎诓⑿猩傻奶匦裕?strong>它們無(wú)法在響應(yīng)鏈中原生地整合工具調(diào)用。

      在自回歸模型中,模型可以生成「調(diào)用計(jì)算器」的指令,暫停,等待結(jié)果,然后再繼續(xù)生成。而在擴(kuò)散模型中,整個(gè)響應(yīng)是同時(shí)生成的,很難在中間插入一個(gè)外部工具的交互步驟。這使得它們?cè)谧鳛橹悄荏w使用時(shí)面臨巨大挑戰(zhàn)。



      文本擴(kuò)散過(guò)程示例。

      此外,雖然眾所周知文本擴(kuò)散推理效率更高,但最近的研究也表明,如果你為了提升質(zhì)量而增加去噪步數(shù)以匹配自回歸模型的性能,那么最終的計(jì)算預(yù)算其實(shí)是相差無(wú)幾的。

      數(shù)據(jù)枯竭時(shí)代的「超級(jí)學(xué)習(xí)者」

      那么,我想表達(dá)什么呢?既然擴(kuò)散模型有這些缺陷,為什么我還認(rèn)為它值得關(guān)注?

      我原本計(jì)劃討論一月份發(fā)布的近期一系列有趣的研究,但我還是想簡(jiǎn)要重點(diǎn)介紹一篇我在「待讀論文」清單上的、2025 年 11 月的有趣論文,它強(qiáng)調(diào)了擴(kuò)散語(yǔ)言模型的一個(gè)有趣優(yōu)勢(shì):《Diffusion Language Models are Super Data Learners》。

      • 論文地址:https://arxiv.org/abs/2511.03276



      來(lái)自論文《Diffusion Language Models are Super Data Learners》的帶注釋圖表。

      這篇論文提出了一個(gè)在 2026 年至關(guān)重要的觀點(diǎn):當(dāng)高質(zhì)量數(shù)據(jù)變得稀缺時(shí),擴(kuò)散模型可能是更好的學(xué)習(xí)者。

      眾所周知,互聯(lián)網(wǎng)上的高質(zhì)量文本數(shù)據(jù)正在接近枯竭。對(duì)于自回歸(AR)模型來(lái)說(shuō),通常我們只讓模型把數(shù)據(jù)「看」一遍(1 Epoch)。如果讓 AR 模型反復(fù)在同一份數(shù)據(jù)上訓(xùn)練,它們很容易過(guò)擬合,即死記硬背訓(xùn)練數(shù)據(jù),導(dǎo)致在未見過(guò)的新任務(wù)上表現(xiàn)下降。

      然而,上述論文表明,當(dāng)進(jìn)行多 Epoch 訓(xùn)練時(shí),文本擴(kuò)散模型的表現(xiàn)可能優(yōu)于標(biāo)準(zhǔn)的自回歸(AR)大語(yǔ)言模型。

      根據(jù)論文的研究結(jié)果,在嚴(yán)格控制的預(yù)訓(xùn)練設(shè)置下,當(dāng)唯一數(shù)據(jù)量有限時(shí),通過(guò)增加訓(xùn)練輪數(shù),擴(kuò)散語(yǔ)言模型的表現(xiàn)持續(xù)超越了自回歸模型。

      這一現(xiàn)象被稱為「Crossover(交叉點(diǎn))」:

      • 當(dāng)數(shù)據(jù)量充足時(shí),AR 模型學(xué)得更快。
      • 但當(dāng)數(shù)據(jù)受限時(shí),DLM 是最終的贏家。例如,一個(gè) 10 億參數(shù)的 DLM 模型,僅僅通過(guò)反復(fù)訓(xùn)練 10 億個(gè) Token(這在今天看是非常小的數(shù)據(jù)量),在 HellaSwag 和 MMLU 基準(zhǔn)測(cè)試上分別達(dá)到了 >56% 和 >33% 的準(zhǔn)確率,且沒有使用任何特殊技巧。

      為什么會(huì)這樣?論文歸結(jié)為三個(gè)因素:

      • 任意順序建模:AR 模型被迫只能從左到右學(xué)習(xí),而擴(kuò)散模型可以學(xué)習(xí)文本中任意位置之間的依賴關(guān)系。
      • 超高密度計(jì)算:通過(guò)迭代的雙向去噪,DLM 在訓(xùn)練時(shí)實(shí)際上對(duì)每個(gè)樣本進(jìn)行了更深度的壓榨。
      • 內(nèi)置的蒙特卡洛增強(qiáng):擴(kuò)散過(guò)程本身就是一種數(shù)據(jù)增強(qiáng)。同一個(gè)句子,每次加噪的方式都不一樣,相當(dāng)于把一條數(shù)據(jù)變成了無(wú)數(shù)條變體。

      更有趣的是,論文發(fā)現(xiàn),對(duì)于 DLM 來(lái)說(shuō),驗(yàn)證集損失的上升并不意味著下游能力的下降。即便模型在驗(yàn)證集上看起來(lái)「過(guò)擬合」了,它在實(shí)際任務(wù)(如代碼生成、推理)上的表現(xiàn)仍在提升。

      由于成本原因,過(guò)去沒有人會(huì)在多個(gè) Epoch 上訓(xùn)練大語(yǔ)言模型。但在數(shù)據(jù)枯竭的今天,如果我們不得不進(jìn)行多 Epoch 訓(xùn)練,擴(kuò)散模型似乎提供了一條新出路。

      這確實(shí)是有趣的結(jié)果!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      欣旺達(dá)的至暗時(shí)刻:沃爾沃全球召回、吉利23億索賠,生死局!

      欣旺達(dá)的至暗時(shí)刻:沃爾沃全球召回、吉利23億索賠,生死局!

      新浪財(cái)經(jīng)
      2026-01-12 23:06:58
      外交部:會(huì)采取一切必要措施保護(hù)在伊朗中國(guó)公民安全

      外交部:會(huì)采取一切必要措施保護(hù)在伊朗中國(guó)公民安全

      財(cái)聯(lián)社
      2026-01-13 15:20:18
      27℃→7℃!冷空氣或在大寒節(jié)氣影響廣州

      27℃→7℃!冷空氣或在大寒節(jié)氣影響廣州

      魯中晨報(bào)
      2026-01-14 21:31:04
      故事:42歲女子做試管生下兒子,8年后卻找醫(yī)生痛哭:我還不如不生

      故事:42歲女子做試管生下兒子,8年后卻找醫(yī)生痛哭:我還不如不生

      濤哥講堂
      2024-08-20 15:47:46
      黎筍之子黎堅(jiān)誠(chéng)坦言:父親選擇同中國(guó)開戰(zhàn),是其畢生最大的失策

      黎筍之子黎堅(jiān)誠(chéng)坦言:父親選擇同中國(guó)開戰(zhàn),是其畢生最大的失策

      磊子講史
      2025-12-24 11:04:05
      停牌前漲停!002554,天津市國(guó)資委擬入主!

      停牌前漲停!002554,天津市國(guó)資委擬入主!

      證券時(shí)報(bào)e公司
      2026-01-14 22:37:15
      數(shù)據(jù)不會(huì)說(shuō)謊!浙江大勝?gòu)V州豪取五連勝,一戰(zhàn)體現(xiàn)兩點(diǎn)不爭(zhēng)事實(shí)!

      數(shù)據(jù)不會(huì)說(shuō)謊!浙江大勝?gòu)V州豪取五連勝,一戰(zhàn)體現(xiàn)兩點(diǎn)不爭(zhēng)事實(shí)!

      田先生籃球
      2026-01-14 23:16:54
      卡里克戰(zhàn)術(shù)陣型敲定!棄用三中衛(wèi)改打4-2-3-1,B費(fèi)成最大受益者

      卡里克戰(zhàn)術(shù)陣型敲定!棄用三中衛(wèi)改打4-2-3-1,B費(fèi)成最大受益者

      夜白侃球
      2026-01-14 22:13:13
      財(cái)政壓力的下半場(chǎng):退休人員占比近四成,才是硬賬

      財(cái)政壓力的下半場(chǎng):退休人員占比近四成,才是硬賬

      超先聲
      2026-01-09 16:45:39
      【2026.1.14】扒醬料不停:那些你不知道的八卦一二三

      【2026.1.14】扒醬料不停:那些你不知道的八卦一二三

      娛樂真爆姐
      2026-01-14 23:35:16
      你在部隊(duì)出過(guò)最離譜的公差是啥?網(wǎng)友:出了個(gè)差,意外娶了個(gè)媳婦

      你在部隊(duì)出過(guò)最離譜的公差是啥?網(wǎng)友:出了個(gè)差,意外娶了個(gè)媳婦

      夜深愛雜談
      2026-01-13 20:06:20
      今日歐美娛樂簡(jiǎn)報(bào):金球獎(jiǎng)撒糖、霉霉破紀(jì)錄與“鮑小強(qiáng)”翻車

      今日歐美娛樂簡(jiǎn)報(bào):金球獎(jiǎng)撒糖、霉霉破紀(jì)錄與“鮑小強(qiáng)”翻車

      粉紅凍奶的觀影日記
      2026-01-14 21:40:03
      不丹4位王母!4姐妹共侍一夫爭(zhēng)風(fēng)吃醋一生,大姐被老國(guó)王寵愛一輩子,卻沒能當(dāng)太后

      不丹4位王母!4姐妹共侍一夫爭(zhēng)風(fēng)吃醋一生,大姐被老國(guó)王寵愛一輩子,卻沒能當(dāng)太后

      小魚愛魚樂
      2026-01-13 19:16:11
      裝逼撞到你擅長(zhǎng)的領(lǐng)域是啥體驗(yàn)?網(wǎng)友:我曾經(jīng)也干過(guò)這種事呀

      裝逼撞到你擅長(zhǎng)的領(lǐng)域是啥體驗(yàn)?網(wǎng)友:我曾經(jīng)也干過(guò)這種事呀

      夜深愛雜談
      2025-12-21 17:57:28
      連續(xù)3年退賽!羽球名將:印度不適合辦比賽

      連續(xù)3年退賽!羽球名將:印度不適合辦比賽

      湖報(bào)體育
      2026-01-14 22:31:21
      格陵蘭島本就不是丹麥的!真正歸屬早有定論,只是條約安排的結(jié)果

      格陵蘭島本就不是丹麥的!真正歸屬早有定論,只是條約安排的結(jié)果

      普覽
      2026-01-13 14:30:31
      技術(shù)看市:4萬(wàn)億天量突發(fā)跳水,各個(gè)周期均無(wú)頂部結(jié)構(gòu),市場(chǎng)已經(jīng)很強(qiáng),回調(diào)隨時(shí)可能結(jié)束

      技術(shù)看市:4萬(wàn)億天量突發(fā)跳水,各個(gè)周期均無(wú)頂部結(jié)構(gòu),市場(chǎng)已經(jīng)很強(qiáng),回調(diào)隨時(shí)可能結(jié)束

      金融界
      2026-01-14 17:53:20
      “吃飯八分飽”被推翻了?醫(yī)生:過(guò)了62歲,吃飯盡量要做到這4點(diǎn)

      “吃飯八分飽”被推翻了?醫(yī)生:過(guò)了62歲,吃飯盡量要做到這4點(diǎn)

      蜉蝣說(shuō)
      2025-12-19 21:58:22
      觀致汽車常熟工廠二拍在即,起拍價(jià)降至8.6億元,姚振華舉報(bào):資產(chǎn)被“賤賣”,價(jià)值應(yīng)為80億元

      觀致汽車常熟工廠二拍在即,起拍價(jià)降至8.6億元,姚振華舉報(bào):資產(chǎn)被“賤賣”,價(jià)值應(yīng)為80億元

      紅星資本局
      2026-01-14 20:55:06
      Science:首次證實(shí),有些狗狗通過(guò)偷聽主人對(duì)話學(xué)會(huì)新詞匯,能力堪比一歲半的人類寶寶

      Science:首次證實(shí),有些狗狗通過(guò)偷聽主人對(duì)話學(xué)會(huì)新詞匯,能力堪比一歲半的人類寶寶

      生物世界
      2026-01-12 12:24:25
      2026-01-14 23:52:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12117文章數(shù) 142536關(guān)注度
      往期回顧 全部

      科技要聞

      攜程因涉嫌壟斷被市場(chǎng)監(jiān)管總局調(diào)查

      頭條要聞

      媒體:公開鼓動(dòng)抗議者 特朗普新表態(tài)讓全球嗅到火藥味

      頭條要聞

      媒體:公開鼓動(dòng)抗議者 特朗普新表態(tài)讓全球嗅到火藥味

      體育要聞

      你是個(gè)好球員,我們就拿你交易吧

      娛樂要聞

      網(wǎng)紅彭十六偷稅被封殺 曾成功轉(zhuǎn)型明星

      財(cái)經(jīng)要聞

      攜程被立案調(diào)查,最高或被罰超50億

      汽車要聞

      曝Model Y或降到20萬(wàn)以內(nèi)!

      態(tài)度原創(chuàng)

      親子
      時(shí)尚
      數(shù)碼
      教育
      軍事航空

      親子要聞

      這是對(duì)我不太滿意啊

      最時(shí)髦的單品,難道不是背肌嗎?

      數(shù)碼要聞

      存儲(chǔ)漲價(jià)沖擊DIY市場(chǎng),DDR3主板銷量意外逆勢(shì)倍增

      教育要聞

      普通家庭的孩子為什么很難出頭?

      軍事要聞

      中東氣氛愈發(fā)緊張 伊朗處于最高戰(zhàn)備狀態(tài)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 青青青爽视频在线观看 | 精品人人妻人人澡人人爽牛牛| 久久久精品午夜免费不卡| 久久88香港三级台湾三级播放| 醉酒后少妇被疯狂内射视频| 免费情侣作爱视频| 崇礼县| 欧美色综合天天久久综合精品 | 遵化市| 精品久久久久国产免费| 国产传媒av| 一本色道久久亚洲综合精品| 伊人欧美在线| 热99re久久免费视精品频| 乱中年女人伦| 翼城县| 欧美日韩不卡视频合集| 尹人成人| 特黄少妇60分钟在线观看播放| 色悠悠撸视频| 装睡被陌生人摸出水好爽| 精品无码一区二区三区爱欲| 五月天婷婷综合久久| 丰满少妇在线观看网站| 一本一道av中文字幕无码| 男人的天堂av社区在线| 国产毛片在线看| 精品人妻一区| 欧美另类3| 无卡无码| 国产精品天干天干综合网| 亚洲无码精品视频| 亚洲夂夂婷婷色拍ww47| 亚洲精品久久久久久久观小说| 人妻精品国产一区二区| 日本AⅤ精品一区二区三区日| 国产av一区二区三区无码野战 | 先锋成人影音| 亚洲日本天堂| 午夜理论片yy6080私人影院| 国产精品毛片一区二区|