網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

2025年黑馬：擴(kuò)散語(yǔ)言模型(DLM)？跟傳統(tǒng)大語(yǔ)言模型相比有什么優(yōu)勢(shì)？

2025-05-29 18:54:35　來(lái)源: 平凡AI

海外舉報(bào)

分享至

本文參考LLaDA：Large Language Diffusion Models

這個(gè)圖可以很輕松的讓沒(méi)有任何基礎(chǔ)的人看懂DLM的工作原理，它會(huì)根據(jù)問(wèn)題直接生成一個(gè)回答草稿，然后一次次的修改和潤(rùn)色草稿，最終輸出回答。

Prompt：Explain what artificial intelligence is.

來(lái)源：https://ml-gsai.github.io/LLaDA-demo/

而傳統(tǒng)的大模型是一個(gè)字一個(gè)字的吐，比如我問(wèn)DeepSeek，跟上面同樣的問(wèn)題，它的回答模式就是線性的，下一個(gè)字的輸出取決于前面的內(nèi)容，跟后面的內(nèi)容沒(méi)有關(guān)系。

這個(gè)就是現(xiàn)在最為主流的大模型生成原理，autoregressive modeling (ARM)，它的核心公式就是下面，就是根據(jù)前面的所有內(nèi)容預(yù)測(cè)下個(gè)字。

我在介紹ChatGPT原理的時(shí)候提到過(guò)（從deepseek書里面找）。

而DLM（Diffusion Large language model）走的是非常不一樣，但是又比較符合人類直覺的路子。

就比如說(shuō)高考作文題要求寫一篇不少于800字的議論文，“AI的出現(xiàn)給人類帶來(lái)了什么改變？”

傳統(tǒng)的LLM會(huì)一個(gè)字一個(gè)字的往外蹦，也就是線性生成過(guò)程。

就比如這個(gè)生成了一句話。

下一時(shí)刻它生成的就只有一個(gè)字，不多不少，就只多一個(gè)字。

你可以觀察任何一個(gè)傳統(tǒng)的大模型，DeepSeek，ChatGPT，Qwen，Gemini等等，都是這樣的，跳不出這個(gè)邏輯，因?yàn)樗牡讓釉O(shè)計(jì)就是一個(gè)字一個(gè)字的往外吐。

而DLM則是完全不同的邏輯，它是直接生成一篇800字的“文章”，為什么要加引號(hào)，是因?yàn)檫@個(gè)最初生成的“文章”很有可能狗屁不通，壓根不能算做文章。

但是它快呀，你別管它能不能讀，反正快是肯定的。

并且它有獨(dú)特的更新機(jī)制，就像下面的這張圖，它會(huì)一輪輪的迭代更新自己的內(nèi)容，你看當(dāng)前時(shí)刻可能只確定了一部分的詞匯（紅色），但是在下一時(shí)刻，可能就有更多的內(nèi)容被確定了出來(lái)（綠色）。

多輪迭代之后，就可以實(shí)驗(yàn)整體性的優(yōu)化，最后實(shí)現(xiàn)跟傳統(tǒng)大模型類似的結(jié)果，你像這個(gè)領(lǐng)域的經(jīng)典工作，LLaDA，在同等模型大小的前提下，在大多數(shù)的任務(wù)上表現(xiàn)并不比其他的模型差多少。

從結(jié)果為導(dǎo)向來(lái)看，這也是DLM為什么會(huì)吸引關(guān)注的主要原因，因?yàn)樗娴目欤瑐鹘y(tǒng)大模型生成速度再快，也得一個(gè)字一個(gè)字來(lái)。

有些工作雖然在做next two tokens（預(yù)測(cè)下兩個(gè)字符），甚至更多的字符，但是進(jìn)展非常緩慢，并且從直覺來(lái)看，DLM明顯要比傳統(tǒng)大模型更具備可擴(kuò)展性。

就跟我們寫作文的時(shí)候，很少時(shí)候是一個(gè)字一個(gè)字的往出蹦想法，而是總體上有個(gè)考量，然后甚至?xí)趲讉€(gè)部分想幾個(gè)金句出來(lái)，只不過(guò)在最后執(zhí)行的時(shí)候是一個(gè)字一個(gè)字的寫。

油畫的創(chuàng)作過(guò)程就比較類似，先來(lái)一個(gè)非常粗略的草稿，然后一層層的上顏色，一次次的涂個(gè)幾層幾十層都不是什么稀罕事。

其實(shí)這個(gè)正好暗合了DLM中D這個(gè)字母所代表的技術(shù)，也就是Diffusion，這個(gè)技術(shù)原本是應(yīng)用在圖像生成（Image generation）上面的，可以說(shuō)現(xiàn)在絕大多數(shù)的圖像以及視頻生成都是基于這個(gè)技術(shù)，比如OpenAI的Sora，阿里的Wan通義萬(wàn)相等。

簡(jiǎn)單來(lái)說(shuō)，就是生成一堆亂七八糟的噪音，然后讓AI學(xué)習(xí)怎么從噪音轉(zhuǎn)換到想要的圖片或者視頻。

DLM只不過(guò)是把脫胎于圖像生成的技術(shù)應(yīng)用到了文字生成，所以這也是很多技術(shù)到了最后都會(huì)兼容的主要原因，單一技術(shù)總會(huì)存在這樣那樣的限制，而取眾家之長(zhǎng)則是必然要走的路。

DLM的核心技術(shù)技術(shù)其實(shí)原理上很直觀，不同于LLM的next token prediction，它做的是mask predictor。

Next token prediction我們之前講過(guò)了，那就是根據(jù)現(xiàn)有的句子，預(yù)測(cè)下一個(gè)詞，

Mask predictor類似，就是隨機(jī)的把一段話的部分內(nèi)容“掩蓋”住，這就是Mask的來(lái)源，被蓋住的內(nèi)容就叫掩碼（masked token）。

比如說(shuō)在最開始訓(xùn)練的時(shí)候，我們提供了一個(gè)數(shù)據(jù)，下面這個(gè)基本上大家都知道。

如果是LLM學(xué)習(xí)的話，它在知道“世上無(wú)”這三個(gè)字之后，基本上可以穩(wěn)定輸出后面的所有內(nèi)容，它是線性的。

而DLM不太一樣，它會(huì)隨機(jī)“掩蓋”幾個(gè)字，就比如說(shuō)這樣的，然后讓大模型去學(xué)習(xí)怎么去填空。

它可能會(huì)這么填，也可能有其他的填法。

但是在一輪輪的訓(xùn)練，迭代，它也能學(xué)會(huì)這種填空的方法。

正好契合了LLaDA的流程，總體上就是隨機(jī)掩蓋一部分字符，然后去預(yù)測(cè)這些內(nèi)容。

最后達(dá)到極致，就是直接輸出要求的所有內(nèi)容，只不過(guò)是以隨機(jī)的字符輸出，然后在一輪輪的迭代下，生成最終需要的文章。

這篇文章的這個(gè)例子很直觀，用戶了提問(wèn)了一個(gè)簡(jiǎn)單的數(shù)學(xué)題：

Lily can run 12 kilometers per hour for 4 hours. After that, she runs 6 kilometers per hour. How many kilometers can she run in 8 hours?

LLaDA在生成回答的時(shí)候，顏色深的部分是后面確定的，顏色淺的部分時(shí)早些時(shí)候確定的。

可以看到非關(guān)鍵信息比如人名Lily，量詞hours，很早就確定了下來(lái)。而比較關(guān)鍵的數(shù)字，特別是4這個(gè)數(shù)字，以及涉及到運(yùn)算和邏輯的部分，都是在后面確定的。

也可以從這個(gè)案例中看到，DLM在生成內(nèi)容的時(shí)候，在遵循一定的主次關(guān)系。

還有更多的案例，可以在論文的附錄appendix里找到。

總的來(lái)說(shuō)，這是一項(xiàng)非常有前景的技術(shù)，只不過(guò)相比起只預(yù)測(cè)下一個(gè)字符來(lái)說(shuō)，技術(shù)難度要更高一些；但從長(zhǎng)遠(yuǎn)來(lái)說(shuō)，潛力不小，特別是Google也在下場(chǎng)做這件事。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.