本文參考LLaDA:Large Language Diffusion Models
這個(gè)圖可以很輕松的讓沒(méi)有任何基礎(chǔ)的人看懂DLM的工作原理,它會(huì)根據(jù)問(wèn)題直接生成一個(gè)回答草稿,然后一次次的修改和潤(rùn)色草稿,最終輸出回答。
Prompt:Explain what artificial intelligence is.

來(lái)源:https://ml-gsai.github.io/LLaDA-demo/
而傳統(tǒng)的大模型是一個(gè)字一個(gè)字的吐,比如我問(wèn)DeepSeek,跟上面同樣的問(wèn)題,它的回答模式就是線性的,下一個(gè)字的輸出取決于前面的內(nèi)容,跟后面的內(nèi)容沒(méi)有關(guān)系。
這個(gè)就是現(xiàn)在最為主流的大模型生成原理,autoregressive modeling (ARM),它的核心公式就是下面,就是根據(jù)前面的所有內(nèi)容預(yù)測(cè)下個(gè)字。
![]()
我在介紹ChatGPT原理的時(shí)候提到過(guò)(從deepseek書里面找)。
而DLM(Diffusion Large language model)走的是非常不一樣,但是又比較符合人類直覺的路子。
就比如說(shuō)高考作文題要求寫一篇不少于800字的議論文,“AI的出現(xiàn)給人類帶來(lái)了什么改變?”
傳統(tǒng)的LLM會(huì)一個(gè)字一個(gè)字的往外蹦,也就是線性生成過(guò)程。
就比如這個(gè)生成了一句話。
![]()
下一時(shí)刻它生成的就只有一個(gè)字,不多不少,就只多一個(gè)字。
![]()
你可以觀察任何一個(gè)傳統(tǒng)的大模型,DeepSeek,ChatGPT,Qwen,Gemini等等,都是這樣的,跳不出這個(gè)邏輯,因?yàn)樗牡讓釉O(shè)計(jì)就是一個(gè)字一個(gè)字的往外吐。

而DLM則是完全不同的邏輯,它是直接生成一篇800字的“文章”,為什么要加引號(hào),是因?yàn)檫@個(gè)最初生成的“文章”很有可能狗屁不通,壓根不能算做文章。
但是它快呀,你別管它能不能讀,反正快是肯定的。
并且它有獨(dú)特的更新機(jī)制,就像下面的這張圖,它會(huì)一輪輪的迭代更新自己的內(nèi)容,你看當(dāng)前時(shí)刻可能只確定了一部分的詞匯(紅色),但是在下一時(shí)刻,可能就有更多的內(nèi)容被確定了出來(lái)(綠色)。
![]()
多輪迭代之后,就可以實(shí)驗(yàn)整體性的優(yōu)化,最后實(shí)現(xiàn)跟傳統(tǒng)大模型類似的結(jié)果,你像這個(gè)領(lǐng)域的經(jīng)典工作,LLaDA,在同等模型大小的前提下,在大多數(shù)的任務(wù)上表現(xiàn)并不比其他的模型差多少。
![]()
從結(jié)果為導(dǎo)向來(lái)看,這也是DLM為什么會(huì)吸引關(guān)注的主要原因,因?yàn)樗娴目欤瑐鹘y(tǒng)大模型生成速度再快,也得一個(gè)字一個(gè)字來(lái)。
有些工作雖然在做next two tokens(預(yù)測(cè)下兩個(gè)字符),甚至更多的字符,但是進(jìn)展非常緩慢,并且從直覺來(lái)看,DLM明顯要比傳統(tǒng)大模型更具備可擴(kuò)展性。
就跟我們寫作文的時(shí)候,很少時(shí)候是一個(gè)字一個(gè)字的往出蹦想法,而是總體上有個(gè)考量,然后甚至?xí)趲讉€(gè)部分想幾個(gè)金句出來(lái),只不過(guò)在最后執(zhí)行的時(shí)候是一個(gè)字一個(gè)字的寫。
油畫的創(chuàng)作過(guò)程就比較類似,先來(lái)一個(gè)非常粗略的草稿,然后一層層的上顏色,一次次的涂個(gè)幾層幾十層都不是什么稀罕事。
其實(shí)這個(gè)正好暗合了DLM中D這個(gè)字母所代表的技術(shù),也就是Diffusion,這個(gè)技術(shù)原本是應(yīng)用在圖像生成(Image generation)上面的,可以說(shuō)現(xiàn)在絕大多數(shù)的圖像以及視頻生成都是基于這個(gè)技術(shù),比如OpenAI的Sora,阿里的Wan通義萬(wàn)相等。
簡(jiǎn)單來(lái)說(shuō),就是生成一堆亂七八糟的噪音,然后讓AI學(xué)習(xí)怎么從噪音轉(zhuǎn)換到想要的圖片或者視頻。

DLM只不過(guò)是把脫胎于圖像生成的技術(shù)應(yīng)用到了文字生成,所以這也是很多技術(shù)到了最后都會(huì)兼容的主要原因,單一技術(shù)總會(huì)存在這樣那樣的限制,而取眾家之長(zhǎng)則是必然要走的路。
DLM的核心技術(shù)技術(shù)其實(shí)原理上很直觀,不同于LLM的next token prediction,它做的是mask predictor。
![]()
Next token prediction我們之前講過(guò)了,那就是根據(jù)現(xiàn)有的句子,預(yù)測(cè)下一個(gè)詞,
Mask predictor類似,就是隨機(jī)的把一段話的部分內(nèi)容“掩蓋”住,這就是Mask的來(lái)源,被蓋住的內(nèi)容就叫掩碼(masked token)。
比如說(shuō)在最開始訓(xùn)練的時(shí)候,我們提供了一個(gè)數(shù)據(jù),下面這個(gè)基本上大家都知道。
![]()
如果是LLM學(xué)習(xí)的話,它在知道“世上無(wú)”這三個(gè)字之后,基本上可以穩(wěn)定輸出后面的所有內(nèi)容,它是線性的。
而DLM不太一樣,它會(huì)隨機(jī)“掩蓋”幾個(gè)字,就比如說(shuō)這樣的,然后讓大模型去學(xué)習(xí)怎么去填空。
![]()
它可能會(huì)這么填,也可能有其他的填法。
![]()
但是在一輪輪的訓(xùn)練,迭代,它也能學(xué)會(huì)這種填空的方法。
正好契合了LLaDA的流程,總體上就是隨機(jī)掩蓋一部分字符,然后去預(yù)測(cè)這些內(nèi)容。
![]()
最后達(dá)到極致,就是直接輸出要求的所有內(nèi)容,只不過(guò)是以隨機(jī)的字符輸出,然后在一輪輪的迭代下,生成最終需要的文章。
這篇文章的這個(gè)例子很直觀,用戶了提問(wèn)了一個(gè)簡(jiǎn)單的數(shù)學(xué)題:
Lily can run 12 kilometers per hour for 4 hours. After that, she runs 6 kilometers per hour. How many kilometers can she run in 8 hours?
LLaDA在生成回答的時(shí)候,顏色深的部分是后面確定的,顏色淺的部分時(shí)早些時(shí)候確定的。
可以看到非關(guān)鍵信息比如人名Lily,量詞hours,很早就確定了下來(lái)。而比較關(guān)鍵的數(shù)字,特別是4這個(gè)數(shù)字,以及涉及到運(yùn)算和邏輯的部分,都是在后面確定的。
![]()
也可以從這個(gè)案例中看到,DLM在生成內(nèi)容的時(shí)候,在遵循一定的主次關(guān)系。
還有更多的案例,可以在論文的附錄appendix里找到。
![]()
總的來(lái)說(shuō),這是一項(xiàng)非常有前景的技術(shù),只不過(guò)相比起只預(yù)測(cè)下一個(gè)字符來(lái)說(shuō),技術(shù)難度要更高一些;但從長(zhǎng)遠(yuǎn)來(lái)說(shuō),潛力不小,特別是Google也在下場(chǎng)做這件事。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.