![]()
這項由威斯康星大學麥迪遜分校、Scitix、康奈爾大學、杜克大學、加州大學戴維斯分校和南方科技大學聯合開展的研究,以預印本形式發布于2026年4月,論文編號為arXiv:2604.01622。感興趣的讀者可以通過該編號查詢完整論文。
**研究背景:當AI寫作需要一個"專家團隊"**
現代大型語言模型的規模越來越驚人,動輒數百億甚至上千億個參數。為了在保持龐大知識儲備的同時不讓每次回答都耗費天量算力,工程師們想出了一個聰明的辦法:給模型配備一個由許多"專家"組成的團隊,每次處理文字時只激活其中少數幾位專家,而不是讓所有人同時上陣。這種架構在AI圈里叫做"混合專家模型"(Mixture-of-Experts,簡稱MoE)。
目前最先進的對話AI系統,比如Mixtral、DeepSeek-V3、Qwen2.5等,都采用了這種團隊分工的方式。然而,這些模型有一個共同點:它們的"派單方式"都是由任務方主動發起的——也就是說,每個需要處理的文字單元自己決定去找哪位專家幫忙。這種方式在逐字生成文本的傳統AI中沒什么問題,但放到另一類正在崛起的AI架構中,卻暴露出了明顯的缺陷。
這類架構叫做"擴散語言模型"(Diffusion Language Models,簡稱DLM)。與傳統AI一個字一個字往外蹦不同,擴散語言模型更像是在一張白紙上同時處理整句話——先把所有位置都打上問號,然后一輪一輪地把問號換成真實的文字,直到整個句子完整呈現。這種方式可以并行處理,理論上速度更快,近年來吸引了大量研究者的關注。
研究團隊發現,把為逐字生成設計的派單方式直接搬到擴散語言模型上,就像用出租車調度系統來管理一個同時處理整棟樓快遞的倉庫——水土不服,問題重重。于是他們提出了一套更適合擴散語言模型的分工方案,并從實驗中得出了一系列令人印象深刻的結論。
一、兩種派單方式的根本區別:誰來決定找誰
要理解這項研究的核心,需要先弄清楚兩種截然不同的"派單哲學"。
在傳統方式下,規則是"任務找專家":每一個需要處理的文字單元,自行查看所有專家的簡歷,然后選擇自己最信任的那幾位。這種方式叫做"令牌選擇"(Token-Choice,簡稱TC)路由。聽起來很民主,但問題很快就浮現出來了——如果同時有一百個文字單元都覺得專家A最厲害,專家A就會被淹沒在工作中,而其他專家則在發呆等活干。這種情況叫做"負載不均衡",是TC路由的頑疾。
為了解決這個問題,工程師們通常要給模型加上一個額外的"公平性懲罰"——如果某位專家承接了太多活,就扣分。但這個懲罰會與模型學習語言的主要目標產生沖突,相當于在學生專心備考的時候還要分心遵守額外的紀律規定,效果打折扣。而且即便如此,負載不均衡的問題也無法從根本上消除,因為每個文字單元依然在獨立做決定。
另一種方式則翻轉了規則,叫做"專家選擇"(Expert-Choice,簡稱EC)路由:每位專家主動選取自己認為最需要幫助的若干個文字單元。這樣一來,每位專家的工作量就是固定的,整個團隊的負載天然均衡,根本不需要額外的懲罰機制。
這種方式聽起來簡單,卻有一個關鍵的前提條件:專家在做選擇的時候,必須能看到所有候選的文字單元。在傳統逐字生成的AI中,這是做不到的——下一個詞還沒生成出來,專家怎么可能預先知道它的需求呢?然而在擴散語言模型中,每一輪去噪都是在完整的序列上操作的,所有文字單元同時擺在那里,專家完全可以縱觀全局再做選擇。這正是研究團隊的核心洞察:擴散語言模型的架構特性,天然與專家選擇路由高度契合。
二、速度對比:同樣的目的地,EC走得快一倍
研究團隊搭建了一系列完全相同的模型架構,唯一的區別是路由方式不同,然后讓它們在同樣的數據上從零開始訓練,并記錄訓練損失隨時間的變化。
結果相當直觀:采用專家選擇路由的模型,在10.6小時內就把訓練損失降到了3.75;而采用傳統令牌選擇路由的模型,不管是"無上限版"還是"限容量版",都需要將近21小時才能達到同樣的損失水平。換句話說,專家選擇路由的模型學得足足快了兩倍。
背后的原因可以用一個工廠的比喻來理解。假設一條生產線上有8臺機器,每臺機器的加工速度是固定的。在令牌選擇模式下,訂單由客戶隨機選擇機器,結果是某臺機器堆滿了訂單,其他機器卻在空轉等待。為了不讓生產線停擺,所有機器都必須等最忙的那臺完成當前批次后才能進入下一輪,這就是所謂的"掉隊者效應"。
在專家選擇模式下,調度員統一分配訂單,每臺機器的任務量完全相同,所有機器同步完成,沒有任何等待。研究團隊測量了每臺GPU(圖形處理器,承擔模型計算工作的硬件)的內存占用量,發現在令牌選擇模式下,8臺GPU的內存使用量差異高達標準差3.6GB,最忙的那臺甚至用掉了70.3GB,遠超其他機器的58到64GB;而在專家選擇模式下,所有GPU的內存占用完全相同,標準差為零。
這種均衡不只是讓系統更整潔,更是實實在在轉化成了速度優勢。測量顯示,專家選擇路由能達到每塊GPU每秒52.1萬億次浮點運算的吞吐量,而各種令牌選擇變體只能達到24.9到35.4,相差1.5到2.1倍。
三、不只是快,還能"因材施教":按去噪階段動態分配計算資源
發現專家選擇路由更快只是這項研究的第一步。研究團隊隨即意識到,EC路由還能做一件TC路由根本無法做到的事情:根據當前處于哪個去噪階段,靈活調整每位專家處理多少個文字單元。
擴散語言模型的工作原理,就像是在一張滿是涂改液的文稿上一層層地擦出原文。第一輪時,幾乎所有位置都是涂改液(高遮掩率),模型幾乎沒有上下文可以參考;最后幾輪時,絕大多數文字已經清晰可見,只剩下一兩個詞還在模糊之中(低遮掩率)。
直覺上,人們可能會認為最難的階段是開頭——一無所知的時候最需要幫助。但實驗給出了截然不同的答案。研究團隊設計了七種不同的"容量調度方案",分別在不同的去噪階段多投入或少投入計算資源,同時保證所有方案的總計算量完全相同(這樣對比才公平)。
在以困惑度(Perplexity,衡量語言模型預測準確性的指標,數值越低越好)為標準的評測中,"線性反轉方案"表現最佳,得分36.5。這個方案的規則很簡單:遮掩率越低,投入的計算資源越多。換句話說,把最多的專家力量集中在即將完成的最后幾步。而"線性方案"——遮掩率越高投入越多——得分只有37.5,還不如不做任何調整的靜態基線(37.1)。
這個發現說明,在接近完稿的階段投入更多計算資源,比在一片空白的初始階段投入更有價值。
研究團隊還在更大規模的模型上驗證了這一結論。他們在名為Nemotron-CC的大型數據集上預訓練了兩個擁有80億參數(其中10億參數被激活)的模型,訓練量達到2000億個詞次。采用動態線性反轉調度的模型,在驗證困惑度上穩定低于靜態基線(例如在2000億詞次訓練后分別為19.18對19.19),在MMLU(一個衡量綜合知識水平的標準測試)和ARC-Challenge(一個科學推理測試)上的準確率也持續領先,且每一個檢查點都是如此,并非偶然波動。
四、為什么"最后幾步"最值得多投入:學習效率的數量級差異
既然實驗已經給出了答案,研究團隊還想搞清楚背后的原因。他們設計了一套衡量"學習效率"的方法,把遮掩率分成四個區間(0到25%、25%到50%、50%到75%、75%到100%),分別追蹤每個區間內模型的損失隨訓練步數的下降速度,并用一個叫做"收斂率"的指標來量化這種速度。
所謂收斂率,可以理解為"模型在這個難度等級的問題上,每向前走一步能進步多少"。這個指標在對數空間下計算,使得不同難度區間之間的比較具有可比性。
測量結果令人吃驚:處于最低遮掩率區間(0到25%)的文字單元,其收斂率高達62.2(×10??),而處于最高遮掩率區間(75%到100%)的文字單元,收斂率只有9.8(×10??),相差超過六倍,而且隨著訓練推進,這個差距還在持續擴大。到了訓練后期,最低遮掩率區間的收斂率(2.5×10??)依然是最高遮掩率區間(0.3×10??)的約八倍,某些階段差距甚至接近二十倍。
這就像一個班級里,有些同學每做一道練習題就能進步一大步,有些同學做十道題才有同等進步。如果老師的精力有限,當然應該把更多時間花在"學習效率高的同學"身上,才能讓整體成績提升最快。
低遮掩率階段之所以學習效率高,研究團隊給出了一個合理解釋:當絕大多數文字已經顯現,只剩下一兩個位置還在迷霧中時,模型掌握了豐富的上下文,每一次對這些殘余位置的預測嘗試都包含了密集的信息量。而在高遮掩率階段,上下文極度匱乏,模型的大多數猜測都幾乎是在黑暗中摸索,從每次嘗試中學到的東西自然有限。
動態EC的比值分析進一步印證了這一點:在低遮掩率區間,動態EC模型的收斂率比靜態EC高出約3%,而在高遮掩率區間則低約1%到5%。這正是一種有價值的以退換進:犧牲在低效區間的少量進步,換取在高效區間的更多收益,凈效果是正的。
五、舊模型也能煥新生:只換一個小部件,就能提速又提質
研究團隊還面對了一個非常實際的問題:已經訓練好的傳統模型,能不能從專家選擇路由中受益,而不需要從頭重新訓練?
他們選取了一個叫做LLaDA-MoE的已訓練模型,只替換其中的路由器(相當于把"誰找誰"的規則改成"誰選誰"),所有專家的權重、嵌入參數和其他結構都保持不變,然后在四個不同任務上進行微調:代碼生成(HumanEval和HumanEval-Plus)、數學推理(GSM8K)和醫學知識問答(MedQA)。
結果顯示,僅僅換了路由器,EC版本的模型在所有四個任務上的訓練收斂速度都明顯快于原始TC版本,而最終達到的準確率相當或更高。動態EC(采用線性反轉調度)在四項任務的平均準確率上進一步領先:54.9%對靜態EC的53.6%,對原始TC的52.6%。
除了準確率,推理速度的提升同樣顯著。由于專家選擇路由消除了負載不均衡,模型在實際運行時也不再出現部分計算單元空等的情況。測量顯示,EC和動態EC版本的每輪評測解碼時間比TC版本快了1.3到1.5倍。以HumanEval任務為例,TC版本每輪評測需要1369秒,而EC版本只需要1008秒,動態EC需要1056秒。
這意味著,已經部署在產品中的擴散語言模型,可以通過一次相對低成本的手術——僅僅更換路由邏輯——獲得訓練更快、推理更快、準確率更高的三重收益,而不必承擔從頭訓練數百億參數模型所需的巨額計算費用。
六、細節與邊界:不完美之處同樣值得關注
這項研究也并非沒有值得商榷的地方,研究團隊在論文中坦誠地指出了若干局限。
首先,專家選擇路由有一個潛在的令人擔憂之處:如果某個文字單元沒有被任何專家選中,會不會導致信息丟失?測量顯示,在靜態EC模式下,中間層(第2到14層)有不足1.1%的詞次未被任何路由專家選中,整體平均未覆蓋率約為2.7%;動態EC由于在高遮掩率階段容量極低,平均未覆蓋率升至8.0%。不過,模型中還有兩位"共享專家"會無條件處理所有詞次,因此被路由專家跳過的詞次并不會完全丟失處理機會。此外,從概率角度看,一個詞次在所有16層都被跳過的概率極其微小,在靜態EC下約為10???,在動態EC下約為10???,實際上幾乎不會發生。
其次,本研究設計的所有容量調度方案都是人工預設的(線性、余弦、高斯及其反轉變體),而不是由模型自行學習出來的最優方案。研究團隊也承認,最優方案可能隨模型規模、訓練數據和任務類型的不同而變化。一個自然的后續方向是訓練一個輕量級的容量預測器,讓模型根據當前狀態動態決定應該給每位專家分配多少工作量,而不是依賴預先設定的規則。這種方向在視覺擴散模型領域(如DiffMoE)已有先例,但在語言擴散模型中尚屬空白。
還有一個有趣的細節:余弦反轉調度雖然也傾向于在低遮掩率階段投入更多資源,但它的分配策略比線性反轉更為激進——在遮掩率接近零時投入極多,在遮掩率接近一時投入極少。然而其最終困惑度(37.2)反而略差于線性反轉(36.5)。這說明完全"餓死"高遮掩率階段并不明智;線性反轉之所以表現最佳,或許正在于它在兩個極端之間保持了更好的平衡。
歸根結底,這項研究做了一件看起來簡單但影響深遠的事情:它證明了,當AI模型的工作方式發生根本性變化時(從逐字生成變為同步去噪),其內部的資源分配策略也應該隨之重新設計,而不是簡單地照搬舊有范式。
專家選擇路由讓擴散語言模型的訓練速度翻倍,推理速度提升三到五成,而動態容量調度則進一步挖掘了擴散過程本身的結構規律——不同階段的學習價值天差地別,應當區別對待。更重要的是,這套改進不需要改動模型的大部分組件,已有的模型只需換掉一個路由器就能受益。
對于普通人而言,這意味著未來基于擴散語言模型的AI寫作、編程、問答工具,有望在更低的計算成本下提供更快的響應速度和更高的準確率。而對于研究者而言,這項工作打開了一個新的視角:迭代生成過程中的計算分配,不應被視為固定的架構常數,而應被視為可以主動設計的策略變量。
有興趣深入了解技術細節的讀者,可以通過arXiv編號2604.01622查閱完整論文。
Q&A
Q1:專家選擇路由和令牌選擇路由在擴散語言模型中有什么本質區別?
A:令牌選擇路由中,每個文字單元自行挑選專家,容易造成某些專家被擠爆、其他專家閑置,所有計算單元必須等最忙的那個完成才能推進下一步。專家選擇路由反過來讓每位專家主動選取固定數量的文字單元,負載天然均衡。擴散語言模型每輪都能看到完整序列,這正好滿足了專家做全局選擇的前提條件,因此兩者天然適配。
Q2:為什么把更多計算資源放在低遮掩率階段比放在高遮掩率階段效果更好?
A:研究發現,在低遮掩率階段(大部分文字已顯現,只剩少量位置待填)時,模型的學習效率比高遮掩率階段高出數倍甚至數十倍。原因在于此時上下文豐富,每一次預測嘗試都包含大量有用信號;而在高遮掩率階段,上下文極少,每次嘗試能學到的東西很有限。按學習效率高低分配資源,整體性能自然更好。
Q3:已經訓練好的擴散語言模型如何轉換為專家選擇路由?
A:轉換方式非常簡潔,只需替換模型內部負責分配任務的路由器組件,將"文字找專家"的邏輯改成"專家選文字",專家權重、語言嵌入和其他所有參數完全保留不動。替換后在目標任務上進行短暫微調,即可獲得更快的訓練收斂速度、更快的推理速度,以及在多數任務上更高的準確率。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.