<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      LangFlow: 挑戰離散擴散,探索下一代語言模型新范式

      0
      分享至



      主要作者團隊:Yuxin Chen 現為伊利諾伊大學厄巴納 - 香檳分校(UIUC)碩士一年級學生,Chumeng Liang 為 UIUC 博士一年級學生,Hangke Sui 為 UIUC 博士二年級學生,Ge Liu 為 UIUC 計算機系助理教授。Liu Lab 團隊長期聚焦擴散 / 流模型方向,已產出 Riemannian Consistency Model (RCM), Statistical Flow Matching, 及本文 LangFlow 等多項代表性研究成果。



      • 論文標題:LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling
      • 論文鏈接:https://arxiv.org/abs/2604.11748
      • github:https://github.com/nealchen2003/LangFlow
      • huggingface:https://huggingface.co/papers/2604.11748

      “在圖像視頻領域統治的連續擴散模型,為何在文本上遲遲無法突破壁壘,甚至被迫走向‘模仿自回歸’的妥協之路?”

      當前擴散語言模型(DLM)深陷 “越像 AR 性能越好” 的怪圈。為逼近 AR,主流研究轉向離散擴散,卻陷入并行解碼困境,逐漸喪失了低延遲與多模態等原生潛力。

      面對路線分歧,UIUC Ge Liu 團隊發布新作《LangFlow: Continuous Flow Matching for Large Language Models》,徹底回歸最傳統的連續擴散架構。研究指出,連續擴散在文本上的受挫并非先天缺陷,而是受限于訓練與評估策略。經過系統性優化,LangFlow 首次讓連續擴散在標準基準上追平離散擴散。

      這項工作不僅打破了文本生成的離散壁壘,更證明了保留 Diffusion 原生特性的連續架構 “同樣能打”,為探索低延遲、高可控的多模態統一架構,重新打通了一條被長期忽視的底層路線。

      語言模型的發展方向

      當今大語言模型(不論是 ChatGPT 還是 DeepSeek)的基礎是自回歸(Autoregressive, AR)架構,也就是常說的 “預測下個詞元”。雖然 AR 架構已經取得了巨大的成功,但有幾個本質性的天花板難以突破:

      1)推理延遲。 AR 架構每次推理只預測下一個詞元,這意味著:

      推理延遲 = 推理步數 × 單步延遲 = 輸出詞元數 × 單步延遲.

      對于 AR 模型來說,單步延遲主要受限于從顯存中讀取之前的內容(KV 緩存)。所以,每讀一次 KV 緩存只計算一個新詞元是很浪費的。

      2)可控性。 AR 架構主要兼容使用提示詞的控制方式。提示詞與其它信息處于同等地位,因此 AR 受制于指令失效的問題。

      3)模態局限性。 AR 架構主要用于預測離散模態,生成圖像、視頻、空間位置、機器人動作等連續模態則需要搭載擴散生成頭,不利于架構統一。

      擴散語言模型簡史

      近年來,主流思想認為,擴散語言模型越像自回歸,表現就越好。而最經典的連續擴散,一般認為存在先天劣勢;但這一偏見正在逐漸被打破



      隨著 Stable Diffusion 等先進生成模型的發布,Diffusion 在圖像和視頻生成中確立了統治地位。2022-2023 年,大家自然想把它遷到文本上,以期解決以上三個問題:

      1)低延遲。 Diffusion 可以蒸餾成一步生成模型(如 Consistency Model),讀一次 KV 緩存同時輸出多個詞元,大幅降低推理延遲。

      2)高可控。 Diffusion 有 Classifier Guidance 以及 Classifier-Free Guidance 等成熟技術,可以強化指令跟隨的質量。

      3)多模態。 Diffusion 已經是連續模態的主流范式,若將離散模態連續化,則可以統一架構,同時不會損失任何信息,反之則不然。

      盡管上述愿景富有吸引力,但早期的實驗結果并不理想,且隨著模型規模的擴大,性能差距愈發明顯。例如,參數量擴展至 1B 的連續擴散模型 Plaid,其性能僅與 100M 參數的 AR Transformer 相當。而 Diffusion-LM 等模型甚至難以在無條件情況下生成通順句子。

      傳統擴散模型在語言任務上的局限性,促使研究社區轉向一種 “離散 Diffusion”,也就是從初態(全 [MASK] 或者詞表中均勻隨機)出發,每步以一個小概率替換部分詞元。2024 年,離散 Diffusion 取得了顯著進展,尤其是初始為全 [MASK] 態的 Masked Diffusion 家族最為突出,把與 AR 的 PPL 差距縮到 10 以內。近期的里程碑是 Block Diffusion,它把數據每 4–32 個 token 分一塊,塊內是 MDLM,塊間是 AR,PPL 只比 AR 差 3 左右。

      截至 2025 年中,DLM 的演進路線是很明確的:

      (連續)Diffusion → 離散 Diffusion → Masked Diffusion → Block Diffusion

      趨勢十分清晰:Diffusion 越像 AR,性能就越接近 AR。這逐漸成為工業界的共識:在擴展 DLM 規模時,工業界普遍采用 Block Diffusion,平均每次推理能預測接下來 32 個詞元中的 4 個。這其實與 DeepSeek-V3 的多詞元預測(multi-token prediction)技術不謀而合。

      然而,Masked Diffusion 在逼近 AR 性能的同時,也弱化了 Diffusion 的特色,犧牲了以上三個核心潛力中的兩個:推理延遲與多模態能力。

      (連續)Diffusion 之所以能蒸餾為一步,是因為其概率流 ODE 形式下(注:DDIM 的連續時間版本,每步不注入噪聲,等價于一般意義下的 Flow Matching),每個隨機初態確定性地對應一個終點。然而,Masked Diffusion 初始為單一的全 [MASK] 態,通過逐步注入隨機性,才能生成多種不同的結果;如果一步同時解碼多個 token,其間的對應關系是捕捉不到的。因此,Masked Diffusion 深陷并行解碼困境(parallel decoding dilemma),也就是隨著生成步數的減少,多種可能的目標句交叉混疊,質量不可避免地走向崩潰,如下圖:



      Masked Diffusion 的得失引出一個核心問題:如果 Diffusion 必須依賴模仿 AR 才能提升性能,其作為獨立語言模型架構的獨特價值便有待商榷了。

      連續擴散模型的回歸

      2025 年,前沿研究開始重新審視這一路線,嘗試回歸多初始態架構,以保留 Diffusion 的核心特性。代表作 Duo 改進了基于均勻隨機噪聲的離散 Diffusion,雖然在 OpenWebText 上未能超過 Masked Diffusion,但在少步蒸餾后仍保持生成質量,并采用專為離散 Diffusion 設計的引導機制。近期研究甚至表明,在 GSM8K(數學基準)的擴大規模測試中,Duo 擊敗了 Masked Diffusion 和 AR。這表明模仿 AR 并非提升擴散模型性能的唯一路徑。

      在最新工作 LangFlow 中,研究團隊比 Duo 更徹底地回歸 —— 直接回到最傳統的 Diffusion。該研究證明:早期連續 DLM 的表現不佳并非源于架構的先天缺陷,而是受限于訓練策略與評估方法。經優化后,同樣在 GPT-2-small 規模下,連續 Diffusion 追平了離散 Diffusion,甚至可與 AR 相當。具體來說,該團隊發布的模型 LangFlow,在 7 個零樣本遷移測試中,有 3 個超過 AR。

      下文說明具體做法。

      更有效的訓練:

      刻畫連續擴散的信息熵

      Embedding 空間上的 Diffusion

      研究團隊采用了embedding 空間上的 diffusion 框架。模型輸入帶噪的 embedding,預測干凈 token 的概率分布,然后以封閉形式算出 diffusion 的去噪目標。

















      噪聲的 Schedule

      優化噪聲 schedule 是提升 DLM 性能的關鍵。與圖像不同的是,研究團隊發現:DLM 必須偏重極高噪聲區,才能學得有效信息。

      1、標準噪聲 Scheduler 的局限











      2、讓 Schedule 匹配信息增量











      3、信息量服從 Gumbel 分布









      更精準的測試:還原連續擴散的實力

      關鍵指標解釋

      根據以往的 DLM 工作,該研究沿用以下兩項指標(都是越低越好):





      Self-Conditioning

      研究團隊通過對比實驗指出:關閉 Self-Conditioning 的對比對連續 DLM 是不公平的。







      ODE 生成的 PPL 估計

      研究團隊還注意到:之前的工作的變分上界不適用于 LangFlow 所用的 ODE 生成。

      準確的 PPL 度量是公平比較的前提。AR 逐詞元計算似然;離散擴散用變分推導一個上界。在本研究中,團隊為 LangFlow 的 ODE 生成路徑推導了一個更適配的 NLL 上界,按序列長度平均并取指數后即為 PPL:



      這個上界由三部分構成:第一項是從噪聲中抽取軌跡起點的 NLL;第二項是 ODE 對概率密度的壓縮或膨脹;第三項是從軌跡終點還原 token 的 NLL。最后的一項,是以上三項中的常數項相互抵消剩下的總和。

      這個界完全適配 LangFlow 的 ODE 生成,為連續 DLM 的 PPL 評估提供了更可靠的理論基礎。

      多項基準全面追平:

      語言建模與零樣本遷移均進入第一梯隊

      連續擴散在 LM1B 和 OWT 的 PPL/Gen. PPL 上整體匹敵離散擴散,并取得擴散模型中最強的零樣本遷移表現。

      研究團隊在 LM1B(句子級)和 OpenWebText(OWT,類似 GPT-2 語料)上評估 LangFlow。模型都是 130M 參數的雙向 DiT,訓練 1M 步。

      語言建模





      在 LM1B 上,LangFlow 生成 PPL 達 91.8,優于最強離散 DLM(Duo 97.6)6 分以上。測試集 PPL(31.7)超過所有均勻隨機噪聲的離散 DLM,與 Masked Diffusion 的 SOTA MDLM(31.0)持平。在 OWT 上,LangFlow(24.3)與 MDLM(23.2)差距僅在 1 左右。這是連續 DLM 首次在標準語言建模基準上追平離散 DLM。

      零樣本遷移

      在 7 個 零樣本遷移測試中,LangFlow 在 3 個上超過 AR 基線,在 4 個上超過 MDLM。尤其在 Pubmed 和 Arxiv(充滿結構化、專業術語)上,LangFlow 相對 AR 優勢顯著(36.45 vs 49.01,32.84 vs 41.73)。LangFlow 不僅放大了離散擴散對 AR 的相對優勢,還在其弱勢項目上補齊了短板。

      總結:走向多架構協同的下一代語言模型

      LangFlow 證明了連續 DLM 完全具備在標準基準上打平離散 DLM 的基礎能力。然而,Diffusion 的長期價值并不在于與 AR 進行零和博弈,而在于作為 AR 架構的關鍵補充。在低延遲解碼、細粒度指令控制以及原生多模態融合等 AR 存在固有局限的領域,連續 Diffusion 展現出了不可替代的天然優勢。

      未來的語言模型發展趨勢正指向多種架構優勢互補的組合,而非單一范式的壟斷。與其將 Diffusion 強行 “改造” 成 AR 的離散生成模式,不如徹底釋放其連續架構的原生潛力。

      LangFlow 完整保留了擴散模型的核心特性,不僅為連續 DLM 的后續擴展提供了堅實的基線,更為構建下一代低延遲、高可控、多模態共生的 AI 基礎設施確立了重要的底層路線。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國家下死命令:2027年城投清零!中小城市的公交、供水會漲價嗎?

      國家下死命令:2027年城投清零!中小城市的公交、供水會漲價嗎?

      顧史
      2026-04-21 05:44:11
      法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒有未來

      法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒有未來

      壹家言
      2026-04-28 11:11:27
      王洪文被捕前,對秘書說:我這頂“烏紗帽”,說不定哪天就被摘掉

      王洪文被捕前,對秘書說:我這頂“烏紗帽”,說不定哪天就被摘掉

      銅臭的歷史味
      2026-04-29 00:22:02
      哭窮了!一線男1號片酬跌至巔峰期3折,網友:待遇比醫生差才合理

      哭窮了!一線男1號片酬跌至巔峰期3折,網友:待遇比醫生差才合理

      火山詩話
      2026-04-28 07:27:33
      600678,將被“ST”!

      600678,將被“ST”!

      中國基金報
      2026-04-28 23:15:48
      情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

      情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

      新歐洲
      2026-04-21 19:37:05
      外交部:按一國兩制叫“臺灣特別行政區行政長官”“臺灣省省長”

      外交部:按一國兩制叫“臺灣特別行政區行政長官”“臺灣省省長”

      阿七說史
      2026-04-28 15:41:47
      辛柏青回應吳越撮合,沒有翻臉沒有接梗,把分寸和家人穩穩守住

      辛柏青回應吳越撮合,沒有翻臉沒有接梗,把分寸和家人穩穩守住

      一盅情懷
      2026-04-28 17:18:29
      妹子,你露個大白胸脯,在這兒干什么呢?

      妹子,你露個大白胸脯,在這兒干什么呢?

      飛娛日記
      2026-04-18 10:48:09
      中國聯通推出全新手機套餐品牌“魔方”,自由組合,階梯定價,39元起

      中國聯通推出全新手機套餐品牌“魔方”,自由組合,階梯定價,39元起

      TMT流程審計
      2026-04-28 10:35:38
      誰敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場均24分

      誰敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場均24分

      球毛鬼胎
      2026-04-28 22:07:08
      張雪就聲援余承東引發爭議進行回應,稱自己不是網紅也不靠這吃飯

      張雪就聲援余承東引發爭議進行回應,稱自己不是網紅也不靠這吃飯

      IT之家
      2026-04-28 16:13:50
      政治局會議,傳遞三重利好

      政治局會議,傳遞三重利好

      劉勝軍經濟學大局觀
      2026-04-28 15:41:45
      美伊大戰暴露了中國家底,美國這才明白,為啥中國人底氣能這么足

      美伊大戰暴露了中國家底,美國這才明白,為啥中國人底氣能這么足

      觸摸史跡
      2026-04-28 15:13:05
      世乒賽戰況:杜凱琹獨砍兩分,朱雨玲澳隊剃光頭國乒大戰韓隊

      世乒賽戰況:杜凱琹獨砍兩分,朱雨玲澳隊剃光頭國乒大戰韓隊

      阿晞體育
      2026-04-28 22:41:00
      王思聰是真頹了?被拍到在洛杉磯,整個人都“垮了”

      王思聰是真頹了?被拍到在洛杉磯,整個人都“垮了”

      西樓知趣雜談
      2026-04-28 22:09:13
      誰拍下了那張后臺照片?

      誰拍下了那張后臺照片?

      追星雷達站
      2026-04-27 09:58:59
      43歲蔡卓妍官宣結婚,婚戒照好幸福,老公比她小10歲是健身教練

      43歲蔡卓妍官宣結婚,婚戒照好幸福,老公比她小10歲是健身教練

      扒蝦侃娛
      2026-04-28 12:34:53
      倒查13年,央國企開始慌了

      倒查13年,央國企開始慌了

      職場資深秘書
      2026-04-28 22:06:07
      聚焦服務業擴能提質|我國養老服務業發展邁出新步伐

      聚焦服務業擴能提質|我國養老服務業發展邁出新步伐

      新華社
      2026-04-27 22:04:28
      2026-04-29 03:20:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12883文章數 142638關注度
      往期回顧 全部

      科技要聞

      10億周活目標落空!傳OpenAI爆發內部分歧

      頭條要聞

      19歲中國女孩被困緬甸 交20萬贖金園區仍未放人

      頭條要聞

      19歲中國女孩被困緬甸 交20萬贖金園區仍未放人

      體育要聞

      魔術黑八活塞,一步之遙?!

      娛樂要聞

      蔡卓妍官宣結婚,老公比她小10歲

      財經要聞

      中央政治局會議定調,八大看點速覽!

      汽車要聞

      拒絕瘋狂套娃!現代艾尼氪金星長在未來審美點上

      態度原創

      房產
      教育
      藝術
      時尚
      數碼

      房產要聞

      紅利爆發!海南,沖到全國人口增量第4省!

      教育要聞

      教育部通知,今年9月份開始,上學的規則全變了

      藝術要聞

      京東浙江總部公示,99.99米高,中國第一民企落子民營大省!

      普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

      數碼要聞

      機械革命蒼龍16 / 18 Pro游戲本RTX 5070 12GB款開啟預約

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人福利一区二区视频在线| 怡春院网站| 狠狠综合久久久久综| 国模精品视频一区二区| 日韩偷拍电影| 久久人人妻人人爽人人爽| 最新国产精品拍自在线播放 | 2021少妇久久久久久久久久| 久久精品一本到东京热| 安龙县| 99国产成人| 一区二区三区无码免费看| 无码无遮挡刺激喷水视频| 久久人搡人人玩人妻精品首页| 亚洲鸥美日韩精品久久| 99热这里只有成人精品国产| 久久久久成人网站| 亚洲美女高潮久久久久久久| 色欲久久久天天天综合网 | 孟村| 丰满熟女人妻一区二区三| 最新在线中文字幕| 五月激情综合网| 国产桃色在线成免费视频| 日本熟妇中文字幕三级| 国产成人久久婷婷精品流白浆| 婷婷色小说| 美女大bxxxxn内射| 亚洲精品一区国产精品| 老熟妇老熟女老女人天堂| 欧美白丰满老太aaa片| 日本一区二区国产高清在线播放| 精品人妻无码中文内容| 国内精品伊人久久久久av| 免费中文字幕在在线不卡| 免费男人和女人牲交视频全黄| 亚洲少妇少妇少妇| 五月综合色婷婷在线观看| www插插插无码免费视频网站| 欧美另类亚洲| 无码中文字|