<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      復旦&通義萬相提出ProMoE,顯式路由引導打破DiT MoE scaling瓶頸

      0
      分享至



      混合專家架構(Mixture-of-Experts,MoE)在擴展模型容量的同時保持了計算效率,在大語言模型(LLM)的發展中發揮了巨大作用。然而,現有方法將 MoE 應用于 Diffusion Transformer(DiT)時,卻發現收益非常有限,無法復刻 MoE 在 LLM 中的成功。

      為什么同樣的架構,跨界到視覺生成領域就「水土不服」了?

      近期,來自復旦大學、阿里通義萬相Wan Team、浙江大學和香港大學的研究團隊指出,視覺 Token 的高度冗余性和功能異質性阻礙了視覺 MoE 中專家的專業化(specialization)。為此,他們提出了 ProMoE,一種帶有顯式路由引導的兩步路由 MoE 框架。相關論文已被 ICLR2026 接收,第一作者為復旦大學博士衛昱杰。



      • 論文標題:Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance
      • 論文地址:
      • https://arxiv.org/abs/2510.24711
      • 代碼:
      • https://github.com/ali-vilab/ProMoE

      視覺 Token 與語言 Token 的差異

      為了探究 MoE 在 DiT 中收益不明顯的原因,研究團隊發現,視覺 Token 具有兩個獨特的屬性,導致傳統的隱式路由分配策略產生次優的效果:

      • 高度空間冗余性(High Spatial Redundancy):離散的文本 Token 語義高度濃縮且差異明顯,而連續的圖像 Patch(視覺 Token)在空間上高度耦合,存在大量的冗余信息,導致視覺 MoE 中的專家往往學到同質化的特征。

      • 功能異質性(Functional Heterogeneity):擴散模型普遍依賴無分類器引導(CFG)技術。這就導致輸入 Token 天然分為兩派:條件 Token 和無條件 Token。標準 MoE 范式對它們一視同仁、同時分配,忽略了它們不同的功能角色。

      圖 1:(a)我們從 110 個 ImageNet 類別中隨機抽取 1k 個中間層 Token,進行 10 簇 k-means 聚類(以顏色區分)。以類別名稱 / 標簽作為輸入時,LLM Token 形成緊湊、分離良好的簇,語義密度高,而視覺 Token 則較為分散。這種差異可以用類間距離與類內距離的比值來量化(19.283 ? 0.748)。(b)我們對每個 MoE 層的專家權重矩陣進行奇異值分解,并計算由其左前 k 個奇異向量張成的子空間的平均相似度來衡量專家間的多樣性。引入路由引導(我們的方法)可以增強專家間的多樣性。

      ProMoE:兩步路由與顯式語義路由引導

      MoE 的核心原則是專家專業化(Expert Specialization),即確保每個專家都能獲取集中且不重疊的知識。為了在視覺模型中實現「專家內一致」和「專家間多樣」,ProMoE 引入了兩步路由器(Two-Step Router)和路由對比學習(Routing Contrastive Learning)。

      兩步路由器

      • 第一步:條件路由(Conditional Routing)

      路由器首先根據 Token 的功能角色進行硬路由分配。無條件圖像 Token(來源于 null conditioning 下的圖像 Patch)被直接分配給專門的無條件專家(Unconditional Experts)進行處理。而條件圖像 Token 則進入下一步,交由標準的路由專家(Routed Experts)進行處理。這種機制實現了專家的功能隔離。

      • 第二步:原型路由(Prototypical Routing)

      對于條件圖像 Token,ProMoE 引入了一組可學習的「原型」(Prototypes),每個原型對應一個特定專家。原型路由在隱空間中計算 Token 與各個 Prototype 之間的余弦相似度,并選擇 identity function 作為激活函數得到路由分數,分數較高的 Token 會被分配給對應的專家。

      顯式語義路由引導:路由對比學習(Routing Contrastive Learning)

      為了顯式增強原型路由的語義引導,ProMoE 提出了一種無需手動標注的路由對比損失(Routing Contrastive Loss,RCL)。在訓練過程中,RCL 會產生兩種影響:

      • 拉近:將 Prototype 拉向分配給它的 Token 集合的質心,確保同一個專家處理的 Token 是語義相似的。

      • 將 Prototype 推離其他專家處理的 Token 集合的質心,鼓勵不同專家之間形成差異化,增強多樣性。

      同時,實驗發現 RCL 中的「推開」操作在語義層面上天然起到了負載均衡的作用,比傳統的負載均衡損失更加靈活且有效。



      圖 2:ProMoE 架構概覽。輸入 Token 通過條件路由被分為無條件 Token 子集和條件 Token 子集。無條件圖像 Token 由無條件專家處理。條件圖像 Token 通過基于可學習原型的原型路由進行分配。路由對比學習顯式增強了原型路由中的語義引導。

      算法偽代碼如下:



      實驗結果

      模型配置



      與 Dense Model 的對比

      ProMoE 在各種規模和設置下均穩定超越了稠密模型。亮眼的是,參數量僅 1.063B 的 ProMoE-L-Flow,憑借更少的激活參數,超越了計算量更大的 Dense-DiT-XL-Flow。





      與 SOTA MoE Model 的對比

      ProMoE 超越現有的視覺 MoE 方案。特別是,用 1.063B 超越了擁有 16 個專家,1.846B 的 DiffMoE。



      Text-to-Image 驗證

      在 GenEval bench 中,ProMoE 在所有子任務上優于標準的 Token-Choice MoE 模型,展現出一定的泛化能力。



      可視化結果

      Class-to-image generation



      Text-to-image generation



      收斂性分析

      訓練曲線顯示,ProMoE 的收斂速度明顯快于稠密模型和現有 MoE 模型。



      Scaling 實驗

      ProMoE 展現出一定的擴展潛力。隨著模型尺寸從 Base 擴展至 XL,以及專家數量從 4 逐步增加到 16,ProMoE 的生成性能均呈現出穩定的提升。



      消融實驗



      總結

      通過分析語言和視覺 Token 之間的差異,ProMoE 提出了一種帶有顯式路由引導的 MoE 框架。通過巧妙設計的條件路由、原型路由以及路由對比學習機制,ProMoE 用更少的激活參數超越了 Dense Model 以及現有 MoE 方法。這為如何在大規模擴散模型中高效引入 MoE 架構提供了一套可能的開源范式。

      更多技術與實驗細節,歡迎閱讀原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬克龍簽涉臺聲明后,中方雙管齊下,朱鳳蓮強硬發聲,法國賭輸了

      馬克龍簽涉臺聲明后,中方雙管齊下,朱鳳蓮強硬發聲,法國賭輸了

      像夢一場a
      2026-04-10 02:05:33
      樊振東放棄參賽資格,國乒公布世乒賽名單,以老將居多

      樊振東放棄參賽資格,國乒公布世乒賽名單,以老將居多

      子水體娛
      2026-04-09 00:32:55
      夏克立遭爆「狂傳對鏡自慰裸照」!2女被迫上床 前經紀人心痛發聲

      夏克立遭爆「狂傳對鏡自慰裸照」!2女被迫上床 前經紀人心痛發聲

      ETtoday星光云
      2026-04-09 12:22:15
      伊朗官方確認:翼龍-2首次參戰即被擊落,海灣國家反應強烈

      伊朗官方確認:翼龍-2首次參戰即被擊落,海灣國家反應強烈

      最新聲音
      2026-04-06 08:32:33
      開藥收15元掛號費引爭議?衛健委明確:單純開藥別掛普通號!

      開藥收15元掛號費引爭議?衛健委明確:單純開藥別掛普通號!

      今朝牛馬
      2026-04-09 17:22:11
      明星盛典上,礦泉水被膠水粘死,全場藝人拔到懷疑人生!

      明星盛典上,礦泉水被膠水粘死,全場藝人拔到懷疑人生!

      茶余飯好
      2026-04-09 11:03:46
      全紅嬋后續:警方固定證據,4人已被帶走調查,同行有人被點名!

      全紅嬋后續:警方固定證據,4人已被帶走調查,同行有人被點名!

      眼光很亮
      2026-04-09 12:55:07
      山西輸球!全隊拒回更衣室!球員努力球隊掙扎,向潘江提五個問題

      山西輸球!全隊拒回更衣室!球員努力球隊掙扎,向潘江提五個問題

      理工男評籃球
      2026-04-09 22:29:23
      國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

      國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

      比利
      2026-01-23 12:41:53
      中國博士過剩!每年11萬博士畢業,但高校機構坑位已經滿了

      中國博士過剩!每年11萬博士畢業,但高校機構坑位已經滿了

      六子吃涼粉
      2026-04-09 11:15:56
      “留學回來,15次相親失敗”,杭州女孩被拆穿:連繁殖能力都沒有

      “留學回來,15次相親失敗”,杭州女孩被拆穿:連繁殖能力都沒有

      千言娛樂記
      2026-04-09 09:17:50
      伊朗副外長:伊朗代表團將前往伊斯蘭堡參加談判

      伊朗副外長:伊朗代表團將前往伊斯蘭堡參加談判

      財聯社
      2026-04-09 21:17:17
      陳麗華葬禮現場!遺體已火化,遲重瑞眼睛哭腫,姜昆張紀中送花圈

      陳麗華葬禮現場!遺體已火化,遲重瑞眼睛哭腫,姜昆張紀中送花圈

      180視角
      2026-04-09 13:22:54
      黎巴嫩宣布全國哀悼

      黎巴嫩宣布全國哀悼

      南方都市報
      2026-04-09 09:24:03
      豐田社長警告484家供應商:中國電車面前,不改革就滅亡

      豐田社長警告484家供應商:中國電車面前,不改革就滅亡

      不掉線電波
      2026-04-09 10:29:44
      F-15飛行員跳傘情報外泄,美國內鬼被抓

      F-15飛行員跳傘情報外泄,美國內鬼被抓

      桂系007
      2026-04-09 23:59:42
      又躺了!僅打4分鐘退賽,32場啊,生涯新低,3年1億要打水漂

      又躺了!僅打4分鐘退賽,32場啊,生涯新低,3年1億要打水漂

      球童無忌
      2026-04-09 22:30:27
      楊玉敏去世

      楊玉敏去世

      吉刻新聞
      2026-04-09 14:24:10
      白宮打擊伊朗決策內幕:拆解以方四步計劃,CIA局長說“荒謬” 魯比奧稱“亂扯”

      白宮打擊伊朗決策內幕:拆解以方四步計劃,CIA局長說“荒謬” 魯比奧稱“亂扯”

      紅星新聞
      2026-04-09 18:24:30
      《紐約時報》萬字報道,稱已找到比特幣發明者中本聰真實身份

      《紐約時報》萬字報道,稱已找到比特幣發明者中本聰真實身份

      大廠觀察
      2026-04-09 09:58:15
      2026-04-10 03:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12721文章數 142621關注度
      往期回顧 全部

      科技要聞

      Meta凌晨首發閉源大模型 扎克伯格又行了?

      頭條要聞

      以色列總理:同意與黎巴嫩直接談判

      頭條要聞

      以色列總理:同意與黎巴嫩直接談判

      體育要聞

      8萬人面前心臟驟停 現在他還站在球場上

      娛樂要聞

      金莎官宣結婚 與老公孫丞瀟相差18歲

      財經要聞

      ?;鹩謶伊?,最糟糕的情況要來了?

      汽車要聞

      文飛掌舵,給神行者帶來了什么?

      態度原創

      時尚
      數碼
      本地
      旅游
      公開課

      越來越流行的松弛感穿搭,照著穿就很好看

      數碼要聞

      華為多款新品在路上:Pura 90、闊折疊、AI眼鏡、平板耳機全都有

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      旅游要聞

      溫州園博會來了!下高鐵10分鐘入園,100天免費逛

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版