<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      何愷明帶大二本科生顛覆擴散圖像生成:扔掉多步采樣和潛空間,一步像素直出

      0
      分享至

      何愷明,再次出手精簡架構。

      新方法Pixel Mean Flow(pMF),突破傳統擴散模型/流模型限制。

      兩大傳統組件多步采樣和潛空間都被砍了,現在只需一步,直接在像素空間生成圖像。


      在ImageNet 256×256分辨率上,pMF達到了2.22 FID;512×512分辨率上則是2.48 FID。這是目前單步、無潛空間擴散模型在該基準上取得的最佳成績之一。


      砍掉擴散模型的兩大件

      現代擴散模型生成圖像,一直離不開多步采樣和潛空間編碼。

      多步采樣意味著生成一張圖需要跑幾十甚至上百次神經網絡,潛空間則需要先把圖像壓縮到一個低維空間再進行操作。兩者的共同目的是把一個極度復雜的生成問題拆解成若干個相對簡單的子問題。

      近年來,研究社區分別在這兩個方向上取得了進展:

      一致性模型(Consistency Models)和何愷明團隊2025年提出的MeanFlow在少步、單步采樣上持續突破。


      何愷明團隊2026年1月提出的JiT(Just image Transformers)則證明了在原始像素空間做擴散模型的可行性。


      但把這兩條路合到一起,難度陡增。

      少步模型要求單個網絡能夠處理不同起點和終點的軌跡;像素空間模型則需要在沒有預訓練tokenizer的情況下完成壓縮和抽象。

      兩邊的挑戰疊加在一起,對架構設計提出了更高的要求。

      pMF的核心設計

      pMF的思路可以概括為:網絡直接輸出像素級別的去噪圖像,但訓練時用速度場來計算損失。

      具體來說,pMF定義了一個新的場x,它是從平均速度場u通過簡單變換得到的。

      x場的關鍵特性是看起來像干凈的圖像。


      論文通過追蹤ODE軌跡進行可視化發現,平均速度場u對應的是噪聲圖像,而變換后的x場則對應近乎干凈或略微模糊的圖像。


      這背后的假設是流形假設(manifold hypothesis):自然圖像實際上位于一個低維流形上,讓網絡直接預測這個低維流形上的量,比預測高維噪聲空間中的量要容易得多。


      團隊用一個2D玩具模型驗證了這一點。

      當把2D數據投影到512維觀察空間時,傳統的u-prediction直接崩潰,而x-prediction仍然能夠正常工作。


      在真實的ImageNet實驗中也是如此:256×256分辨率下,patch維度達到768(16×16×3),u-prediction的FID直接飆到164.89,而 x-prediction則保持在個位數。


      pMF還有一個獨特優勢:

      因為網絡直接輸出像素圖像,可以自然地使用感知損失(perceptual loss)。

      這本是潛空間方法在訓練VAE時才能用的技巧,pMF把它帶到了生成器本身的訓練中。實

      實驗顯示,加入感知損失后,FID從9.56直接降到3.53,提升了約6個點。


      實驗結果與對比

      在ImageNet 256×256上,pMF-H/16模型以2.22 FID的成績,超越了此前唯一的同類方法EPG(8.82 FID)。與GAN方法相比,pMF達到了相近的FID,但計算量大幅下降——StyleGAN-XL每次前向傳播需要1574 Gflops,是pMF-H/16的5.8倍。


      在512×512分辨率上,pMF采用了32×32的大patch尺寸,保持與256×256相近的計算開銷,達到了2.48 FID。


      另外,潛空間方法還有一筆經常被忽略的開銷:VAE解碼器。

      標準SD-VAE解碼器在256分辨率下需要310 Gflops,512分辨率下需要1230 Gflops,這個開銷已經超過了pMF整個生成器的計算量。

      論文還進行了大量消融實驗:

      優化器方面,Muon比Adam收斂更快且效果更好;


      時間采樣方面,MeanFlow的全平面采樣策略不可或缺,只在r=t或r=0單線上采樣都會導致失敗;

      預條件器(pre-conditioner)方面,傳統的EDM和sCM風格設計在這個高維場景下不如直接的 x-prediction有效。


      團隊介紹

      一個圖像生成模型,本質上就是從噪聲到像素的映射。

      多步采樣和潛空間編碼都是歷史上為了降低難度而引入的折中方案,但隨著模型能力的提升和訓練技巧的進步,這些“拐杖”正在變得不那么必要。

      團隊在結尾寫道:希望這項工作能夠鼓勵未來對直接、端到端生成建模的探索。從實驗結果來看,單步無潛空間生成已經從“是否可行”進入到“如何做得更好”的階段了。


      共同一作Yiyang Lu(陸伊煬)、Susie Lu、Qiao Sun(孫啟傲)、Hanhong Zhao(趙瀚宏)為MIT本科生。

      其中孫啟傲是IMO金牌得主,趙瀚宏是國際物理奧林匹克競賽IPhO金牌得主,陸伊煬是全國中學生物理競賽CPhO金牌得主。

      論文地址:
      https://arxiv.org/abs/2601.22158

      文章來源:量子位。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      農民把10頭豬趕到無人島,12年后再次登島,眼前畫面讓他不敢信

      農民把10頭豬趕到無人島,12年后再次登島,眼前畫面讓他不敢信

      白云故事
      2026-01-22 17:30:05
      1980年鄧小平說:毛主席的錯誤,要毫不含糊地批評,但要實事求是

      1980年鄧小平說:毛主席的錯誤,要毫不含糊地批評,但要實事求是

      帝哥說史
      2026-02-25 06:30:03
      38歲老板娘淪為陪睡工具:揭秘黑茶高端騙局,入局者10有9個離婚

      38歲老板娘淪為陪睡工具:揭秘黑茶高端騙局,入局者10有9個離婚

      云景侃記
      2026-02-12 22:21:30
      0比3慘敗震驚乒壇!王藝迪關鍵戰失利,狀態下滑引發熱議

      0比3慘敗震驚乒壇!王藝迪關鍵戰失利,狀態下滑引發熱議

      卿子書
      2026-02-25 08:43:09
      高市早苗諾言灰飛煙滅,引發日本民眾憤怒呼吁辭職

      高市早苗諾言灰飛煙滅,引發日本民眾憤怒呼吁辭職

      水泥土的搞笑
      2026-02-26 06:48:25
      外媒:花滑男單冠軍沙多羅夫獲贈公寓、奧迪Q8、25萬美元及勛章

      外媒:花滑男單冠軍沙多羅夫獲贈公寓、奧迪Q8、25萬美元及勛章

      懂球帝
      2026-02-25 16:44:17
      果然不簡單:中國摁住日本后,又讓美國見識了北京的“陽謀”

      果然不簡單:中國摁住日本后,又讓美國見識了北京的“陽謀”

      花小貓的美食日常
      2026-02-26 06:51:35
      43歲吳佳尼公開馬景濤離婚內幕不留體面

      43歲吳佳尼公開馬景濤離婚內幕不留體面

      相思賦予誰a
      2026-02-25 05:06:38
      官宣!7人大調整!中國男籃客戰日本12人名單敲定 ,悍將意外落選

      官宣!7人大調整!中國男籃客戰日本12人名單敲定 ,悍將意外落選

      漫川舟船
      2026-02-26 07:37:29
      征服中年女人,無需套路:兩顆真心,一生相守

      征服中年女人,無需套路:兩顆真心,一生相守

      青蘋果sht
      2025-11-04 06:10:40
      眼看要拿下烏東三重鎮,普京收到警告:再打半年俄將率先崩潰?

      眼看要拿下烏東三重鎮,普京收到警告:再打半年俄將率先崩潰?

      古事尋蹤記
      2026-02-26 07:14:14
      中國財政供養人員達6846萬?結構失衡才是財政壓力的核心

      中國財政供養人員達6846萬?結構失衡才是財政壓力的核心

      流蘇晚晴
      2025-12-04 19:27:08
      中國電影圈最尷尬記錄:沈騰,400億票房先生,零獎,一個都沒有

      中國電影圈最尷尬記錄:沈騰,400億票房先生,零獎,一個都沒有

      大秦共和國
      2026-02-25 12:52:14
      真正生理性的喜歡,根本藏不住!不是接吻和擁抱,而是……

      真正生理性的喜歡,根本藏不住!不是接吻和擁抱,而是……

      青蘋果sht
      2026-02-22 06:58:00
      夫妻自駕從新疆喀什到重慶,晚5秒錯過高速免費時間,付了1700余元高速費,“又好笑又好氣,就當長教訓了”

      夫妻自駕從新疆喀什到重慶,晚5秒錯過高速免費時間,付了1700余元高速費,“又好笑又好氣,就當長教訓了”

      臺州交通廣播
      2026-02-26 07:12:19
      上海機場聯絡線運營一周年,成績斐然,“打臉”了那些不看好的人

      上海機場聯絡線運營一周年,成績斐然,“打臉”了那些不看好的人

      黑哥講現代史
      2026-02-25 08:24:29
      錢再多又有什么用?向華強公布遺囑細節,兩個要求嚴控孫子孫女

      錢再多又有什么用?向華強公布遺囑細節,兩個要求嚴控孫子孫女

      離離言幾許
      2026-02-26 03:42:39
      廣東男籃簽約新大外,CBA官方取消兩外援注冊,山東新外援二選一

      廣東男籃簽約新大外,CBA官方取消兩外援注冊,山東新外援二選一

      中國籃壇快訊
      2026-02-25 17:08:40
      保時捷涼了?利潤暴跌99%,百萬豪車價格腰斬,中年男人夢碎一地

      保時捷涼了?利潤暴跌99%,百萬豪車價格腰斬,中年男人夢碎一地

      青眼財經
      2025-12-30 21:12:09
      當年舉報畢福劍的那位告密者竟然變成這樣了!誰能想到啊?

      當年舉報畢福劍的那位告密者竟然變成這樣了!誰能想到啊?

      霹靂炮
      2026-02-06 13:48:54
      2026-02-26 08:27:00
      算法與數學之美 incentive-icons
      算法與數學之美
      分享知識,交流思想
      5374文章數 64616關注度
      往期回顧 全部

      科技要聞

      “機器人只跳舞,沒什么用”

      頭條要聞

      日本計劃部署導彈部隊距臺灣僅110公里 中方強硬表態

      頭條要聞

      日本計劃部署導彈部隊距臺灣僅110公里 中方強硬表態

      體育要聞

      勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

      娛樂要聞

      黃曉明新戀情!與小22歲美女同游新加坡

      財經要聞

      上海樓市放大招,地產預期別太大

      汽車要聞

      750km超長續航 2026款小鵬X9純電版將于3月2日上市

      態度原創

      時尚
      游戲
      數碼
      藝術
      公開課

      “復古甜心”穿搭突然大火!春天穿時髦又減齡

      《33號遠征隊》發行商:游戲定價低是重要成功因素

      數碼要聞

      音質降噪全升級!三星Buds 4系列正式發布 179美元起

      藝術要聞

      這些作品太美了,仙氣飄飄,三位大咖不容錯過!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版