<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      對標(biāo)GPT-4o和香蕉!浙大開源ContextGen:布局身份協(xié)同新SOTA

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導(dǎo)讀】浙江大學(xué)ReLER團(tuán)隊開源ContextGen框架,攻克多實例圖像生成中布局與身份協(xié)同控制難題。基于Diffusion Transformer架構(gòu),通過雙重注意力機(jī)制,實現(xiàn)布局精準(zhǔn)錨定與身份高保真隔離,在基準(zhǔn)測試中超越開源SOTA模型,對標(biāo)GPT-4o等閉源系統(tǒng),為定制化AI圖像生成帶來新突破。

      在定制化AI圖像生成領(lǐng)域,多實例圖像生成(MIG)面臨一個關(guān)鍵的協(xié)同控制挑戰(zhàn):精確布局控制多主體身份保真的同步實現(xiàn)。

      現(xiàn)有方法往往只能達(dá)成二者之一,少數(shù)能兼顧的方法在性能上也存在顯著不足。

      為解決這一布局與身份的協(xié)同控制瓶頸,浙江大學(xué)ReLER團(tuán)隊提出了ContextGen框架,首次在Diffusion Transformer (DiT) 架構(gòu)內(nèi)部,通過雙重上下文注意力機(jī)制實現(xiàn)了架構(gòu)級的分層解耦控制。

      ContextGen在基準(zhǔn)測試上,身份保持能力超越SOTA開源模型,并成功對標(biāo)了GPT-4o和Nano-Banana等強(qiáng)大的閉源系統(tǒng),實現(xiàn)了在復(fù)雜定制化控制方面實現(xiàn)了關(guān)鍵突破。


      論文地址:https://arxiv.org/abs/2510.11000

      代碼地址:https://github.com/nenhang/ContextGen

      行業(yè)痛點

      多實例生成中的「協(xié)同控制挑戰(zhàn)」


      當(dāng)前MIG模型在實際應(yīng)用中,主要表現(xiàn)出在布局精準(zhǔn)度與身份保真度協(xié)同控制上的挑戰(zhàn):

      1. 宏觀布局難以固化即使模型顯式提供了布局控制功能,生成的多個實例也難以精確地錨定到用戶指定的空間位置,屬性泄露和實例遺失現(xiàn)象頻發(fā),導(dǎo)致生成圖像的構(gòu)圖混亂且不符合預(yù)期。

      2. 身份細(xì)節(jié)極易丟失目前很多模型都支持多主體定制化,但主體數(shù)量增加時,身份細(xì)節(jié)丟失的概率會顯著上升,生成結(jié)果往往無法忠實還原每個實例的獨特身份特征。

      ContextGen的核心突破在于:它利用注意力機(jī)制控制的上下文學(xué)習(xí),實現(xiàn)了對這兩個問題的協(xié)同解決,并在多個關(guān)鍵基準(zhǔn)上達(dá)到了新的SOTA水平。

      核心機(jī)制

      布局錨定與身份隔離


      ContextGen框架基于DiT架構(gòu)構(gòu)建,將所有輸入整合成一個統(tǒng)一的Token序列T,創(chuàng)新在于在DiT模塊中嵌入了兩個功能不同的「注意力核」。

      宏觀布局控制模塊

      上下文布局錨定 (Contextual Layout Anchoring, CLA)機(jī)制是DiT網(wǎng)絡(luò)的「布局控制器」,負(fù)責(zé)全局結(jié)構(gòu)和構(gòu)圖:

      機(jī)制:該模塊采用的注意力掩碼MCLA允許查詢Token q與所有文本、圖像和布局Token進(jìn)行廣泛通信。

      效果:通過在DiT模塊的前置和后置層建立宏觀約束,確保生成的實例能夠魯棒且精確地遵循用戶指定的布局要求。這種圖像層面的宏觀布局引導(dǎo)更適配于現(xiàn)有的DiT上下文學(xué)習(xí)機(jī)制,簡單而有效地提升了布局控制的準(zhǔn)確性。

      微觀身份隔離模塊

      身份一致性注意力 (Instance Consistency Attention, ICA)機(jī)制是解決多主體身份混淆與丟失的「身份隔離器」:

      機(jī)制:采用隔離式的注意力掩碼MICA,強(qiáng)制限制位于實例n邊界框Bn內(nèi)的查詢Token q,只能關(guān)注其自身區(qū)域Bn、文本T以及對應(yīng)的參考圖像Rn

      效果:這一設(shè)計在DiT模塊的中間層,切斷了不同實例身份Token之間的交叉通信,它為每個實例創(chuàng)造了一個「注意力孤島」,從機(jī)制上保障了多主體身份信息的高保真隔離注入,這一機(jī)制在應(yīng)對實例重疊、壓縮等復(fù)雜場景時,能有效緩解身份信息丟失問題,同時在上下文變長時,也能維持魯棒的身份保真度。

      輔助優(yōu)化與數(shù)據(jù)基石


      DPO強(qiáng)化學(xué)習(xí)引入直接偏好優(yōu)化 (DPO),解決了監(jiān)督微調(diào)可能導(dǎo)致的布局僵硬復(fù)制問題,從而增強(qiáng)了生成圖像的多樣性和自然度。


      IMIG-100K數(shù)據(jù)集團(tuán)隊同步發(fā)布了IMIG-100K,首個包含詳細(xì)布局與身份標(biāo)注的、含有不同難度層級的、大規(guī)模高質(zhì)量多實例合成數(shù)據(jù)集。

      實驗結(jié)果

      開源SOTA,對標(biāo)閉源巨頭

      ContextGen的性能突破,體現(xiàn)在布局精度和身份保持兩個維度:

      布局精度提升:在COCO-MIG基準(zhǔn)上,空間準(zhǔn)確性(mIoU) 實現(xiàn)了+5.9%提升,驗證了ContextGen在精確構(gòu)圖上的領(lǐng)先性。


      身份保持的突破:在LAMICBench++身份保持測試中,ContextGen的在較多主體下的身份保真度(IDS) 比肩甚至超越了GPT-4o和Nano-Banana等閉源模型。這一關(guān)鍵結(jié)果證明了ContextGen在復(fù)雜多主體場景中,對細(xì)節(jié)的保真還原能力。


      定性結(jié)果清晰顯示,ContextGen也能還原細(xì)粒度的面部特征,也能靈活融合不同風(fēng)格的參考圖像,同時還能遵循用戶的布局設(shè)計要求。




      前端支持

      用戶友好界面

      團(tuán)隊還開發(fā)了一個簡單的前端界面,用戶可以上傳自己的參考圖像,方便地設(shè)計布局,從而定制化生成多實例圖像。


      結(jié)語

      ContextGen框架通過在DiT架構(gòu)中引入CLA和ICA雙核注意力機(jī)制,創(chuàng)新性地實現(xiàn)了宏觀布局和微觀身份信息的架構(gòu)級分層解耦。

      這一工作不僅為多實例生成提供了SOTA解決方案,成功突破了布局與身份的協(xié)同控制瓶頸,也為DiT等基礎(chǔ)擴(kuò)散模型在高度定制化AIGC任務(wù)中的應(yīng)用開辟了新的技術(shù)路徑。

      作者簡介

      本工作由浙江大學(xué)ReLER團(tuán)隊完成,其中第一作者是浙江大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院本科生許瑞航,通訊作者為浙江大學(xué)求是講席教授楊易老師。ReLER團(tuán)隊長期致力于人工智能領(lǐng)域的前沿研究,包括但不限于生成模型、多模態(tài)學(xué)習(xí)、AI+X等方向。

      參考資料:

      https://arxiv.org/abs/2510.11000

      秒追ASI

      ?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

      點亮星標(biāo),鎖定新智元極速推送!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      20歲女孩中500多萬元彩票,放棄一次性領(lǐng)取 選擇每周領(lǐng)5000多元,計劃用這筆穩(wěn)定的收入最終買一套房子

      20歲女孩中500多萬元彩票,放棄一次性領(lǐng)取 選擇每周領(lǐng)5000多元,計劃用這筆穩(wěn)定的收入最終買一套房子

      觀威海
      2025-12-21 10:30:13
      科學(xué)家最終確定:仙女座正在撞向銀河系,速度高達(dá)每秒300公里

      科學(xué)家最終確定:仙女座正在撞向銀河系,速度高達(dá)每秒300公里

      觀察宇宙
      2025-12-19 21:59:03
      上海男籃VS浙江!盧偉拒絕輸球,棄用懷特塞德,CCTV5直播

      上海男籃VS浙江!盧偉拒絕輸球,棄用懷特塞德,CCTV5直播

      體壇瞎白話
      2025-12-22 12:17:28
      南博盜賣國寶級文物!失蹤5件寶藏黑幕重重!新書記能否理舊賬?

      南博盜賣國寶級文物!失蹤5件寶藏黑幕重重!新書記能否理舊賬?

      大江看潮
      2025-12-18 21:39:11
      武漢街頭慘案警示:“幸福者退讓” 不是軟弱無能,而是不值得

      武漢街頭慘案警示:“幸福者退讓” 不是軟弱無能,而是不值得

      今朝牛馬
      2025-12-05 11:49:41
      反對戰(zhàn)爭,臺智庫發(fā)布和平新書,倡議新統(tǒng)一模式替代“一國兩制”

      反對戰(zhàn)爭,臺智庫發(fā)布和平新書,倡議新統(tǒng)一模式替代“一國兩制”

      像風(fēng)走了八萬里不問歸期
      2025-12-22 13:02:16
      安徽一退休阿姨曬出自己的家,因太干凈而走紅,全屋那叫一個高級

      安徽一退休阿姨曬出自己的家,因太干凈而走紅,全屋那叫一個高級

      阿離家居
      2025-12-22 03:44:18
      當(dāng)今聯(lián)盟第一惡漢,追夢格林生涯24次被驅(qū)逐出場排名歷史第二

      當(dāng)今聯(lián)盟第一惡漢,追夢格林生涯24次被驅(qū)逐出場排名歷史第二

      大眼瞄世界
      2025-12-21 23:48:03
      這一對伊斯蘭極端主義的定義發(fā)人深思

      這一對伊斯蘭極端主義的定義發(fā)人深思

      寄居在世
      2025-12-20 23:04:36
      基辛格精準(zhǔn)預(yù)言:曾力勸中國千萬別幫這三個國家,如今全都應(yīng)驗了

      基辛格精準(zhǔn)預(yù)言:曾力勸中國千萬別幫這三個國家,如今全都應(yīng)驗了

      小lu侃侃而談
      2025-12-20 19:33:08
      人口告別世界第一?二孩催生無效之后,國家終于朝著住房出手了!

      人口告別世界第一?二孩催生無效之后,國家終于朝著住房出手了!

      徐徐道史
      2025-12-21 10:49:14
      班花參加同學(xué)會,超高顏值驚艷全場,男同學(xué)太激動沒抱穩(wěn)雙雙倒地

      班花參加同學(xué)會,超高顏值驚艷全場,男同學(xué)太激動沒抱穩(wěn)雙雙倒地

      梅子的小情緒
      2025-12-20 15:36:42
      大戰(zhàn)前CBA外援,布朗尼G聯(lián)賽面對奧拉迪波13中6得15分5助3板

      大戰(zhàn)前CBA外援,布朗尼G聯(lián)賽面對奧拉迪波13中6得15分5助3板

      懂球帝
      2025-12-22 14:50:09
      爺爺剛辦完退休隔天,大伯就來打聽退休金,爺爺脫口而出2700

      爺爺剛辦完退休隔天,大伯就來打聽退休金,爺爺脫口而出2700

      小秋情感說
      2025-12-22 14:03:16
      雷軍高調(diào)慶功:小米沖進(jìn)全球前三,網(wǎng)友炸了

      雷軍高調(diào)慶功:小米沖進(jìn)全球前三,網(wǎng)友炸了

      胡嚴(yán)亂語
      2025-12-21 14:50:46
      神仙木有她美麗,黑絲哪有白襯衫性感

      神仙木有她美麗,黑絲哪有白襯衫性感

      貴圈真亂
      2025-12-12 12:12:10
      天冷了要養(yǎng)骨!少吃白菜蘿卜,多吃這8樣,腿腳有勁,精氣十足!

      天冷了要養(yǎng)骨!少吃白菜蘿卜,多吃這8樣,腿腳有勁,精氣十足!

      美食店主
      2025-12-22 00:27:55
      徐湖平自稱80多歲身體欠佳,吁請公眾勿糾結(jié)畫作真?zhèn)螁栴}

      徐湖平自稱80多歲身體欠佳,吁請公眾勿糾結(jié)畫作真?zhèn)螁栴}

      樂趣紀(jì)史
      2025-12-21 21:11:11
      U15東亞杯收官戰(zhàn):中國隊與香港隊的“生死對決”!

      U15東亞杯收官戰(zhàn):中國隊與香港隊的“生死對決”!

      問書君
      2025-12-22 14:30:40
      馬克龍背叛默茨,準(zhǔn)備與俄領(lǐng)導(dǎo)人會談;魯比奧猛批歐洲喪失價值觀

      馬克龍背叛默茨,準(zhǔn)備與俄領(lǐng)導(dǎo)人會談;魯比奧猛批歐洲喪失價值觀

      山河路口
      2025-12-22 13:35:28
      2025-12-22 15:51:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
      14155文章數(shù) 66394關(guān)注度
      往期回顧 全部

      科技要聞

      商湯聯(lián)創(chuàng)親自下場 痛批主流機(jī)器人技術(shù)大錯

      頭條要聞

      臺北攻擊事件嫌犯攜滿箱汽油彈欲縱火 被男子舍命攔下

      頭條要聞

      臺北攻擊事件嫌犯攜滿箱汽油彈欲縱火 被男子舍命攔下

      體育要聞

      戴琳,中國足球的反向代言人

      娛樂要聞

      星光大賞看點全在臺下

      財經(jīng)要聞

      人民幣快漲到7了!

      汽車要聞

      可享88元抵2000元等多重權(quán)益 昊鉑A800開啟盲訂

      態(tài)度原創(chuàng)

      時尚
      藝術(shù)
      親子
      手機(jī)
      本地

      這是陳妍希?新劇開播后居然長這樣

      藝術(shù)要聞

      萬年松樹開花,震驚你的雙眼!

      親子要聞

      廣州家長崩潰!海珠老牌幼兒園突然閉園,娃剛適應(yīng)又要轉(zhuǎn)園

      手機(jī)要聞

      前后雙紅楓影像 華為nova 15 Ultra隨手就出片

      本地新聞

      云游安徽|走進(jìn)銅陵,照見三千年不滅的爐火

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲a∨国产av综合av下载| 亚洲不卡视频| 无人区码一码二码w358cc| 欧洲女人牲交性开放视频| 国产综合久久久777777| 日本三级久久| 日韩av裸体在线播放| 久久综合给合久久狠狠97色 | 国产不卡一区在线视频| 三级三级久久三级久久| 国内精品伊人久久久久777| 撕开奶罩揉吮奶头视频| 无码色综合| 香蕉av在线| 黄色www| 亚洲成人网在线| 免费国产一级特黄aa大片在线| 美女张开腿黄网站免费下载| 日本丰满少妇xxxx| 波多野结衣美乳人妻hd电影欧美| 国产性色av高清在线观看| 2018av天堂在线视频精品观看| 精品人妻久久| 色网bb| 日逼| 亚洲成人在线网站| 制服丝袜在线云霸| jizz日本69| 2025精品偷拍视频| 漂亮的保姆hd完整版免费韩国| 韩国三级+mp4| 国产精品v片在线观看不卡| 欧美性爱视频网站| 久久久亚洲色| 中国极品少妇videossexhd| 国产女主播喷水视频在线观看| 天天干天天日三级| 日韩中文字幕人妻无码| 亚色天堂| 色一情一乱一伦一视频免费看| 天天躁日日躁狠狠躁喷水|