<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      浙大&騰訊打破圖像編輯「規模-質量」魔咒:1000萬數據+統一驗證框架,讓開源模型追上閉源SOTA | CVPR 2026

      0
      分享至


      他們用一套"質檢+改題"雙系統,造出了AI圖像編輯領域的第一套標準化教材。

      不知你有沒有發現,用ChatGPT里的圖像編輯挺順,但換幾個開源工具就頻頻翻車?這不是錯覺——頂尖閉源模型(如GPT-Image-1)和開源模型之間的差距,正在被越拉越大。 根源在于:開源陣營手里沒有兩樣東西——足夠多且足夠好的訓練素材,以及一套能全面體檢模型能力的'診斷系統'。

      更麻煩的是,做數據就像走鋼絲:純手工打造的精品數據集,質量過硬但根本攢不夠量;全自動流水線倒是能批量生產,但環節一多,前面的小錯會一路放大成災難——比如第一步識別錯了物體,后面所有編輯都跟著跑偏。

      具體來說,現在的數據生產有三個漏銅:

      ? '傳話游戲'式誤差:一個編輯任務要過N個工具(識別→分割→生成→融合),前面一步歪一點,后面步步歪;

      ? '安檢'走過場:要么只查'有沒有出圖'而不管文本指令對不對,要么花大價錢調API改文字描述,卻不管圖本身質量;

      ? '考試范圍'太窄:現有測試只考'換顏色'、'加物體'這種基礎題,不考'從空中俯瞰這個建筑'這種空間理解題,也不考'將咖啡壺變為煮沸狀態'這種需要常識推理的題。而且評分標準還有bug——背景被偷偷改了看不出來,風格一變就扣冤枉分。


      圖1: UnicEdit-10M 涵蓋了跨越基礎與復雜編輯的 22 種編輯任務。該數據集采用統一的后置驗證階段,通過過濾失敗樣本并精煉指令,從而產出高質量的三元組數據。此外,我們還推出了配套的 UnicBench,利用細粒度指標進行全面評估。

      針對這個痛點,浙江大學和騰訊聯合搞了個大動作:他們不僅造出了1000萬組高質量的"圖像編輯練習題"(UnicEdit-10M),還配了一套22類難度遞進的"全真模擬考卷"(UnicBench)。簡單來說,就是給AI圖像編輯領域提供了標準化的教材+考試系統。除此之外,他們還配置了一名"嚴格判官"(Qwen-Verify),對生成的圖像編輯數據進行嚴格的篩選和優化,保證最終得到的"練習題"的答案都是正確且高質量的。


      論文標題:UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

      論文地址:https://arxiv.org/pdf/2512.02790

      代碼倉庫:https://github.com/WeChatCV/UnicBench

      項目主頁:https://hongsexiaotanhua.github.io/UnicEdit-10M/

      數據集:https://huggingface.co/datasets/xiaotanhua/UnicEdit-10M

      Benchmark:https://huggingface.co/datasets/xiaotanhua/UnicBench

      01


      核心亮點

      1. 大規模高質量數據集 UnicEdit-10M:構建了包含 10M 樣本的高質量圖像編輯數據集,覆蓋 22 種編輯任務,不僅包含基礎的屬性和對象編輯,還涵蓋幾何空間變化和基于推理知識的編輯任務,同時,該數據集的圖像美學得分也超越其他數據集。

      2. Qwen-Verify 后校驗專家模型:訓練了一個 7B 規模的雙任務專家模型,能夠同時進行細粒度的失敗檢測和指令重寫,在計算成本和經濟成本遠低于 Qwen2.5-VL-72B 的情況下,實現了更優的性能。

      3. UnicBench 綜合評估基準:提出了覆蓋基礎編輯、幾何空間變化以及基于推理知識編輯任務的綜合基準,引入了非編輯一致性和推理準確性等新穎評估指標,能夠全面診斷模型的編輯能力,為未來研究提供了清晰的方向。


      圖2: UnicEdit-10M 中所有子任務的代表性編輯樣例。

      02


      UnicEdit-10M數據集構建

      UnicEdit-10M 的構建采用了三階段的高效自動化流水線:

      1. 指令生成階段:使用 Qwen2.5-VL-72B 模型,基于預定義的編輯分類體系,為每張圖像生成 3-7 個不同的、符合內容的編輯指令,確保任務分布均衡,無需人工標注。

      2. 圖像編輯階段:使用 FLUX.1-Kontext 和 Qwen-Image-Edit 兩款領先的開源編輯模型,對每一對〈原始圖像,指令〉進行處理,生成編輯后的圖像,形成初始的三元組。同時對源圖像進行中心裁剪和縮放預處理,并進行質量檢查,丟棄需要超過 20% 裁剪的圖像,避免內容丟失。

      3. 后校驗階段:所有合成的三元組都經過統一的后校驗環節,不僅過濾掉失敗的樣本,還會優化對應的指令,增強其與視覺編輯的語義對齊。

      最終生成的 UnicEdit-10M 數據集包含約 10M 個三元組,分為 4 大編輯類型:場景編輯(3.063M 樣本)、屬性編輯(3.529M 樣本)、對象編輯(3.242M 樣本)和推理編輯(1.746M 樣本),其中 50% 的圖像為 1024×1024 的高分辨率圖像。


      圖3: 包含三個階段的數據構建流水線:(1) 數據準備;(2) 圖像編輯;(3) 后校驗,用于過濾失敗的編輯樣本并進行指令重寫(Recaption)。

      03


      后校驗專家模型

      在后校驗階段,為了實現更為準確和高效的質量控制,作者訓練了7B的雙任務后校驗專家模型Qwen-Verify,通過使用人類標注的偏好數據進行偏好對齊,實現更為準確的數據篩選。該專家模型能夠同時執行如下兩個關鍵任務::

      1. 編輯失敗檢測:能夠細粒度地識別出編輯失敗的樣本,包括無編輯、幻覺等情況,相比傳統的 SSIM 等像素級指標,Qwen-Verify 具備語義理解能力,能夠準確識別出語義上有變化但視覺上細微的編輯,同時忽略生成過程中微小的像素級噪聲。

      2. 編輯指令重寫:能夠對與編輯結果語義對齊不足的指令進行重寫,確保指令與實際的視覺變換精確匹配。

      對比實驗顯示,Qwen-Verify 在正常編輯、無編輯和幻覺檢測的準確率上均顯著優于 Qwen2.5-VL-7B、Qwen2.5-VL-72B 等基線模型,在人臉一致性等關鍵指標上,UnicEdit-10M 的一致性得分達到 0.89,遠優于 GPT-Image-Edit-1.5M 的 0.3025,展現出在保持關鍵主體細節上的卓越能力。


      圖4: 專家模型后校驗樣例。其中:Base 表示 Qwen2.5-VL-7B 模型;SFT 表示經過第一階段指令微調后的基礎模型;Ours 表示我們提出的雙任務專家模型 Qwen-Verify。

      04


      UnicBench:綜合編輯能力評測

      UnicBench 是一個覆蓋基礎編輯、幾何空間變化以及基于推理知識編輯任務的綜合基準,其構建過程采用了 VLM 與人工結合的工作流:首先由 Qwen2.5-VL 生成候選指令,再由人類專家進行審核,移除模糊或語義不一致的提示,并進行重寫以匹配特定的編輯任務類別,每個類別包含 50 個測試用例。

      為了實現更精準的評估,UnicBench 引入了四個專門的評估指標:

      1. 指令遵循度(IF):通過基于 VLM 的跨模態對齊分數,衡量編輯圖像滿足指令的程度。

      2. 非編輯一致性(NC):評估非目標區域的保留情況,對編輯區域外的意外變化進行懲罰。

      3. 視覺質量(VQ):基于指令的自然度、連貫性和視覺風格一致性的評估。

      4. 推理準確性(RA):針對基于推理知識的編輯任務,VLM會利用所提供的reasoning points 列表,針對實際編輯變化進行對比打分,該列表均經過人工進行核驗優化。

      對主流模型的評估結果顯示,閉源模型在整體能力上顯著優于開源模型,GPT-Image-1 在英文和中文任務上均取得了最高的綜合得分,展現出最優的通用編輯能力。開源模型中,Qwen-Image-Edit 表現最佳,開始縮小與閉源模型的差距。但所有模型在推理準確性(RA)指標上均出現了顯著的性能下降,這表明當前模型在執行需要復雜邏輯推理或世界知識的編輯任務時存在普遍的局限性,為未來的研究指明了方向。


      圖5: 各模型在 UnicBench 子任務上的綜合評分,左側為英文(EN)指令結果,右側為中文(CN)指令結果。所有結果均由 GPT-4o 進行評估。


      表1: 不同模型在 UnicBench 上的綜合性能表現。開源模型與閉源模型的結果分別標注,其中最優性能以加粗表示,次優性能以下劃線表示。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      死亡之瞳感染全隊!41歲勒布朗19+13+8創六紀錄 經受住單核考驗

      死亡之瞳感染全隊!41歲勒布朗19+13+8創六紀錄 經受住單核考驗

      顏小白的籃球夢
      2026-04-19 11:21:33
      蘇超一家獨大,多少地方文旅成了陪跑?

      蘇超一家獨大,多少地方文旅成了陪跑?

      環球旅訊
      2026-04-17 08:08:52
      59歲葉子楣自爆:曾被黑社會恐嚇要求露點,單身多年依然向往愛情

      59歲葉子楣自爆:曾被黑社會恐嚇要求露點,單身多年依然向往愛情

      她時尚丫
      2026-03-13 21:03:06
      CBA最差教練?6名新老國手在他手中淪為平庸,數據為證斷崖式下滑

      CBA最差教練?6名新老國手在他手中淪為平庸,數據為證斷崖式下滑

      南海浪花
      2026-04-19 14:01:47
      雙色球第043期2026年4月19日(僅供參考,祝?中獎)

      雙色球第043期2026年4月19日(僅供參考,祝?中獎)

      芭比衣櫥
      2026-04-19 12:19:33
      樊振東國家隊旅程或將謝幕!日媒感嘆可惜,王勵勤也無能為力

      樊振東國家隊旅程或將謝幕!日媒感嘆可惜,王勵勤也無能為力

      豬豬愛影視
      2026-04-19 08:15:00
      新鳳霞怒批張少華:66年帶人砸斷了她的半月板,拿走齊白石名畫

      新鳳霞怒批張少華:66年帶人砸斷了她的半月板,拿走齊白石名畫

      元哥說歷史
      2026-04-16 08:35:03
      何潤東翻紅后,一博主怒問為什么要捧一個美國人?網友的評論絕了

      何潤東翻紅后,一博主怒問為什么要捧一個美國人?網友的評論絕了

      談史論天地
      2026-04-16 11:05:48
      英海上貿易行動辦公室:霍爾木茲海峽附近發生多起船只遇襲事件

      英海上貿易行動辦公室:霍爾木茲海峽附近發生多起船只遇襲事件

      界面新聞
      2026-04-18 22:59:17
      醫生:肝癌最危險信號,不是腹痛,而是頻繁出現這幾種異常

      醫生:肝癌最危險信號,不是腹痛,而是頻繁出現這幾種異常

      芹姐說生活
      2026-04-19 12:20:30
      斯諾克世錦賽:4月19日賽程公布!丁俊暉首秀戰苦主,趙心童晉16強

      斯諾克世錦賽:4月19日賽程公布!丁俊暉首秀戰苦主,趙心童晉16強

      曹說體育
      2026-04-19 12:07:30
      上海偶遇李晨吃包子,看著挺壯實一人,晚飯居然就吃三個包子

      上海偶遇李晨吃包子,看著挺壯實一人,晚飯居然就吃三個包子

      悅君兮君不知
      2026-04-19 13:21:45
      全體車主!4月30日前辦完,5月1日開始扣分罰款

      全體車主!4月30日前辦完,5月1日開始扣分罰款

      三農老歷
      2026-04-19 12:13:01
      瘋狂!種馬男星沃倫睡過12775名女友,性欲成癮纏著女友不讓下床

      瘋狂!種馬男星沃倫睡過12775名女友,性欲成癮纏著女友不讓下床

      錢小刀娛樂
      2026-04-14 10:39:13
      火箭G1怎么輸的?湖人2將打服烏度卡并不滿機會球,阿門點尺度

      火箭G1怎么輸的?湖人2將打服烏度卡并不滿機會球,阿門點尺度

      籃球資訊達人
      2026-04-19 13:32:53
      老美為什么寧愿熊貓做大,也不愿意扶持三哥工業化來制衡熊貓

      老美為什么寧愿熊貓做大,也不愿意扶持三哥工業化來制衡熊貓

      步論天下事
      2026-04-17 15:29:16
      搭載40名中國游客大巴在俄羅斯翻車,或因司機打盹兒致車輛失控

      搭載40名中國游客大巴在俄羅斯翻車,或因司機打盹兒致車輛失控

      紅星新聞
      2026-04-18 19:08:29
      奢靡淫逸的白馬會所:性交易泛濫,讓富婆揮金如土,最終一夜覆滅

      奢靡淫逸的白馬會所:性交易泛濫,讓富婆揮金如土,最終一夜覆滅

      浮光驚掠影
      2026-02-20 23:15:25
      佟麗婭真人被偶遇!網友:陳思誠你眼酸不?

      佟麗婭真人被偶遇!網友:陳思誠你眼酸不?

      民宿體驗志
      2026-04-17 13:39:04
      蘇超南通泰州都被封零!南通網友氣瘋:怎么倒數第一也要跟我們搶

      蘇超南通泰州都被封零!南通網友氣瘋:怎么倒數第一也要跟我們搶

      墨印齋
      2026-04-19 11:37:29
      2026-04-19 15:23:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7200文章數 20744關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結果印度遭了殃

      頭條要聞

      牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結果印度遭了殃

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      張天愛評論區淪陷!被曝卷入小三風波

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      游戲
      本地
      家居
      公開課
      軍事航空

      穿越還是刪帖?《GTA6》五年前預言帖被扒:網友吵翻天

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      家居要聞

      法式線條 時光靜淌

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗逼退美掃雷艇:美方求給15分鐘撤退

      無障礙瀏覽 進入關懷版