<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      VinciCoder:多模態統一代碼生成框架和視覺反饋強化學習

      0
      分享至



      長期以來,多模態代碼生成(Multimodal Code Generation)的訓練嚴重依賴于特定任務的監督微調(SFT)。盡管這種范式在 Chart-to-code 等單一任務上取得了顯著成功 ,但其 “狹隘的訓練范圍” 從根本上限制了模型的泛化能力,阻礙了通用視覺代碼智能(Generalized VIsioN Code Intelligence)的發展 。同時,「SFT-only」的范式在確保代碼可執行性和高視覺保真度方面存在顯著瓶頸 。

      在此背景下,中科院 & 美團研究團隊推出了 VinciCoder,一個旨在打破 SFT 瓶頸的統一多模態代碼生成模型。VinciCoder首次將強化學習的獎勵機制從文本域轉向視覺域,提出視覺強化學習(ViRL),專攻 SFT 無法解決的視覺保真度難題。

      本文提出的系統性框架VinciCoder,通過 “大規模 SFT + 粗細粒度 ViRL” 的兩階段策略,有效統一了從圖表、網頁、SVG 到科學繪圖(LaTeX、化學分子)等多樣化代碼生成任務 。



      • 論文標題:VinciCoder: Unifying Multimodal Code Generation via Coarse-to-fine Visual Reinforcement Learning
      • 論文鏈接:https://arxiv.org/abs/2511.00391
      • Github 鏈接:https://github.com/DocTron-hub/VinciCoder

      數據代碼模型權重已開源。

      核心創新與技術突破

      該論文同樣對傳統 SFT 范式的局限性進行了深入分析,發現其關鍵問題在于訓練目標與最終任務之間存在 “視覺鴻溝”:

      • 目標是局部的:SFT 采用自回歸的 “下一詞元預測” 目標 ,這本質上是局部的,無法為代碼 “可執行性” 等全局屬性提供監督信號 。
      • 缺乏視覺反饋:模型在訓練時完全看不到代碼的渲染結果 。這是一個致命缺陷,因為在代碼中 “微小的修改就可能導致渲染圖像發生巨大變化” 。

      這種 “視覺 - 代碼” 監督的缺失,直接導致了兩個關鍵問題:

      • 保真度低且不可靠:模型僅在詞元層面(token-level)進行優化 ,無法保證渲染出的圖像在視覺上與輸入對齊,也無法保證代碼可以成功執行 。
      • 泛化能力差:依賴特定任務的數據集進行 SFT,難以形成一個統一的多模態代碼生成框架 。

      考慮到 SFT 的根本局限性,研究者認為必須引入一個能夠提供全局視覺反饋的機制。然而,傳統的 RL 方法依賴難以泛化的 “基于規則的文本獎勵” 。VinciCoder 的破局點在于 ——將獎勵機制從文本域徹底轉向視覺域

      VinciCoder 的核心思路是:用大規模、多樣化的 SFT 構建強大的代碼基礎能力 ,再通過創新的 ViRL 策略專門優化 SFT 無法觸及的視覺保真度和可執行性 。訓練框架由「1.6M 大規模 SFT 階段」和「42k 粗細粒度 ViRL 階段」兩部分組成 ,核心是通過兩階段協作,同時實現強大的代碼理解與高保真的視覺對齊。

      1. 大規模 SFT 語料庫與代碼優化任務



      研究團隊首先構建了一個包含1.6M 圖像 - 代碼對的大規模監督微調(SFT)語料庫 。該語料庫不僅覆蓋了直接代碼生成任務,還引入 “視覺代碼優化” 的新任務 。在這項任務中,模型會接收到一個目標圖像和一個 “有缺陷” 的代碼片段(包含邏輯錯誤或只能部分渲染)。模型的目標是修正這段代碼,使其視覺輸出與目標圖像精確對齊 。這一設計極大地提升了模型在代碼層面的糾錯和優化能力,為后續的強化學習階段奠定了堅實基礎 。

      2. 從 “文本獎勵” 到 “視覺獎勵”:粗細粒度 ViRL 框架



      傳統 SFT 訓練在多模態代碼生成上存在根本缺陷:它缺乏 “視覺 - 代碼” 的閉環反饋 ,且無法保證代碼的全局可執行性 。

      為解決此問題,VinciCoder 引入了視覺強化學習 (ViRL) 框架。該框架摒棄了傳統強化學習中脆弱的、基于規則的 “文本獎勵” ,轉而從視覺直接獲取獎勵信號 。

      其核心突破在于一套粗 - 細粒度(Coarse-to-fine)視覺獎勵機制:

      • 渲染與編碼:模型生成的代碼被實時渲染成圖像 。
      • 粗粒度(全局):通過下采樣生成縮略圖,評估整體結構的相似性 。
      • 細粒度(局部):將高分辨率圖像分割為多個局部圖塊(patches),精確計算局部細節的保真度 。
      • ViT 獎勵模型:使用 DINOv2-L 計算渲染圖像與目標圖像在兩個粒度上的視覺相似度,作為獎勵信號。
      • 對齊獎勵:引入一個輔助的語言對齊獎勵,用于懲罰生成了錯誤代碼語言(如要求 Python 卻生成了 LaTeX 的行為)
      • 策略優化:采用群組相對策略優化 (GRPO) 算法 對模型進行微調,顯著提升視覺對齊度和代碼可執行性。

      據我們所知,VinciCoder 是第一個應用強化學習(RL)來實現統一視覺代碼生成領域中 “跨領域視覺保真度” 提升的視覺語言模型

      實驗結果與性能表現

      論文在五大多模態代碼生成基準上進行了全面實驗,對比了包括 Qwen、InternVL 等開源模型以及 Gemini-2.5-Pro、Claude-4.5、GPT-5 等閉源模型 ,核心結果如下:



      實驗結果令人矚目:VinciCoder 在多個主流多模態代碼生成基準上均取得了卓越表現。

      • SOTA 性能:VinciCoder 在開源模型對比中樹立了新的 SOTA 標準 ,其性能顯著優于所有同等規模的競爭對手 。
      • 媲美閉源模型:在如 Image-to-SVG 和化學分子式生等高難度任務上,VinciCoder 展現出超越頂尖閉源模型的卓越性能 。
      • 策略有效性:消融實驗證明,僅 SFT 階段的 VinciCoder-SFT 就已建立起強大的基線 ;而 ViRL 階段的引入,則成功將模型性能提升至 SOTA 水平 ,充分驗證了 SFT-ViRL 兩階段策略的壓倒性優勢。



      研究意義與應用前景

      VinciCoder 的研究不僅在技術上取得了重大突破,也為多模態代碼生成領域提供了全新的研究范式:

      • 驗證 RL 新路徑:證明了 “視覺強化學習” 是突破 SFT 瓶頸、提升代碼視覺保真度的有效途徑,將獎勵機制從文本域成功擴展到視覺域 。
      • 統一框架的實現:打破了過去模型 “各自為戰” 的狹隘范式 ,提供了一個強大的統一框架,能夠處理包括 Python、HTML、SVG、LaTeX 乃至化學 SMILES 在內的多樣化代碼生成任務 。
      • 高保真度獎勵機制:“粗 - 細粒度” 獎勵設計為處理高分辨率、高復雜度視覺輸入的 RL 任務提供了健壯且可擴展的解決方案 。

      結論

      VinciCoder 的核心價值并非單純地堆砌 SFT 數據,而是通過 “SFT + 粗細粒度 ViRL” 的組合,證明了 “以視覺反饋指導代碼生成” 的可行性與優越性。這一思路不僅解決了傳統 SFT 范式在可執行性與視覺保真度上的痛點,也為后續通用多模態智能體的研發提供了新的思路。

      在總體思路上,該論文的思路與 R1-Style 方法高度相關,都驗證了強化學習在提升基礎模型高級能力上的巨大潛力。VinciCoder 的成功探索表明,RL 不僅可以用于優化數學推理等文本任務,更可以作為連接 “視覺” 與 “代碼” 兩大模態的橋梁,解決 SFT 無法企及的跨模態對齊難題。

      更多細節請參閱原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      分手29年后,肖戰成國乒副總教練,而她嫁給富商,已是大學教授

      分手29年后,肖戰成國乒副總教練,而她嫁給富商,已是大學教授

      做一個合格的吃瓜群眾
      2026-04-06 10:16:48
      皮爾斯建議詹姆斯立即退役:傷病潮已讓湖人崩潰,他為聯盟付出了一切

      皮爾斯建議詹姆斯立即退役:傷病潮已讓湖人崩潰,他為聯盟付出了一切

      漫川舟船
      2026-04-07 09:10:30
      不甘心的羅玉鳳,令人敬佩

      不甘心的羅玉鳳,令人敬佩

      廖保平
      2026-03-22 10:49:24
      6連勝也挨罵!烏度卡怒吼申京滾回去,火箭更衣室要炸

      6連勝也挨罵!烏度卡怒吼申京滾回去,火箭更衣室要炸

      阿晞體育
      2026-04-07 14:04:46
      霍爾木茲海峽驚現“隱形”船只,航運量驟增50%!

      霍爾木茲海峽驚現“隱形”船只,航運量驟增50%!

      花小貓的美食日常
      2026-04-07 12:20:55
      英國上將揭露:1997年香港回歸真相,誰敢抗衡中國解放軍?

      英國上將揭露:1997年香港回歸真相,誰敢抗衡中國解放軍?

      老范談史
      2026-03-18 23:51:08
      國內某汽車巨頭獲百萬輛海外訂單!

      國內某汽車巨頭獲百萬輛海外訂單!

      新浪財經
      2026-04-07 04:16:18
      領導上班都在干嘛?網友說:老總搞了個包房經理和人事輪流去陪他

      領導上班都在干嘛?網友說:老總搞了個包房經理和人事輪流去陪他

      黯泉
      2026-04-05 20:47:13
      不留骨灰,不設墓地,不立碑,59歲王志文對后事的安排讓人深思

      不留骨灰,不設墓地,不立碑,59歲王志文對后事的安排讓人深思

      荒野老五
      2026-04-07 11:59:09
      馬筱梅想在臺北買房原因曝光!心態失衡,自覺不比具俊曄和S媽差

      馬筱梅想在臺北買房原因曝光!心態失衡,自覺不比具俊曄和S媽差

      小娛樂悠悠
      2026-04-07 09:20:48
      李在明萬萬沒想到,被判無期的尹錫悅,竟能比當總統還掙得多

      李在明萬萬沒想到,被判無期的尹錫悅,竟能比當總統還掙得多

      青煙小先生
      2026-04-07 14:53:58
      最慘十大本科專業!70%人畢業就轉行,別再讓孩子踩坑了!

      最慘十大本科專業!70%人畢業就轉行,別再讓孩子踩坑了!

      戶外阿毽
      2026-04-07 12:19:53
      豪擲6000萬歐元!英超雙雄圍剿巴薩,瘋搶19歲足壇天才

      豪擲6000萬歐元!英超雙雄圍剿巴薩,瘋搶19歲足壇天才

      夜白侃球
      2026-04-07 11:04:20
      美國驅逐伊朗離岸愛國者,戰爭中的小點綴

      美國驅逐伊朗離岸愛國者,戰爭中的小點綴

      二湘空間
      2026-04-07 12:45:36
      湖南永州發生一起交通事故,一輛重型半掛牽引車與一輛小車相撞,致3死3傷

      湖南永州發生一起交通事故,一輛重型半掛牽引車與一輛小車相撞,致3死3傷

      臺州交通廣播
      2026-04-06 17:40:32
      日本餐飲巨頭食其家創始人心梗去世,終年77歲

      日本餐飲巨頭食其家創始人心梗去世,終年77歲

      紅星新聞
      2026-04-07 13:24:07
      蘇州!二手房漲271%!新房漲138%!最新出爐,樓市狂飆...

      蘇州!二手房漲271%!新房漲138%!最新出爐,樓市狂飆...

      華瑤說房
      2026-04-07 12:48:15
      88票對3票!MVP結果定了?約基奇卻被無情羞辱

      88票對3票!MVP結果定了?約基奇卻被無情羞辱

      茅塞盾開本尊
      2026-04-07 14:03:10
      一定要大量讀書:只要你還一直讀書,你就能夠一直理解自己的痛苦

      一定要大量讀書:只要你還一直讀書,你就能夠一直理解自己的痛苦

      欣辰讀書
      2026-04-06 23:06:40
      戲子當道,是央國企管理中的一大痛點

      戲子當道,是央國企管理中的一大痛點

      細說職場
      2026-03-06 20:01:27
      2026-04-07 15:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12700文章數 142616關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      國家繼續實施調控 成品油價格適當調整

      頭條要聞

      國家繼續實施調控 成品油價格適當調整

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      張藝上浪姐惹爭議 黃景瑜前妻發文內涵

      財經要聞

      2026年,全國租房市場還有波降價潮

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      手機
      家居
      本地
      房產
      游戲

      手機要聞

      谷歌Pixel 10等手機3月更新被曝卡死、斷連、無限重啟等問題

      家居要聞

      雅致愜意 感知生活之美

      本地新聞

      跟著歌聲游安徽,聽古村回響

      房產要聞

      小陽春全面啟動!現房,才是這波行情里最穩的上車票

      《仁王3》制作人:PC市場已成為開發團隊戰略核心

      無障礙瀏覽 進入關懷版