<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      牛津大學、中國科大聯(lián)合中南大學等提出VCode:將圖像轉(zhuǎn)為代碼,多模態(tài)理解性能飆升12.3點!

      0
      分享至

      文章來源:我愛計算機視覺(ID:aicvml)

      最近,來自牛津大學、中國科學技術(shù)大學、中南大學和微軟研究院的研究者們聯(lián)手,帶來了一項非常有意思的工作:VCode。簡單來說,他們不再讓AI模型僅僅“看懂”圖片,而是要求模型將圖片“翻譯”成一種名為SVG的代碼。這種做法,就像是讓AI學習用簡筆畫和符號來復刻一幅畫,不僅要畫得像,更要抓住畫里的精髓。

      這項研究的核心思想是,通過生成精確、可執(zhí)行的代碼,我們可以更深入地檢驗和提升AI對視覺世界的理解能力。



      • 論文標題 : VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

      • 作者 : Kevin Qinghong Lin, Yuhao Zheng, Hangyu Ran, Dantong Zhu, Dongxing Mao, Linjie Li, Philip Torr, Alex Jinpeng Wang

      • 機構(gòu) : 牛津大學、中國科學技術(shù)大學、中南大學、微軟研究院

      • 論文地址 : https://arxiv.org/abs/2511.02778

      • 項目主頁 : https://csu-jpg.github.io/VCode

      • 代碼倉庫 : https://github.com/CSU-JPG/VCode

      背景:從像素到符號,AI視覺的進階之路

      我們知道,現(xiàn)在的大模型(VLMs)在處理語言任務上已經(jīng)非常強大,但在理解視覺信息方面,它們大多還停留在像素層面。也就是說,模型看到的是一堆RGB值,雖然能識別出物體,但很難像人類一樣,提煉出物體之間的結(jié)構(gòu)、關(guān)系和符號意義。

      舉個例子,人類看到一張畫,可能會隨手畫個草圖,勾勒出主要輪廓和布局。這個草圖就是一種符號化的表示,它緊湊、易于理解,并且抓住了核心信息。受到這個啟發(fā),研究者們想,能不能讓AI也學會這種“打草稿”的能力呢?

      他們選擇了SVG(可縮放矢量圖形)作為這種“草圖”的載體。SVG是一種用代碼來描述圖形的格式,具有緊湊、可解釋和可執(zhí)行的優(yōu)點。于是,一個全新的任務誕生了:將圖片(像素表示)轉(zhuǎn)化為SVG代碼(符號表示)。


      VCode基準:三大領(lǐng)域考驗AI的“畫功”

      為了系統(tǒng)地評估模型將圖像轉(zhuǎn)化為SVG代碼的能力,研究團隊構(gòu)建了 VCode 基準。這個基準并非從零開始,而是巧妙地“再利用”了現(xiàn)有的三個經(jīng)典多模態(tài)評測集,覆蓋了不同難度和維度的挑戰(zhàn):

      • 通用常識 (MM-Vet) : 考察模型對日常場景和空間關(guān)系的理解。

      • 專業(yè)學科 (MMMU) : 涉及大學水平的專業(yè)知識,需要模型具備更深層次的推理能力。

      • 視覺感知 (CV-Bench) : 專注于更純粹的視覺任務,如物體計數(shù)、距離估計和三維關(guān)系判斷。

      通過這三個維度的考驗,VCode能夠全面地衡量一個模型是否真正“理解”了圖像的符號意義。

      CodeVQA:一種新穎的評估范式

      那么,如何判斷模型生成的SVG代碼好不好呢?傳統(tǒng)的像素級對比顯然不合適,因為我們追求的是“神似”而非“形似”。

      為此,論文提出了一個名為 CodeVQA 的創(chuàng)新評估方法。它的流程是:

      1. 模型根據(jù)原圖生成SVG代碼。

      2. 將SVG代碼渲染成一張新的圖片。

      3. 讓一個策略模型(Policy Model)看著這張渲染出來的圖片,回答關(guān)于原圖的問題。

      如果策略模型能夠正確回答,就說明SVG代碼成功地保留了原圖的關(guān)鍵符號信息。反之,則說明轉(zhuǎn)化過程中信息丟失了。CV君認為,這種評估方式非常巧妙,它繞開了像素比較的難題,直擊“符號保真度”這一核心。


      VCoder:兩大“法寶”提升模型表現(xiàn)

      實驗發(fā)現(xiàn),即便是當前最強的多模態(tài)大模型(如GPT-4o, Claude 3 Opus),在VCode基準上的表現(xiàn)也差強人意。這暴露了它們在視覺中心編碼能力上的短板。

      為了解決這個問題,研究者們提出了一個名為 VCoder 的代理框架,它從兩個方面來增強現(xiàn)有VLM的能力:

      1. 思考與修正 (Thinking with Revision) : 這是一個迭代優(yōu)化的過程。模型首先生成一個初始版本的SVG,然后自己對比渲染圖和原圖的差異,并“寫下”評論,最后根據(jù)這些評論來修改代碼。這個過程循環(huán)往復,不斷提升SVG的保真度。

      2. 行動與視覺工具 (Acting with Visual Tools) : 允許模型調(diào)用外部的“視覺工具箱”,比如物體檢測器、分割模型、OCR工具等。這些工具可以提供關(guān)于物體類別、位置、形狀、顏色和文本的結(jié)構(gòu)化信息,作為代碼生成的“輔助線”,彌補模型自身在底層感知上的不足。

      實驗結(jié)果:效果顯著,但前路漫漫

      搭載了VCoder框架后,模型性能得到了巨大提升。


      從上表的主實驗結(jié)果可以看出:

      • 現(xiàn)有模型仍有差距 :即使是像GPT-5這樣的頂級模型,在CodeVQA上的得分(46.8)也遠低于直接在原圖上進行問答的上限(61.7),說明從圖像到符號代碼的轉(zhuǎn)換仍然是一個巨大的挑戰(zhàn)。

      • VCoder提升巨大 :基于Claude-4-Opus,VCoder框架帶來了 12.3個點 的驚人總體性能提升,證明了“思考與修正”和“行動與視覺工具”這兩大法寶的有效性。

      • 知識和3D是難點 :所有模型在需要專業(yè)知識和3D空間推理的子任務上表現(xiàn)普遍不佳,這指明了未來研究需要攻克的方向。

      下面的定性結(jié)果更直觀地展示了VCoder的威力。無論是網(wǎng)絡迷因圖,還是涉及藝術(shù)理論和3D場景的復雜圖像,VCoder生成的SVG都更加忠實于原作的結(jié)構(gòu)和語義。


      消融實驗進一步證明,無論是引入視覺工具(特別是形狀和文本信息),還是增加修正的輪次,都能穩(wěn)定地提升模型性能。


      總結(jié)

      總的來說,VCode不僅為多模態(tài)領(lǐng)域提供了一個全新的、富有挑戰(zhàn)性的視角,也通過VCoder框架展示了提升模型符號推理能力的有效路徑。這項工作讓我們離真正能像人一樣思考和理解視覺世界的AI又近了一步。

      你覺得這個技術(shù)未來會用在哪些場景?一起來聊聊吧!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      俄羅斯軍事專家:“美軍撤離亞太前,或會徹底清算這三個國家”

      俄羅斯軍事專家:“美軍撤離亞太前,或會徹底清算這三個國家”

      通文知史
      2025-12-20 21:45:03
      中國一女性在歐洲郵輪航線經(jīng)停站失聯(lián),在船期間僅消費過一杯橙汁

      中國一女性在歐洲郵輪航線經(jīng)停站失聯(lián),在船期間僅消費過一杯橙汁

      瀟湘晨報
      2025-12-21 17:21:14
      總決賽戰(zhàn)報:國羽1金1銀韓國1金日本1銀,決賽王祉怡21-18安洗瑩

      總決賽戰(zhàn)報:國羽1金1銀韓國1金日本1銀,決賽王祉怡21-18安洗瑩

      求球不落諦
      2025-12-21 18:01:51
      癌癥去世的人越來越多?醫(yī)生反復提醒:寧可打打牌,也別做這5事

      癌癥去世的人越來越多?醫(yī)生反復提醒:寧可打打牌,也別做這5事

      蜉蝣說
      2025-12-19 22:01:31
      李湘帶王詩齡擠高端圈遇挫,穿搭太張揚被安排到禮儀區(qū),尷尬拉滿

      李湘帶王詩齡擠高端圈遇挫,穿搭太張揚被安排到禮儀區(qū),尷尬拉滿

      巧妹電影
      2025-12-21 14:42:39
      56歲王菲沒想到,過年還剩兩個月,45歲謝霆鋒再一次讓人刮目相看

      56歲王菲沒想到,過年還剩兩個月,45歲謝霆鋒再一次讓人刮目相看

      一娛三分地
      2025-12-20 19:17:33
      笑岔氣了!果然斷句是中國人一生的宿敵,只能說中國文化博大精深

      笑岔氣了!果然斷句是中國人一生的宿敵,只能說中國文化博大精深

      夜深愛雜談
      2025-12-19 16:39:58
      迪麗熱巴“天使蹲”火出圈,顏值驚艷全網(wǎng),醫(yī)生:無基礎者慎入

      迪麗熱巴“天使蹲”火出圈,顏值驚艷全網(wǎng),醫(yī)生:無基礎者慎入

      悠悠說世界
      2025-12-21 08:34:39
      12月20日俄烏最新:最大的新聞和最大的驚喜

      12月20日俄烏最新:最大的新聞和最大的驚喜

      西樓飲月
      2025-12-20 15:18:53
      張?zhí)m去汪小菲家過冬至!提前一晚做醉蟹、包餃子,給馬筱梅做牛排

      張?zhí)m去汪小菲家過冬至!提前一晚做醉蟹、包餃子,給馬筱梅做牛排

      笑一個吧
      2025-12-21 18:38:37
      比糖和鹽還傷血管,已被世衛(wèi)組織拉入“黑名單”,勸你早日忌口

      比糖和鹽還傷血管,已被世衛(wèi)組織拉入“黑名單”,勸你早日忌口

      39健康網(wǎng)
      2025-12-20 20:16:48
      穆里尼奧強勢復蘇,本菲卡豪取8場不敗重燃爭冠希望

      穆里尼奧強勢復蘇,本菲卡豪取8場不敗重燃爭冠希望

      星耀國際足壇
      2025-12-21 19:35:23
      顏值身材天花板,黑絲加持+演技炸裂

      顏值身材天花板,黑絲加持+演技炸裂

      貴圈真亂
      2025-12-21 11:27:02
      零負債人群誕生了!這才是真正的人間清醒!這群人會越來越多嗎?

      零負債人群誕生了!這才是真正的人間清醒!這群人會越來越多嗎?

      正經(jīng)說個事兒
      2025-12-21 07:05:35
      震驚!呂梁博物館征集文物公告,評論區(qū)遭網(wǎng)友“慰問”,被迫刪除

      震驚!呂梁博物館征集文物公告,評論區(qū)遭網(wǎng)友“慰問”,被迫刪除

      火山詩話
      2025-12-21 11:17:28
      揮淚斬馬謖!皇馬批準,放逐9000萬“頂星”!1.1億強援冬窗來投

      揮淚斬馬謖!皇馬批準,放逐9000萬“頂星”!1.1億強援冬窗來投

      頭狼追球
      2025-12-21 14:18:13
      外媒:柬方感謝中國調(diào)停柬泰沖突

      外媒:柬方感謝中國調(diào)停柬泰沖突

      參考消息
      2025-12-21 21:27:18
      清華大學社會科學學院政治學系系主任楊雪冬:“為何中國方案最能落地”的兩個原因

      清華大學社會科學學院政治學系系主任楊雪冬:“為何中國方案最能落地”的兩個原因

      環(huán)球網(wǎng)資訊
      2025-12-20 22:15:13
      “恨國女”許可馨:移民美國,已結(jié)婚,丈夫大量照片曝光遭質(zhì)疑

      “恨國女”許可馨:移民美國,已結(jié)婚,丈夫大量照片曝光遭質(zhì)疑

      小熊侃史
      2025-12-20 10:53:55
      天吶!原來大錢是這么來的!網(wǎng)友:難怪我螺絲打到冒煙都賺不到錢

      天吶!原來大錢是這么來的!網(wǎng)友:難怪我螺絲打到冒煙都賺不到錢

      夜深愛雜談
      2025-12-20 17:40:11
      2025-12-21 22:52:49
      算法與數(shù)學之美 incentive-icons
      算法與數(shù)學之美
      分享知識,交流思想
      5273文章數(shù) 64595關(guān)注度
      往期回顧 全部

      科技要聞

      生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個應用

      頭條要聞

      美國外交系統(tǒng)現(xiàn)重大調(diào)整 約有24名駐外大使被要求離任

      頭條要聞

      美國外交系統(tǒng)現(xiàn)重大調(diào)整 約有24名駐外大使被要求離任

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      星光大賞太尷尬!搶話擋鏡頭,場地還小

      財經(jīng)要聞

      老房子“強制體檢”,政府出手了

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態(tài)度原創(chuàng)

      數(shù)碼
      健康
      房產(chǎn)
      公開課
      軍事航空

      數(shù)碼要聞

      Intel顯卡沖擊高端:竟然要直接上32GB顯存!

      這些新療法,讓化療不再那么痛苦

      房產(chǎn)要聞

      中交·藍色港灣一周年暨藍調(diào)生活沙龍圓滿舉行

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      石破茂:擁核絕不會給日本帶來正面影響

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 国产无码久久| 亚洲精品一区二区国产精华液| 精品1卡二卡三卡四卡老狼| 亚洲精选无码| 足交91| 精品自拍视频| 麻豆乱码国产一区二区三区| 久久精品国产亚洲夜色av网站 | 精品无码一区二区三区爱欲 | 文中字幕一区二区三区视频播放| 色三区| gogogo高清免费观看| 成人毛片18女人毛片免费| 九九国产视频| 中文字幕在线v| 天天噜噜噜在线视频| 国产乱人伦| 欧洲无码av| 民勤县| 3P视频免费在线观看| 欧美成人一区二免费视频| 色综合久久88色综合天天免费 | 免费人成在线观看网站| 无码h黄肉动漫在线观看网站| 丰满人妻被猛烈进入中文字幕| 国产高清在线a视频大全| 一级7777| 巨鹿县| 久久国产精品老女人| 亚洲区1区3区4区中文字幕码| 色五月丁香六月欧美综合| 亚洲综合自拍| 99ri精品| 欧美色熟妇| 精品久久久中文字幕一区| 久久精品免费一区二区| 人人网aV| 99国产三级| 久久77| 伊人久久大香线蕉AV网| 亚洲国产午夜精品理论片|