<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      全圖與切片并非等價(jià)?LLaVA-UHD-v3揭示差異推出高效全圖建模方案

      0
      分享至



      隨著多模態(tài)大模型(MLLMs)在各類視覺語言任務(wù)中展現(xiàn)出強(qiáng)大的理解與交互能力,如何高效地處理原生高分辨率圖像以捕捉精細(xì)的視覺信息,已成為提升模型性能的關(guān)鍵方向。

      然而,主流的視覺編碼范式往往難以兼顧性能與效率:基于切片的編碼方法雖能降低計(jì)算開銷,卻犧牲了全局上下文感知能力;而全局原生分辨率編碼在提升整體性能的同時(shí),又帶來了巨大的計(jì)算負(fù)擔(dān)。同時(shí),現(xiàn)有的視覺壓縮策略與特征提取過程相對(duì)獨(dú)立,難以在編碼早期有效控制信息冗余,缺乏一個(gè)兼顧細(xì)粒度建模與計(jì)算效率的統(tǒng)一架構(gòu)。

      針對(duì)如何在高清原生分辨率下,保持圖像全局理解能力的同時(shí),還能快速推理這一核心問題,來自清華大學(xué)、中科院的研究團(tuán)隊(duì)正式發(fā)布LLaVA-UHD v3!



      • 論文標(biāo)題:LLAVA-UHD V3: PROGRESSIVE VISUAL COMPRESSION FOR EFFICIENT NATIVE-RESOLUTION ENCODING IN MLLMS
      • 論文鏈接:https://arxiv.org/abs/2511.21150
      • 代碼鏈接:https://github.com/thunlp/LLaVA-UHD
      • huggingface 鏈接:https://huggingface.co/Sishxo/LLaVA-UHD-v3

      LLaVA-UHD-v3 提出了全新的漸進(jìn)式視覺壓縮框架 ——Progressive Visual Compression(PVC),由Refined Patch Embedding(RPE)與Windowed Token Compression(WTC)兩個(gè)核心組件構(gòu)成。該框架在保持全局語義一致性的前提下,顯著減少視覺 Token 數(shù)量,從根本上提升原生高分辨率視覺編碼的效率。依托 PVC,LLaVA-UHD-v3 在性能上可與 Qwen2-VL 相媲美,同時(shí)實(shí)現(xiàn)1.9× 的 TTFT 加速,完整訓(xùn)練僅需32 張 A100、約 300 小時(shí)即可完成。



      切片編碼 vs 全圖編碼深入分析

      為了公平對(duì)比兩種主流視覺編碼方式 —— 基于切片的編碼 (Slice-based Encoding, SBE) 與 全局原生分辨率編碼 (Global Native-Resolution Encoding, GNE) —— 團(tuán)隊(duì)使用相同模型架構(gòu) + 相同訓(xùn)練數(shù)據(jù) + 相同評(píng)估 protocol。在此基礎(chǔ)上,既在通用多模態(tài) benchmark 上測(cè)試,也專門構(gòu)建了一個(gè)合成數(shù)據(jù)集 ShapeGrid 用于空間感知 / 定位能力分析。

      在 ShapeGrid (及其 “Sudoku-style” 子集) 上,GNE 相比 SBE 在空間感知 / 定位任務(wù)上的表現(xiàn)有明顯優(yōu)勢(shì):空間感知能力平均提升約11.0%。

      同時(shí),在通用視覺 - 語言理解任務(wù)中,GNE 在語義理解表現(xiàn)上也略優(yōu)于 SBE(平均提升約2.1%)。

      更重要的是,通過對(duì)比注意力熱圖、激活分布 (attention maps),研究發(fā)現(xiàn) SBE 在空間定位任務(wù)中表現(xiàn)出系統(tǒng)性的方向、結(jié)構(gòu)偏差 (例如水平、垂直方向不均衡) —— 也就是說 SBE 的切片機(jī)制破壞了圖像的空間連續(xù)性 (spatial continuity 、geometry),從而削弱了空間理解、定位的可靠性。

      因此,該對(duì)比實(shí)驗(yàn)清晰地表明:盡管 SBE 在效率上有優(yōu)勢(shì),但從語義 + 空間 + 幾何一致性 (global context + spatial reasoning) 的角度,GNE 明顯更適合需要空間感知、高分辨率理解與推理的任務(wù)。



      全圖編碼的高效解決方案

      全局原生分辨率編碼帶來了較高的計(jì)算成本,這凸顯了迫切需要一種原生且高效的視覺編碼范式。因此,團(tuán)隊(duì)提出了 LLaVA-UHD v3,一種配備了漸進(jìn)式視覺壓縮(PVC)方法的多模態(tài)大模型(MLLM),用于高效的原生分辨率編碼。

      PVC 架構(gòu)由兩個(gè)核心模塊組成:

      • 精細(xì)化 Patch 嵌入 (Refined Patch Embedding, RPE):通過將圖像劃分為更小尺寸的 patch,并用偽逆 (pseudo-inverse) 方法將預(yù)訓(xùn)練模型原有 embedding 權(quán)重轉(zhuǎn)換為新的、更細(xì)粒度的 embedding。這樣,原本粗粒度 patch 的語義信息被近似保留,但實(shí)現(xiàn)了更豐富的視覺語義提取建模。
      • 窗口化 Token 壓縮 (Windowed Token Compression, WTC):在 ViT 的中間層,將空間上相鄰的多個(gè) token(例如 2×2 區(qū)域)聚合為一個(gè)新 token,初期以均勻平均池化 (average pooling) 起步,并通過一個(gè)輕量級(jí)、零初始化的 MLP 模型學(xué)習(xí)內(nèi)容自適應(yīng)的池化權(quán)重,從而逐漸學(xué)會(huì)對(duì)更重要區(qū)域賦予更高權(quán)重。這樣,隨著網(wǎng)絡(luò)深度的推進(jìn),token 數(shù)量被大幅壓縮,而關(guān)鍵語義信息得以保留。

      這種 “先細(xì)粒度建模 + 再漸進(jìn)壓縮” 的設(shè)計(jì),使得 PVC 在兼顧全局語義 + 局部細(xì)節(jié)的同時(shí),大幅降低計(jì)算量。



      實(shí)驗(yàn)驗(yàn)證:PVC 在推理效率提升的同時(shí)保留模型能力

      效率方面,在統(tǒng)一的 LLM(Qwen2-7B)框架下,本文提出的 ViT-UHD 編碼器相比 MoonViT 實(shí)現(xiàn)了2.4× 加速,相比 Qwen2.5-ViT 也快 1.9×。將其整合到完整的 MLLM 中后,LLaVA-UHD v3 的 TTFT 相較強(qiáng)大的 Qwen2-VL降低 49%(約快 1.9×),甚至比以高效著稱的切片編碼模型 MiniCPM-V2.6 仍然快約 10%。

      在性能方面,LLaVA-UHD v3 僅使用約 2000 萬對(duì)圖文數(shù)據(jù)完成訓(xùn)練,遠(yuǎn)低于 Qwen2-VL(約 7 億)和 MiniCPM-V-2.6(約 4.6 億)等商業(yè)模型的訓(xùn)練規(guī)模。然而,其在多項(xiàng)視覺語言基準(zhǔn)中依舊展現(xiàn)出高度競(jìng)爭(zhēng)力。同時(shí),它實(shí)現(xiàn)了64× 的視覺 Token 壓縮率,遠(yuǎn)超對(duì)手(Qwen2-VL 約為 4×,MiniCPM-V2.6 為 16×),但在需要細(xì)粒度視覺信息的任務(wù)上 —— 包括 HallusionBench(幻覺檢測(cè))、CV-Bench(空間推理)以及 OCR&Chart(文字與圖表識(shí)別)—— 依然取得了與 SOTA 模型相當(dāng)甚至更優(yōu)的表現(xiàn)。

      這些結(jié)果充分驗(yàn)證了 PVC 框架的核心價(jià)值:在大幅減少視覺 Token 和推理開銷的同時(shí),仍能穩(wěn)健保留關(guān)鍵的細(xì)節(jié)感知與全局理解能力,實(shí)現(xiàn)真正意義上的 “高效而不降級(jí)”。





      展望

      基于對(duì)全圖編碼與切片編碼優(yōu)劣的深入分析,LLaVA-UHD v3 提出了結(jié)合兩者優(yōu)勢(shì)的漸進(jìn)式視覺壓縮全圖編碼方案,在保證模型能力的前提下實(shí)現(xiàn)了顯著的推理效率提升,并展現(xiàn)出良好的遷移與泛化能力,為 MLLM 的高精度原生分辨率建模提供了可行路徑。

      不過,實(shí)驗(yàn)分析表明,缺失了預(yù)對(duì)齊階段的 ViT-UHD 性能不佳,這表明引入 PVC 后的視覺編碼器能力仍未達(dá)到上限:僅靠當(dāng)前 MLLM 的標(biāo)準(zhǔn)訓(xùn)練流程,很難完全挖掘 ViT 的視覺表征潛力,其學(xué)習(xí)尚未飽和。此外,隨著 Token 數(shù)量增大,Transformer 的二次復(fù)雜度仍然會(huì)帶來成本瓶頸。

      未來,仍需要探索更適合多模態(tài)任務(wù)的視覺編碼預(yù)訓(xùn)練策略,并逐步引入線性復(fù)雜度算子替代傳統(tǒng)的二次復(fù)雜度注意力機(jī)制,從而實(shí)現(xiàn)真正可擴(kuò)展的高效多模態(tài)建模。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      哈佛大學(xué)驚人發(fā)現(xiàn):世界上最健康長(zhǎng)壽的運(yùn)動(dòng),竟然簡(jiǎn)單到一學(xué)就會(huì)

      哈佛大學(xué)驚人發(fā)現(xiàn):世界上最健康長(zhǎng)壽的運(yùn)動(dòng),竟然簡(jiǎn)單到一學(xué)就會(huì)

      原來仙女不講理
      2025-12-17 17:16:38
      鄰居把一堆舊書當(dāng)廢品賣給我,我看他可憐給80,下午他兒子開車來

      鄰居把一堆舊書當(dāng)廢品賣給我,我看他可憐給80,下午他兒子開車來

      小秋情感說
      2025-12-19 14:22:10
      “碩士”變“碩土”,上海大學(xué)碩士研究生招生考試,展板出現(xiàn)明顯錯(cuò)別字,校方回應(yīng)

      “碩士”變“碩土”,上海大學(xué)碩士研究生招生考試,展板出現(xiàn)明顯錯(cuò)別字,校方回應(yīng)

      環(huán)球網(wǎng)資訊
      2025-12-19 13:57:24
      上梁不正下梁歪?半個(gè)月吳秀波迎兩大噩耗,兒子兩年前疑自絕后路

      上梁不正下梁歪?半個(gè)月吳秀波迎兩大噩耗,兒子兩年前疑自絕后路

      素衣讀史
      2025-12-17 14:03:31
      海南封關(guān)后排隊(duì)買榴蓮!價(jià)格78或88一斤不在乎

      海南封關(guān)后排隊(duì)買榴蓮!價(jià)格78或88一斤不在乎

      九方魚論
      2025-12-18 21:47:45
      上??爝f為何幾乎沒人偷?真相令人深思

      上??爝f為何幾乎沒人偷?真相令人深思

      上觀新聞
      2025-12-19 16:57:06
      CBA最新積分榜排名!遼寧第3廣廈第5,廣東跌至第9,新疆殺回前4

      CBA最新積分榜排名!遼寧第3廣廈第5,廣東跌至第9,新疆殺回前4

      老吳說體育
      2025-12-19 00:14:15
      吳豐山請(qǐng)辭?;鶗?huì)董座傳蘇嘉全接任?賴清德烽火兩岸已到窮途末路

      吳豐山請(qǐng)辭?;鶗?huì)董座傳蘇嘉全接任?賴清德烽火兩岸已到窮途末路

      郭茂辰海峽傳真
      2025-12-19 22:19:35
      反悔!戴琳承諾周五還清離世球迷欠款卻消失!通宵點(diǎn)贊言論欲洗白

      反悔!戴琳承諾周五還清離世球迷欠款卻消失!通宵點(diǎn)贊言論欲洗白

      我愛英超
      2025-12-19 20:51:45
      福布斯全球運(yùn)動(dòng)隊(duì)市值:皇馬第20、曼聯(lián)24、巴薩42,利物浦48

      福布斯全球運(yùn)動(dòng)隊(duì)市值:皇馬第20、曼聯(lián)24、巴薩42,利物浦48

      懂球帝
      2025-12-19 20:25:10
      夫妻性生活:女人最討厭的5種“床上行為”,男人千萬別犯!

      夫妻性生活:女人最討厭的5種“床上行為”,男人千萬別犯!

      精彩分享快樂
      2025-11-25 00:05:03
      美國(guó)經(jīng)濟(jì)難于擺脫嚴(yán)重衰退 1975年11月19日《人民日?qǐng)?bào)》

      美國(guó)經(jīng)濟(jì)難于擺脫嚴(yán)重衰退 1975年11月19日《人民日?qǐng)?bào)》

      那些看得見的老照片
      2025-12-17 17:13:44
      特朗普再出狠招!簽署入境禁令,40國(guó)被拉黑名單,中方策略亮了

      特朗普再出狠招!簽署入境禁令,40國(guó)被拉黑名單,中方策略亮了

      世界多元
      2025-12-19 20:46:54
      馬未都評(píng)“受贈(zèng)南京博物院估價(jià)8800萬畫作現(xiàn)身拍賣市場(chǎng)”:應(yīng)該檢討而不是辯解;捐贈(zèng)者后人要求追回5件消失畫作

      馬未都評(píng)“受贈(zèng)南京博物院估價(jià)8800萬畫作現(xiàn)身拍賣市場(chǎng)”:應(yīng)該檢討而不是辯解;捐贈(zèng)者后人要求追回5件消失畫作

      大象新聞
      2025-12-19 18:57:17
      航程猛縮14天!印尼船拒交“買路錢”,新加坡慌了,中國(guó)打出王炸

      航程猛縮14天!印尼船拒交“買路錢”,新加坡慌了,中國(guó)打出王炸

      小鬼頭體育
      2025-12-19 16:24:50
      萬科泊寓清退10余家深圳門店,已制定安置賠償方案

      萬科泊寓清退10余家深圳門店,已制定安置賠償方案

      界面新聞
      2025-12-19 20:38:35
      誰說屁股大就不能穿瑜伽褲?黃色T恤搭薄荷綠瑜伽褲,成熟有活力

      誰說屁股大就不能穿瑜伽褲?黃色T恤搭薄荷綠瑜伽褲,成熟有活力

      小喬古裝漢服
      2025-11-12 11:46:01
      特朗普2票險(xiǎn)勝,戰(zhàn)爭(zhēng)一觸即發(fā)!中方已表態(tài),支持委內(nèi)瑞拉是傳統(tǒng)

      特朗普2票險(xiǎn)勝,戰(zhàn)爭(zhēng)一觸即發(fā)!中方已表態(tài),支持委內(nèi)瑞拉是傳統(tǒng)

      博覽歷史
      2025-12-18 17:21:15
      爆砍45+14+11+5!抱歉詹姆斯:你從隊(duì)史第一變成了隊(duì)史第二

      爆砍45+14+11+5!抱歉詹姆斯:你從隊(duì)史第一變成了隊(duì)史第二

      籃球大視野
      2025-12-19 20:38:31
      確認(rèn)了:7級(jí)!還有雨夾雪、雪!明天抵達(dá)浙江

      確認(rèn)了:7級(jí)!還有雨夾雪、雪!明天抵達(dá)浙江

      浙江之聲
      2025-12-19 16:22:43
      2025-12-19 23:03:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11957文章數(shù) 142513關(guān)注度
      往期回顧 全部

      科技要聞

      許四清:具身智能的"ChatGPT時(shí)刻"還未到來

      頭條要聞

      河南學(xué)校火災(zāi)致13死案校長(zhǎng)獲刑6年半 創(chuàng)辦人被判7年

      頭條要聞

      河南學(xué)?;馂?zāi)致13死案校長(zhǎng)獲刑6年半 創(chuàng)辦人被判7年

      體育要聞

      “惡龍”埃托奧,正在毀滅喀麥隆足球

      娛樂要聞

      曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

      財(cái)經(jīng)要聞

      日元加息,恐慌來了?貨幣三國(guó)殺

      汽車要聞

      “一體壓鑄”再引熱議 一旦受損真的修不起嗎?

      態(tài)度原創(chuàng)

      本地
      家居
      數(shù)碼
      公開課
      軍事航空

      本地新聞

      云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

      家居要聞

      高端私宅 理想隱居圣地

      數(shù)碼要聞

      LG親自下場(chǎng)“拉踩”,RGB-Mini LED 真的一文不值?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      媒體:美方官宣史上對(duì)臺(tái)單筆最大軍售 野心藏不住了

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产av亚洲精品ai换脸电影| 国产人妻aⅴ色偷| 波多野结衣av88综合| 欧美 变态 另类 人妖| 熟女人妻aⅴ一区二区三区电影| 亚洲五月天综合| 国产亚洲精品自在久久vr| 娇小萝被两个黑人用半米长| 狠狠色AV一区二区| 在线播放无码高潮的视频| 海淀区| 亚洲AV无码成人片在线| 一本精品99久久精品77| 国产三区在线成人av| 久草青春| 精品国产三级a∨在线观看| av一卡二卡| 多毛老熟女| 国产精品无码一区二区桃花视频 | 亚洲中文字幕在线观看| 国产亚洲精品久久久久5区| 国产免费又黄又爽又色毛| 田东县| 人妻无码| 国产sm重味一区二区三区| 日本大色情www成人亚洲| 福利所第一导航福利| 国产传媒av| 久久天天躁狠狠躁夜夜网站| 成人网站免费大全日韩国产| 天水市| 中文无码日韩欧免费视频| 青青综合网| 久久精品中文闷骚内射| 香蕉视频一区| 黑人大战欲求不满人妻| 桑植县| 三上悠亚精品一区二区久久| 久久精品人人做人人爽电影蜜月| 亚洲国色天香卡2卡3卡4| 临泉县|