<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      谷歌DeepMind重磅開源多模態(tài)TIPSv2:實現(xiàn)Patch-Text對齊最優(yōu)表現(xiàn)

      0
      分享至



      導語:在多模態(tài)大模型飛速發(fā)展的今天,視覺 - 語言基礎模型在分類、檢索、分割和深度預測等任務上取得了巨大進步。然而,如何精準地將密集的 “圖像塊(Patch)” 表示與對應概念的 “文本嵌入” 對齊,依然是阻礙模型邁向更細粒度理解的 “Achilles' heel”。今天,谷歌 DeepMind 正式推出了 TIPSv2(Text-Image Pretraining with Spatial awareness v2),成功解決了這一核心痛點,并在 9 項任務和 20 個數(shù)據(jù)集上展現(xiàn)出統(tǒng)治級的性能。



      • 論文標題:TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment
      • 項目主頁:https://gdm-tipsv2.github.io/
      • HuggingFace 在線體驗:https://huggingface.co/spaces/google/TIPSv2
      • 作者 X (Twitter) 官宣:https://x.com/andrefaraujo/status/2044362911242502498
      • LinkedIn 討論:https://www.linkedin.com/posts/andrefaraujo_cvpr2026-cvpr2026-computervision-ugcPost-7449910891069890560-1Yhe?utm_source=share&utm_medium=member_desktop&rcm=ACoAAACIVW4BSMdtaSsUj-OT2zKU6jfeOCRJ-ul

      該研究成果《TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment》已成功被計算機視覺頂級會議 CVPR 2026 接收。目前,模型權重(涵蓋從 86M 到 1.1B 參數(shù)),代碼以及在線體驗 Demo 已全面開源。

      ? 核心作者團隊簡介

      本文由來自 Google DeepMind 的頂尖研究人員合作完成。通訊作者包括 Bingyi Cao、Koert Chen 以及 André Araujo。

      核心團隊在計算機視覺及多模態(tài) AI 領域成果斐然,在視覺 - 語言基礎模型的架構設計與表征學習方面擁有深厚學術背景與實戰(zhàn)經(jīng)驗。該團隊長期致力于推動具有 “空間感知能力(Spatial Awareness)” 的多模態(tài)大模型前沿研究,此次 TIPSv2 的發(fā)布標志著他們在細粒度視覺理解領域樹立了全新的里程碑。

      1. 發(fā)現(xiàn)反直覺現(xiàn)象:

      為何 “學生” 超越了 “老師”?

      TIPSv2 的誕生,源自于 DeepMind 研究團隊對 “預訓練(Pre-training)” 與 “知識蒸餾(Distillation)” 之間差異的深度深度剖析。

      在視覺大模型(如 CLIP、SigLIP)的常規(guī)訓練中,模型通常擅長全局圖像 - 文本對齊(例如識別整張圖中是否有一只貓),但在 “密集任務(Dense Tasks)” 如零樣本語義分割中卻往往表現(xiàn)乏力。研究團隊在早期的消融實驗中發(fā)現(xiàn)了一個極其反直覺的現(xiàn)象:



      通過 “塊級別(Patch-level)” 蒸餾出的小參數(shù)學生模型(Student Model),在零樣本分割等密集型圖文對齊任務上,其表現(xiàn)竟然大幅度反超了規(guī)模巨大的教師模型(Teacher Model)!

      在其他幾乎所有評估任務中,大參數(shù)模型通常都碾壓小模型,唯獨在 “Patch-Text 密集對齊” 上出現(xiàn)了驚人的逆轉。團隊進一步深挖內部機制后發(fā)現(xiàn):核心差異在于對 “可見圖像塊(Visible Patches)” 的監(jiān)督方式。在標準的掩碼圖像建模(Masked Image Modeling, 如 iBOT 機制)中,模型只對被遮擋的 Patch 計算損失;而在蒸餾過程中,學生模型接收了來自教師模型所有 Patch(無論是否被遮擋)的豐富特征指導。正是這種對 “可見 Patch” 的顯式學習與約束,解鎖了底層網(wǎng)絡驚人的密集圖文對齊能力。

      2. TIPSv2 的三大核心技術創(chuàng)新

      基于上述的反直覺洞察,DeepMind 團隊直接對底層的多模態(tài)預訓練配方進行了大刀闊斧的改革,提出了構成 TIPSv2 的三個核心技術組件:

      創(chuàng)新一:iBOT++ —— 全局視角的自監(jiān)督對齊引擎

      在經(jīng)典的 iBOT(被 DINO 等強大視覺模型廣泛使用)目標函數(shù)中,損失僅針對 Masked Tokens(被掩碼的標記)進行計算。TIPSv2 打破了這一范式,引入了全新的 iBOT++ 目標機制。該機制將自監(jiān)督的 Patch 級別損失強行擴展到了所有的 Tokens(包括未被遮擋的可見 Tokens)。



      驚人效果:在不增加任何額外網(wǎng)絡參數(shù)的條件下,iBOT++ 強制模型在所有局部區(qū)域保持細粒度的表征一致性。僅憑這一項底層邏輯的改動,就讓模型在 ADE150 數(shù)據(jù)集上的零樣本分割 mIoU 指標實現(xiàn)了+14.1的巨大飛躍(從 3.5 直接飆升至 17.6),一舉成為了驅動密集圖文對齊的最強引擎。



      創(chuàng)新二:Head-only EMA —— 突破顯存瓶頸的高效策略

      傳統(tǒng)的自監(jiān)督學習(SSL)通常高度依賴對整個模型進行指數(shù)移動平均(EMA)參數(shù)更新。然而,當訓練達到十億參數(shù)級(Billion-scale)的多模態(tài)大模型時,全模型的 EMA 會吞噬極其龐大的顯存和計算資源。

      TIPSv2 團隊在實驗中發(fā)現(xiàn),由于模型同時接收了強有力的 “文本監(jiān)督信號”,底層視覺骨干網(wǎng)絡在訓練初期就已經(jīng)具備了很好的穩(wěn)定性。因此,他們提出了創(chuàng)新的Head-only EMA策略 ——僅對頂層的投影頭(Projection Layers)執(zhí)行 EMA 更新,同時凍結視覺主干網(wǎng)絡的 EMA。這一策略在完美保持模型卓越性能的同時,大幅度降低了訓練時的顯存需求,極大提升了模型訓練和擴展的性價比。



      創(chuàng)新三:多粒度文本描述(Multi-Granularity Captions)

      為了避免模型在訓練時對粗粒度的視覺關鍵詞 “走捷徑(Shortcutting)”,從而忽略空間布局細節(jié),TIPSv2 構建了極度豐富的數(shù)據(jù)標注配方。團隊摒棄了單一的圖文對形式,不僅使用了傳統(tǒng)的 Alt-text(網(wǎng)頁替代文本),還創(chuàng)造性地引入了:



      1) 利用 PaliGemma 生成的密集局部字幕;

      2) 利用 Gemini Flash 大模型生成的更豐富、更具全局上下文邏輯的深度描述。

      在訓練過程中,模型會在這些不同粒度的描述之間進行隨機交替和博弈。這種多粒度的文本增強約束,極大地提升了模型在應對復雜密集對齊以及全局圖像 - 文本檢索任務時的魯棒性。

      3. 恐怖的統(tǒng)治力:

      9 大任務與 20 個數(shù)據(jù)集的全面超越

      為了嚴格驗證 TIPSv2 的通用視覺能力,團隊在涵蓋三大維度的 9 個不同核心任務、20 個權威數(shù)據(jù)集上進行了極其詳盡的評估。實驗覆蓋了從 86M(Base)一直到 1.1B(Giant)的四種模型尺寸梯隊(B/14, L/14, SO400m/14, g/14)。

      ?? 維度一:密集圖像 - 文本評估(Dense Image-Text)—— 零樣本分割霸主

      在最能衡量細粒度空間理解的 “零樣本分割(Zero-shot Segmentation)” 四大基準測試中,TIPSv2 實現(xiàn)了無可爭議的全面霸榜。

      相比于上一代前沿的視覺語言大模型(如 SigLIP2),TIPSv2 不僅性能呈現(xiàn)斷崖式領先,更是正面擊敗了專門針對此類任務優(yōu)化的 SILC 和 DINOv2 架構。值得一提的是,后兩者使用了更為繁重的 TCL 評估協(xié)議,而 TIPSv2 以更通用、簡潔的架構實現(xiàn)了越級超越。



      ?? 維度二:全局圖像 - 文本評估(Global Image-Text)+ 純圖像評估(Image-Only)—— 極致的參數(shù)利用率

      在分類、圖文跨模態(tài)檢索等 7 項全局維度的評估中,TIPSv2 在 5 項中強勢斬獲第一或第二的佳績。在語義分割、深度估計、表面法線預測、圖像自檢索等 9 個純視覺骨干任務中,TIPSv2 在 7 項中穩(wěn)居榜首或次席。

      高光時刻:TIPSv2-g(1.1B 參數(shù)版本)在 3/5 的共享評估體系中,硬核擊敗了目前業(yè)界頂尖的PE-core G/14。要知道,PE 模型比 TIPSv2 多出了足足 56% 的參數(shù)量,并且喂給了高達47 倍的訓練圖文對數(shù)據(jù)!TIPSv2 展現(xiàn)出的恐怖訓練效率和參數(shù)榨取能力令人驚嘆。



      ?? 維度三:與 DINOv3 的巔峰對決

      更引人注目的是它與近期開源的 “最強純視覺基礎大模型” DINOv3 的正面交鋒:



      DeepMind 團隊在雙方共有的最大基準尺寸(ViT-L)下進行了絕對公平的對比。DINOv3 的教師模型參數(shù)量是 TIPSv2 的 6 倍之多,其使用的圖像數(shù)據(jù)總量更是 TIPSv2 的 15 倍。

      最終戰(zhàn)績:在 6 項高度重合的共享評估任務中,TIPSv2 贏下了其中的 4 項(包括極具挑戰(zhàn)性的零樣本分割核心任務),證明了圖文雙模態(tài)聯(lián)合約束優(yōu)于單一純視覺預訓練。

      4. 深度特征可視化:比清晰更清晰

      除了硬核的量化指標外,團隊還通過主成分分析(PCA)對模型的特征圖(Feature Maps)進行了直觀的視覺分析。相比于上一代 TIPS 和業(yè)界流行的 SigLIP2,TIPSv2 的特征圖展現(xiàn)出兩個極其顯著的碾壓級優(yōu)勢:





      1) 極致的表征平滑性:背景噪音被大幅度抑制,屬于同一物體的不同區(qū)域,其特征呈現(xiàn)高度且平滑的一致性。

      2) 極強的語義聚焦能力:即便與同樣以特征平滑著稱的 DINOv3 相比,TIPSv2 對物體邊界輪廓的勾勒也要更加精準和銳利;并且在區(qū)域內部,TIPSv2 展現(xiàn)出了更豐富的 “顆粒度語義細節(jié)(Granular semantic details)”。這意味著 TIPSv2 不僅僅是 “看清” 了物體的輪廓邊緣,它已經(jīng)能夠在沒有人工標注的情況下,深度 “理解” 物體的空間語義構成。

      5. 繁榮的開源生態(tài)與工具鏈支持

      秉承 Google DeepMind 推動全球開源 AI 社區(qū)發(fā)展的優(yōu)良傳統(tǒng),TIPSv2 本次的發(fā)布不僅技術硬核、誠意滿滿,其配套生態(tài)也極其完善。

      現(xiàn)已向社區(qū)全面開源的資源包括:

      • 全矩陣模型權重:全面覆蓋 B/14 (86M), L/14 (303M), SO400m/14 (412M), g/14 (1.1B) 等不同尺寸。同時提供 PyTorch 與 Jax (Scenic) 兩種原生深度學習框架的適配版本。
      • DPT 預測頭(DPT Heads):為了讓工業(yè)界即插即用,團隊額外開源了基于 SO400m/14 骨干網(wǎng)的 DPT 網(wǎng)絡預測頭,直接支持高精度的深度估計(NYU Depth V2)、表面法線預測和語義分割(ADE20K)。
      • 保姆級代碼與 Demo:GitHub 倉庫內提供了詳盡的特征可視化、監(jiān)督 / 零樣本分割的 Colab Notebooks 實操代碼。

      所有相關代碼、模型權重均遵循商業(yè)友好的Apache 2.0 開源協(xié)議,無論是學術機構探索前沿,還是工業(yè)界進行商業(yè)落地,都極其便利。強烈建議感興趣的開發(fā)者立即前往 HuggingFace 官方空間 上傳您自己的圖片,在線零門檻體驗 TIPSv2 在零樣本分割、深度與法線預測等任務上的震撼表現(xiàn)。

      結語

      TIPSv2 的橫空出世,絕不僅僅是多模態(tài)領域又一個簡單的 “刷榜模型”。它深刻揭示了 “對比學習” 與 “自監(jiān)督學習” 在微觀 Patch 層面的底層化學反應。通過 iBOT++、Head-only EMA 與多粒度文本大模型的巧妙融合,DeepMind 為下一代具有 “極強空間感知能力” 的通用人工智能(AGI)指明了一條極具潛力的預訓練破局之路。期待 TIPSv2 在海內外開發(fā)者的手中開花結果,為計算機視覺的繁榮帶來更多可能!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      如今回歸上海申花的他,已順利入選國足名單,未婚妻身份不一般

      如今回歸上海申花的他,已順利入選國足名單,未婚妻身份不一般

      科學發(fā)掘
      2026-04-27 11:00:37
      李嘉欣美貌不再,和許晉亨一同看演唱會,近照疑醫(yī)美過度缺點盡顯

      李嘉欣美貌不再,和許晉亨一同看演唱會,近照疑醫(yī)美過度缺點盡顯

      娛樂團長
      2026-04-27 20:27:36
      85 歲何守信回港!TVB 頂級飯局曝光,港圈半壁江山齊聚

      85 歲何守信回港!TVB 頂級飯局曝光,港圈半壁江山齊聚

      橙星文娛
      2026-04-27 13:23:53
      4月27日人民幣對美元中間價調升95個基點

      4月27日人民幣對美元中間價調升95個基點

      證券時報
      2026-04-27 09:44:06
      你的星座咋定的?12個比內娛還狗血的故事

      你的星座咋定的?12個比內娛還狗血的故事

      混知
      2026-04-21 16:17:16
      51歲周迅變樣:滿頭白發(fā)臉松垮,癟嘴像老奶奶,無兒無女成遺憾

      51歲周迅變樣:滿頭白發(fā)臉松垮,癟嘴像老奶奶,無兒無女成遺憾

      悅君兮君不知
      2026-03-20 12:19:00
      太瘆人!男子曬小區(qū)電梯圖,網(wǎng)友調侃豪華火化爐,評論區(qū)毛骨悚然

      太瘆人!男子曬小區(qū)電梯圖,網(wǎng)友調侃豪華火化爐,評論區(qū)毛骨悚然

      譚談社會
      2026-04-23 01:58:02
      克魯斯堡不眠夜!世界前二領跑,吳宜澤壓著塞爾比打

      克魯斯堡不眠夜!世界前二領跑,吳宜澤壓著塞爾比打

      羅納爾說個球
      2026-04-27 10:53:31
      民進黨高層竟敢偷偷離臺,大陸火速行動!美國不仁,鄭麗文就不義

      民進黨高層竟敢偷偷離臺,大陸火速行動!美國不仁,鄭麗文就不義

      潮鹿逐夢
      2026-04-27 16:00:04
      兵敗如山倒!國產(chǎn)新能源或已經(jīng)證明:中國壓根不需要二線豪華品牌

      兵敗如山倒!國產(chǎn)新能源或已經(jīng)證明:中國壓根不需要二線豪華品牌

      詩酒趁的年華
      2026-04-24 18:12:26
      張雪峰離世一個月,多位愛將接連離職,真相扎心:情懷不能當飯吃

      張雪峰離世一個月,多位愛將接連離職,真相扎心:情懷不能當飯吃

      天馬幸福的人生
      2026-04-27 00:16:15
      馬加爵死刑背后:女同學透露一個難以啟齒的秘密

      馬加爵死刑背后:女同學透露一個難以啟齒的秘密

      深度報
      2026-04-27 22:10:57
      4個去中國化最徹底的國家,一個已全盤西化,一個正試圖恢復漢字

      4個去中國化最徹底的國家,一個已全盤西化,一個正試圖恢復漢字

      你是我心中最美星空
      2026-04-26 07:15:09
      國家電網(wǎng)第二批錄了10500人,清華才7個,一所你沒聽過的學校進了444人

      國家電網(wǎng)第二批錄了10500人,清華才7個,一所你沒聽過的學校進了444人

      老滿說高考
      2026-04-24 20:13:49
      美光科技、閃迪、西部數(shù)據(jù)、希捷科技等美股存儲股,盤前均漲約2%

      美光科技、閃迪、西部數(shù)據(jù)、希捷科技等美股存儲股,盤前均漲約2%

      每日經(jīng)濟新聞
      2026-04-27 18:35:09
      綠軍128-96狂勝76人,恩比德該被交易!東部懸念不大,騎士很絕望

      綠軍128-96狂勝76人,恩比德該被交易!東部懸念不大,騎士很絕望

      毒舌NBA
      2026-04-27 09:47:46
      寶媽花近20萬,住月子中心,月子餐是油炸食品,嬰兒床很多小蟲子

      寶媽花近20萬,住月子中心,月子餐是油炸食品,嬰兒床很多小蟲子

      川渝視覺
      2026-04-27 22:30:05
      一個正處級干部退休后的真實生活:落差比想象中大

      一個正處級干部退休后的真實生活:落差比想象中大

      細說職場
      2026-04-27 14:11:52
      6月新規(guī)來了!3類常見病三甲不再接診,今后看病別再跑錯地方

      6月新規(guī)來了!3類常見病三甲不再接診,今后看病別再跑錯地方

      復轉這些年
      2026-04-26 18:48:03
      亞冠冠軍次數(shù)榜:新月4冠歷史第一;韓國球隊共12次奪冠最多

      亞冠冠軍次數(shù)榜:新月4冠歷史第一;韓國球隊共12次奪冠最多

      懂球帝
      2026-04-27 12:29:18
      2026-04-27 23:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12874文章數(shù) 142638關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4上線三天,第一批實測出來了

      頭條要聞

      水庫放水21人被困下游河灘 有人讓家人踩肩頭爬樹避險

      頭條要聞

      水庫放水21人被困下游河灘 有人讓家人踩肩頭爬樹避險

      體育要聞

      最抽象的天才,正在改變瓜迪奧拉

      娛樂要聞

      黃楊鈿甜為“耳環(huán)風波”出鏡道歉:謠言已澄清

      財經(jīng)要聞

      Meta 140億收購Manus遭中國發(fā)改委否決

      汽車要聞

      不那么小眾也可以 smart的路會越走越寬

      態(tài)度原創(chuàng)

      健康
      數(shù)碼
      手機
      本地
      公開課

      干細胞如何讓燒燙傷皮膚"再生"?

      數(shù)碼要聞

      因競爭力下滑,消息稱三星電子將停止在中國銷售家電及電視產(chǎn)品

      手機要聞

      性能最激進的安卓旗艦!一加16已在路上:首批搭載滿血版驍龍8E6 Pro

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統(tǒng)文化

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品人妻一二| 国产 在线播放无码不卡| 中文无码日韩欧免费视频| 国产黄片在线播放| 白嫩日本少妇做爰| 国产一级真人做受| 人人妻人人爽人人澡欧美一区| 在线免费播放av观看| 仙女白丝jk小脚夹得我好爽 | 亚洲中文字幕久久精品蜜桃| 台湾佬中文娱乐网址| 玛纳斯县| 中文字幕无码免费久久| 3p无码| 亚洲精品一品| 精品 无码 国产观看| 啦啦啦高清在线观看视频www| 国内a∨免费播放| 爆乳熟妇一区二区三区| 成人无遮挡裸免费视频在线观看| 白人无码| 噜妇插内射精品| 国产精品无码天天爽视频| 尹人久久| 国产乱妇无码毛片A片在线看下载| 国产粉嫩小泬在线观看泬| 成人无号精品一区二区三区| 强d乱码中文字幕熟女1000部| 欧美亚洲一区二区三区| 亚洲人成网网址在线看| 亚洲日韩电影久久| 浮山县| 国产精品自在线拍国产手青青机版 | 狠狠爱天天综合色欲网| 久久精品无码一区二区三区免费| 国产精品玖玖玖在线| 少妇做爰免费视看片| 玛纳斯县| 成 年 人 黄 色 大 片大 全| 99在线观看视频| 欧美猛少妇色xxxxx猛叫|