谷歌DeepMind重磅開源多模態(tài)TIPSv2：實現(xiàn)Patch-Text對齊最優(yōu)表現(xiàn)

2026-04-27 17:23:04　來源: 機器之心Pro

河北舉報

分享至

導語：在多模態(tài)大模型飛速發(fā)展的今天，視覺 - 語言基礎模型在分類、檢索、分割和深度預測等任務上取得了巨大進步。然而，如何精準地將密集的 “圖像塊（Patch）” 表示與對應概念的 “文本嵌入” 對齊，依然是阻礙模型邁向更細粒度理解的 “Achilles' heel”。今天，谷歌 DeepMind 正式推出了 TIPSv2（Text-Image Pretraining with Spatial awareness v2），成功解決了這一核心痛點，并在 9 項任務和 20 個數(shù)據(jù)集上展現(xiàn)出統(tǒng)治級的性能。

論文標題：TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment
項目主頁：https://gdm-tipsv2.github.io/
HuggingFace 在線體驗：https://huggingface.co/spaces/google/TIPSv2
作者 X (Twitter) 官宣：https://x.com/andrefaraujo/status/2044362911242502498
LinkedIn 討論：https://www.linkedin.com/posts/andrefaraujo_cvpr2026-cvpr2026-computervision-ugcPost-7449910891069890560-1Yhe?utm_source=share&utm_medium=member_desktop&rcm=ACoAAACIVW4BSMdtaSsUj-OT2zKU6jfeOCRJ-ul

該研究成果《TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment》已成功被計算機視覺頂級會議 CVPR 2026 接收。目前，模型權重（涵蓋從 86M 到 1.1B 參數(shù)），代碼以及在線體驗 Demo 已全面開源。

? 核心作者團隊簡介

本文由來自 Google DeepMind 的頂尖研究人員合作完成。通訊作者包括 Bingyi Cao、Koert Chen 以及 André Araujo。

核心團隊在計算機視覺及多模態(tài) AI 領域成果斐然，在視覺 - 語言基礎模型的架構設計與表征學習方面擁有深厚學術背景與實戰(zhàn)經(jīng)驗。該團隊長期致力于推動具有 “空間感知能力（Spatial Awareness）” 的多模態(tài)大模型前沿研究，此次 TIPSv2 的發(fā)布標志著他們在細粒度視覺理解領域樹立了全新的里程碑。

1. 發(fā)現(xiàn)反直覺現(xiàn)象：

為何 “學生” 超越了 “老師”？

TIPSv2 的誕生，源自于 DeepMind 研究團隊對 “預訓練（Pre-training）” 與 “知識蒸餾（Distillation）” 之間差異的深度深度剖析。

在視覺大模型（如 CLIP、SigLIP）的常規(guī)訓練中，模型通常擅長全局圖像 - 文本對齊（例如識別整張圖中是否有一只貓），但在 “密集任務（Dense Tasks）” 如零樣本語義分割中卻往往表現(xiàn)乏力。研究團隊在早期的消融實驗中發(fā)現(xiàn)了一個極其反直覺的現(xiàn)象：

通過 “塊級別（Patch-level）” 蒸餾出的小參數(shù)學生模型（Student Model），在零樣本分割等密集型圖文對齊任務上，其表現(xiàn)竟然大幅度反超了規(guī)模巨大的教師模型（Teacher Model）！

在其他幾乎所有評估任務中，大參數(shù)模型通常都碾壓小模型，唯獨在 “Patch-Text 密集對齊” 上出現(xiàn)了驚人的逆轉。團隊進一步深挖內部機制后發(fā)現(xiàn)：核心差異在于對 “可見圖像塊（Visible Patches）” 的監(jiān)督方式。在標準的掩碼圖像建模（Masked Image Modeling, 如 iBOT 機制）中，模型只對被遮擋的 Patch 計算損失；而在蒸餾過程中，學生模型接收了來自教師模型所有 Patch（無論是否被遮擋）的豐富特征指導。正是這種對 “可見 Patch” 的顯式學習與約束，解鎖了底層網(wǎng)絡驚人的密集圖文對齊能力。

2. TIPSv2 的三大核心技術創(chuàng)新

基于上述的反直覺洞察，DeepMind 團隊直接對底層的多模態(tài)預訓練配方進行了大刀闊斧的改革，提出了構成 TIPSv2 的三個核心技術組件：

創(chuàng)新一：iBOT++ —— 全局視角的自監(jiān)督對齊引擎

在經(jīng)典的 iBOT（被 DINO 等強大視覺模型廣泛使用）目標函數(shù)中，損失僅針對 Masked Tokens（被掩碼的標記）進行計算。TIPSv2 打破了這一范式，引入了全新的 iBOT++ 目標機制。該機制將自監(jiān)督的 Patch 級別損失強行擴展到了所有的 Tokens（包括未被遮擋的可見 Tokens）。

驚人效果：在不增加任何額外網(wǎng)絡參數(shù)的條件下，iBOT++ 強制模型在所有局部區(qū)域保持細粒度的表征一致性。僅憑這一項底層邏輯的改動，就讓模型在 ADE150 數(shù)據(jù)集上的零樣本分割 mIoU 指標實現(xiàn)了+14.1的巨大飛躍（從 3.5 直接飆升至 17.6），一舉成為了驅動密集圖文對齊的最強引擎。

創(chuàng)新二：Head-only EMA —— 突破顯存瓶頸的高效策略

傳統(tǒng)的自監(jiān)督學習（SSL）通常高度依賴對整個模型進行指數(shù)移動平均（EMA）參數(shù)更新。然而，當訓練達到十億參數(shù)級（Billion-scale）的多模態(tài)大模型時，全模型的 EMA 會吞噬極其龐大的顯存和計算資源。

TIPSv2 團隊在實驗中發(fā)現(xiàn)，由于模型同時接收了強有力的 “文本監(jiān)督信號”，底層視覺骨干網(wǎng)絡在訓練初期就已經(jīng)具備了很好的穩(wěn)定性。因此，他們提出了創(chuàng)新的Head-only EMA策略 ——僅對頂層的投影頭（Projection Layers）執(zhí)行 EMA 更新，同時凍結視覺主干網(wǎng)絡的 EMA。這一策略在完美保持模型卓越性能的同時，大幅度降低了訓練時的顯存需求，極大提升了模型訓練和擴展的性價比。

創(chuàng)新三：多粒度文本描述（Multi-Granularity Captions）

為了避免模型在訓練時對粗粒度的視覺關鍵詞 “走捷徑（Shortcutting）”，從而忽略空間布局細節(jié)，TIPSv2 構建了極度豐富的數(shù)據(jù)標注配方。團隊摒棄了單一的圖文對形式，不僅使用了傳統(tǒng)的 Alt-text（網(wǎng)頁替代文本），還創(chuàng)造性地引入了：

1) 利用 PaliGemma 生成的密集局部字幕；

2) 利用 Gemini Flash 大模型生成的更豐富、更具全局上下文邏輯的深度描述。

在訓練過程中，模型會在這些不同粒度的描述之間進行隨機交替和博弈。這種多粒度的文本增強約束，極大地提升了模型在應對復雜密集對齊以及全局圖像 - 文本檢索任務時的魯棒性。

3. 恐怖的統(tǒng)治力：

9 大任務與 20 個數(shù)據(jù)集的全面超越

為了嚴格驗證 TIPSv2 的通用視覺能力，團隊在涵蓋三大維度的 9 個不同核心任務、20 個權威數(shù)據(jù)集上進行了極其詳盡的評估。實驗覆蓋了從 86M（Base）一直到 1.1B（Giant）的四種模型尺寸梯隊（B/14, L/14, SO400m/14, g/14）。

?? 維度一：密集圖像 - 文本評估（Dense Image-Text）—— 零樣本分割霸主

在最能衡量細粒度空間理解的 “零樣本分割（Zero-shot Segmentation）” 四大基準測試中，TIPSv2 實現(xiàn)了無可爭議的全面霸榜。

相比于上一代前沿的視覺語言大模型（如 SigLIP2），TIPSv2 不僅性能呈現(xiàn)斷崖式領先，更是正面擊敗了專門針對此類任務優(yōu)化的 SILC 和 DINOv2 架構。值得一提的是，后兩者使用了更為繁重的 TCL 評估協(xié)議，而 TIPSv2 以更通用、簡潔的架構實現(xiàn)了越級超越。

?? 維度二：全局圖像 - 文本評估（Global Image-Text）+ 純圖像評估（Image-Only）—— 極致的參數(shù)利用率

在分類、圖文跨模態(tài)檢索等 7 項全局維度的評估中，TIPSv2 在 5 項中強勢斬獲第一或第二的佳績。在語義分割、深度估計、表面法線預測、圖像自檢索等 9 個純視覺骨干任務中，TIPSv2 在 7 項中穩(wěn)居榜首或次席。

高光時刻：TIPSv2-g（1.1B 參數(shù)版本）在 3/5 的共享評估體系中，硬核擊敗了目前業(yè)界頂尖的PE-core G/14。要知道，PE 模型比 TIPSv2 多出了足足 56% 的參數(shù)量，并且喂給了高達47 倍的訓練圖文對數(shù)據(jù)！TIPSv2 展現(xiàn)出的恐怖訓練效率和參數(shù)榨取能力令人驚嘆。

?? 維度三：與 DINOv3 的巔峰對決

更引人注目的是它與近期開源的 “最強純視覺基礎大模型” DINOv3 的正面交鋒：

DeepMind 團隊在雙方共有的最大基準尺寸（ViT-L）下進行了絕對公平的對比。DINOv3 的教師模型參數(shù)量是 TIPSv2 的 6 倍之多，其使用的圖像數(shù)據(jù)總量更是 TIPSv2 的 15 倍。

最終戰(zhàn)績：在 6 項高度重合的共享評估任務中，TIPSv2 贏下了其中的 4 項（包括極具挑戰(zhàn)性的零樣本分割核心任務），證明了圖文雙模態(tài)聯(lián)合約束優(yōu)于單一純視覺預訓練。

4. 深度特征可視化：比清晰更清晰

除了硬核的量化指標外，團隊還通過主成分分析（PCA）對模型的特征圖（Feature Maps）進行了直觀的視覺分析。相比于上一代 TIPS 和業(yè)界流行的 SigLIP2，TIPSv2 的特征圖展現(xiàn)出兩個極其顯著的碾壓級優(yōu)勢：

1) 極致的表征平滑性：背景噪音被大幅度抑制，屬于同一物體的不同區(qū)域，其特征呈現(xiàn)高度且平滑的一致性。

2) 極強的語義聚焦能力：即便與同樣以特征平滑著稱的 DINOv3 相比，TIPSv2 對物體邊界輪廓的勾勒也要更加精準和銳利；并且在區(qū)域內部，TIPSv2 展現(xiàn)出了更豐富的 “顆粒度語義細節(jié)（Granular semantic details）”。這意味著 TIPSv2 不僅僅是 “看清” 了物體的輪廓邊緣，它已經(jīng)能夠在沒有人工標注的情況下，深度 “理解” 物體的空間語義構成。

5. 繁榮的開源生態(tài)與工具鏈支持

秉承 Google DeepMind 推動全球開源 AI 社區(qū)發(fā)展的優(yōu)良傳統(tǒng)，TIPSv2 本次的發(fā)布不僅技術硬核、誠意滿滿，其配套生態(tài)也極其完善。

現(xiàn)已向社區(qū)全面開源的資源包括：

全矩陣模型權重：全面覆蓋 B/14 (86M), L/14 (303M), SO400m/14 (412M), g/14 (1.1B) 等不同尺寸。同時提供 PyTorch 與 Jax (Scenic) 兩種原生深度學習框架的適配版本。
DPT 預測頭（DPT Heads）：為了讓工業(yè)界即插即用，團隊額外開源了基于 SO400m/14 骨干網(wǎng)的 DPT 網(wǎng)絡預測頭，直接支持高精度的深度估計（NYU Depth V2）、表面法線預測和語義分割（ADE20K）。
保姆級代碼與 Demo：GitHub 倉庫內提供了詳盡的特征可視化、監(jiān)督 / 零樣本分割的 Colab Notebooks 實操代碼。

所有相關代碼、模型權重均遵循商業(yè)友好的Apache 2.0 開源協(xié)議，無論是學術機構探索前沿，還是工業(yè)界進行商業(yè)落地，都極其便利。強烈建議感興趣的開發(fā)者立即前往 HuggingFace 官方空間上傳您自己的圖片，在線零門檻體驗 TIPSv2 在零樣本分割、深度與法線預測等任務上的震撼表現(xiàn)。

結語

TIPSv2 的橫空出世，絕不僅僅是多模態(tài)領域又一個簡單的 “刷榜模型”。它深刻揭示了 “對比學習” 與 “自監(jiān)督學習” 在微觀 Patch 層面的底層化學反應。通過 iBOT++、Head-only EMA 與多粒度文本大模型的巧妙融合，DeepMind 為下一代具有 “極強空間感知能力” 的通用人工智能（AGI）指明了一條極具潛力的預訓練破局之路。期待 TIPSv2 在海內外開發(fā)者的手中開花結果，為計算機視覺的繁榮帶來更多可能！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.