![]()
導語:在多模態(tài)大模型飛速發(fā)展的今天,視覺 - 語言基礎模型在分類、檢索、分割和深度預測等任務上取得了巨大進步。然而,如何精準地將密集的 “圖像塊(Patch)” 表示與對應概念的 “文本嵌入” 對齊,依然是阻礙模型邁向更細粒度理解的 “Achilles' heel”。今天,谷歌 DeepMind 正式推出了 TIPSv2(Text-Image Pretraining with Spatial awareness v2),成功解決了這一核心痛點,并在 9 項任務和 20 個數(shù)據(jù)集上展現(xiàn)出統(tǒng)治級的性能。
![]()
- 論文標題:TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment
- 項目主頁:https://gdm-tipsv2.github.io/
- HuggingFace 在線體驗:https://huggingface.co/spaces/google/TIPSv2
- 作者 X (Twitter) 官宣:https://x.com/andrefaraujo/status/2044362911242502498
- LinkedIn 討論:https://www.linkedin.com/posts/andrefaraujo_cvpr2026-cvpr2026-computervision-ugcPost-7449910891069890560-1Yhe?utm_source=share&utm_medium=member_desktop&rcm=ACoAAACIVW4BSMdtaSsUj-OT2zKU6jfeOCRJ-ul
該研究成果《TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment》已成功被計算機視覺頂級會議 CVPR 2026 接收。目前,模型權重(涵蓋從 86M 到 1.1B 參數(shù)),代碼以及在線體驗 Demo 已全面開源。
? 核心作者團隊簡介
本文由來自 Google DeepMind 的頂尖研究人員合作完成。通訊作者包括 Bingyi Cao、Koert Chen 以及 André Araujo。
核心團隊在計算機視覺及多模態(tài) AI 領域成果斐然,在視覺 - 語言基礎模型的架構設計與表征學習方面擁有深厚學術背景與實戰(zhàn)經(jīng)驗。該團隊長期致力于推動具有 “空間感知能力(Spatial Awareness)” 的多模態(tài)大模型前沿研究,此次 TIPSv2 的發(fā)布標志著他們在細粒度視覺理解領域樹立了全新的里程碑。
1. 發(fā)現(xiàn)反直覺現(xiàn)象:
為何 “學生” 超越了 “老師”?
TIPSv2 的誕生,源自于 DeepMind 研究團隊對 “預訓練(Pre-training)” 與 “知識蒸餾(Distillation)” 之間差異的深度深度剖析。
在視覺大模型(如 CLIP、SigLIP)的常規(guī)訓練中,模型通常擅長全局圖像 - 文本對齊(例如識別整張圖中是否有一只貓),但在 “密集任務(Dense Tasks)” 如零樣本語義分割中卻往往表現(xiàn)乏力。研究團隊在早期的消融實驗中發(fā)現(xiàn)了一個極其反直覺的現(xiàn)象:
![]()
通過 “塊級別(Patch-level)” 蒸餾出的小參數(shù)學生模型(Student Model),在零樣本分割等密集型圖文對齊任務上,其表現(xiàn)竟然大幅度反超了規(guī)模巨大的教師模型(Teacher Model)!
在其他幾乎所有評估任務中,大參數(shù)模型通常都碾壓小模型,唯獨在 “Patch-Text 密集對齊” 上出現(xiàn)了驚人的逆轉。團隊進一步深挖內部機制后發(fā)現(xiàn):核心差異在于對 “可見圖像塊(Visible Patches)” 的監(jiān)督方式。在標準的掩碼圖像建模(Masked Image Modeling, 如 iBOT 機制)中,模型只對被遮擋的 Patch 計算損失;而在蒸餾過程中,學生模型接收了來自教師模型所有 Patch(無論是否被遮擋)的豐富特征指導。正是這種對 “可見 Patch” 的顯式學習與約束,解鎖了底層網(wǎng)絡驚人的密集圖文對齊能力。
2. TIPSv2 的三大核心技術創(chuàng)新
基于上述的反直覺洞察,DeepMind 團隊直接對底層的多模態(tài)預訓練配方進行了大刀闊斧的改革,提出了構成 TIPSv2 的三個核心技術組件:
創(chuàng)新一:iBOT++ —— 全局視角的自監(jiān)督對齊引擎
在經(jīng)典的 iBOT(被 DINO 等強大視覺模型廣泛使用)目標函數(shù)中,損失僅針對 Masked Tokens(被掩碼的標記)進行計算。TIPSv2 打破了這一范式,引入了全新的 iBOT++ 目標機制。該機制將自監(jiān)督的 Patch 級別損失強行擴展到了所有的 Tokens(包括未被遮擋的可見 Tokens)。
![]()
驚人效果:在不增加任何額外網(wǎng)絡參數(shù)的條件下,iBOT++ 強制模型在所有局部區(qū)域保持細粒度的表征一致性。僅憑這一項底層邏輯的改動,就讓模型在 ADE150 數(shù)據(jù)集上的零樣本分割 mIoU 指標實現(xiàn)了+14.1的巨大飛躍(從 3.5 直接飆升至 17.6),一舉成為了驅動密集圖文對齊的最強引擎。
![]()
創(chuàng)新二:Head-only EMA —— 突破顯存瓶頸的高效策略
傳統(tǒng)的自監(jiān)督學習(SSL)通常高度依賴對整個模型進行指數(shù)移動平均(EMA)參數(shù)更新。然而,當訓練達到十億參數(shù)級(Billion-scale)的多模態(tài)大模型時,全模型的 EMA 會吞噬極其龐大的顯存和計算資源。
TIPSv2 團隊在實驗中發(fā)現(xiàn),由于模型同時接收了強有力的 “文本監(jiān)督信號”,底層視覺骨干網(wǎng)絡在訓練初期就已經(jīng)具備了很好的穩(wěn)定性。因此,他們提出了創(chuàng)新的Head-only EMA策略 ——僅對頂層的投影頭(Projection Layers)執(zhí)行 EMA 更新,同時凍結視覺主干網(wǎng)絡的 EMA。這一策略在完美保持模型卓越性能的同時,大幅度降低了訓練時的顯存需求,極大提升了模型訓練和擴展的性價比。
![]()
創(chuàng)新三:多粒度文本描述(Multi-Granularity Captions)
為了避免模型在訓練時對粗粒度的視覺關鍵詞 “走捷徑(Shortcutting)”,從而忽略空間布局細節(jié),TIPSv2 構建了極度豐富的數(shù)據(jù)標注配方。團隊摒棄了單一的圖文對形式,不僅使用了傳統(tǒng)的 Alt-text(網(wǎng)頁替代文本),還創(chuàng)造性地引入了:
![]()
1) 利用 PaliGemma 生成的密集局部字幕;
2) 利用 Gemini Flash 大模型生成的更豐富、更具全局上下文邏輯的深度描述。
在訓練過程中,模型會在這些不同粒度的描述之間進行隨機交替和博弈。這種多粒度的文本增強約束,極大地提升了模型在應對復雜密集對齊以及全局圖像 - 文本檢索任務時的魯棒性。
3. 恐怖的統(tǒng)治力:
9 大任務與 20 個數(shù)據(jù)集的全面超越
為了嚴格驗證 TIPSv2 的通用視覺能力,團隊在涵蓋三大維度的 9 個不同核心任務、20 個權威數(shù)據(jù)集上進行了極其詳盡的評估。實驗覆蓋了從 86M(Base)一直到 1.1B(Giant)的四種模型尺寸梯隊(B/14, L/14, SO400m/14, g/14)。
?? 維度一:密集圖像 - 文本評估(Dense Image-Text)—— 零樣本分割霸主
在最能衡量細粒度空間理解的 “零樣本分割(Zero-shot Segmentation)” 四大基準測試中,TIPSv2 實現(xiàn)了無可爭議的全面霸榜。
相比于上一代前沿的視覺語言大模型(如 SigLIP2),TIPSv2 不僅性能呈現(xiàn)斷崖式領先,更是正面擊敗了專門針對此類任務優(yōu)化的 SILC 和 DINOv2 架構。值得一提的是,后兩者使用了更為繁重的 TCL 評估協(xié)議,而 TIPSv2 以更通用、簡潔的架構實現(xiàn)了越級超越。
![]()
?? 維度二:全局圖像 - 文本評估(Global Image-Text)+ 純圖像評估(Image-Only)—— 極致的參數(shù)利用率
在分類、圖文跨模態(tài)檢索等 7 項全局維度的評估中,TIPSv2 在 5 項中強勢斬獲第一或第二的佳績。在語義分割、深度估計、表面法線預測、圖像自檢索等 9 個純視覺骨干任務中,TIPSv2 在 7 項中穩(wěn)居榜首或次席。
高光時刻:TIPSv2-g(1.1B 參數(shù)版本)在 3/5 的共享評估體系中,硬核擊敗了目前業(yè)界頂尖的PE-core G/14。要知道,PE 模型比 TIPSv2 多出了足足 56% 的參數(shù)量,并且喂給了高達47 倍的訓練圖文對數(shù)據(jù)!TIPSv2 展現(xiàn)出的恐怖訓練效率和參數(shù)榨取能力令人驚嘆。
![]()
?? 維度三:與 DINOv3 的巔峰對決
更引人注目的是它與近期開源的 “最強純視覺基礎大模型” DINOv3 的正面交鋒:
![]()
DeepMind 團隊在雙方共有的最大基準尺寸(ViT-L)下進行了絕對公平的對比。DINOv3 的教師模型參數(shù)量是 TIPSv2 的 6 倍之多,其使用的圖像數(shù)據(jù)總量更是 TIPSv2 的 15 倍。
最終戰(zhàn)績:在 6 項高度重合的共享評估任務中,TIPSv2 贏下了其中的 4 項(包括極具挑戰(zhàn)性的零樣本分割核心任務),證明了圖文雙模態(tài)聯(lián)合約束優(yōu)于單一純視覺預訓練。
4. 深度特征可視化:比清晰更清晰
除了硬核的量化指標外,團隊還通過主成分分析(PCA)對模型的特征圖(Feature Maps)進行了直觀的視覺分析。相比于上一代 TIPS 和業(yè)界流行的 SigLIP2,TIPSv2 的特征圖展現(xiàn)出兩個極其顯著的碾壓級優(yōu)勢:
![]()
![]()
1) 極致的表征平滑性:背景噪音被大幅度抑制,屬于同一物體的不同區(qū)域,其特征呈現(xiàn)高度且平滑的一致性。
2) 極強的語義聚焦能力:即便與同樣以特征平滑著稱的 DINOv3 相比,TIPSv2 對物體邊界輪廓的勾勒也要更加精準和銳利;并且在區(qū)域內部,TIPSv2 展現(xiàn)出了更豐富的 “顆粒度語義細節(jié)(Granular semantic details)”。這意味著 TIPSv2 不僅僅是 “看清” 了物體的輪廓邊緣,它已經(jīng)能夠在沒有人工標注的情況下,深度 “理解” 物體的空間語義構成。
5. 繁榮的開源生態(tài)與工具鏈支持
秉承 Google DeepMind 推動全球開源 AI 社區(qū)發(fā)展的優(yōu)良傳統(tǒng),TIPSv2 本次的發(fā)布不僅技術硬核、誠意滿滿,其配套生態(tài)也極其完善。
現(xiàn)已向社區(qū)全面開源的資源包括:
- 全矩陣模型權重:全面覆蓋 B/14 (86M), L/14 (303M), SO400m/14 (412M), g/14 (1.1B) 等不同尺寸。同時提供 PyTorch 與 Jax (Scenic) 兩種原生深度學習框架的適配版本。
- DPT 預測頭(DPT Heads):為了讓工業(yè)界即插即用,團隊額外開源了基于 SO400m/14 骨干網(wǎng)的 DPT 網(wǎng)絡預測頭,直接支持高精度的深度估計(NYU Depth V2)、表面法線預測和語義分割(ADE20K)。
- 保姆級代碼與 Demo:GitHub 倉庫內提供了詳盡的特征可視化、監(jiān)督 / 零樣本分割的 Colab Notebooks 實操代碼。
所有相關代碼、模型權重均遵循商業(yè)友好的Apache 2.0 開源協(xié)議,無論是學術機構探索前沿,還是工業(yè)界進行商業(yè)落地,都極其便利。強烈建議感興趣的開發(fā)者立即前往 HuggingFace 官方空間 上傳您自己的圖片,在線零門檻體驗 TIPSv2 在零樣本分割、深度與法線預測等任務上的震撼表現(xiàn)。
結語
TIPSv2 的橫空出世,絕不僅僅是多模態(tài)領域又一個簡單的 “刷榜模型”。它深刻揭示了 “對比學習” 與 “自監(jiān)督學習” 在微觀 Patch 層面的底層化學反應。通過 iBOT++、Head-only EMA 與多粒度文本大模型的巧妙融合,DeepMind 為下一代具有 “極強空間感知能力” 的通用人工智能(AGI)指明了一條極具潛力的預訓練破局之路。期待 TIPSv2 在海內外開發(fā)者的手中開花結果,為計算機視覺的繁榮帶來更多可能!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.