![]()
這項由阿布扎比穆罕默德·本·扎耶德人工智能大學領導的研究發表于2026年的計算機視覺頂級會議CVPR,論文編號為arXiv:2604.03231v1,有興趣深入了解的讀者可以通過該編號查詢完整論文。
一、當前AI視覺識別的困境:就像只有一只眼睛的巨人
當下的人工智能視覺系統面臨著一個根本性問題,就好比讓一個只有一只眼睛的巨人同時完成兩項完全不同的任務。現在大部分AI視覺系統都依賴單一的視覺編碼器,通常是CLIP這樣的模型,它就像一只訓練有素但功能單一的眼睛。
這種單眼視覺系統雖然在理解圖片內容方面表現不錯,比如能告訴你圖片里有什么物體,但在精確定位這些物體的具體位置時就顯得力不從心了。就像一個人能認出遠處是一輛紅色汽車,卻無法準確指出這輛車停在停車場的哪個具體位置。
研究團隊發現,這個問題的根源在于現有系統試圖用同一套視覺處理機制來解決兩個本質不同的問題。理解圖片內容需要的是全局語義信息,就像欣賞一幅畫時需要整體把握畫面意境;而精確定位則需要細致的空間幾何信息,就像用放大鏡仔細觀察畫作中每個細節的確切位置。
更令人頭疼的是,現有系統在處理需要精確坐標定位的任務時表現尤其糟糕。比如當你問AI"請指出圖片中那個透明鼻托的確切位置"時,很多先進的AI模型要么完全無法回應,要么給出的坐標位置相去甚遠。實驗數據顯示,在需要3像素精度的指向任務中,傳統單編碼器模型的準確率普遍較低,這就像讓一個近視眼的人在沒有眼鏡的情況下投飛鏢一樣困難。
二、雙視覺系統的靈感:模仿人類的立體視覺機制
阿布扎比AI大學的研究團隊從人類視覺系統中獲得了靈感。人類之所以能夠同時理解場景內容和精確定位物體,是因為我們的視覺系統實際上是一個復雜的多層次處理網絡,不同的神經通路負責處理不同類型的視覺信息。
基于這個洞察,研究團隊提出了CoME-VL(互補多編碼器視覺語言)系統。這個系統的核心思想是使用兩個專門化的"眼睛"來分別處理不同類型的視覺任務,就像人類左右腦分工合作一樣。
第一個"眼睛"是SigLIP編碼器,它專門負責理解圖像的語義內容。這個編碼器就像一個博學的藝術評論家,能夠深刻理解圖片想要表達的含義、情感和概念。它通過對比學習的方式訓練,擅長將圖像與文字描述進行匹配,能夠回答"這是什么"的問題。
第二個"眼睛"是DINOv3編碼器,它專門負責精確的空間定位。這個編碼器就像一個精密的測量師,能夠準確識別物體的邊界、形狀和相對位置關系。它通過自監督學習訓練,不需要人工標注就能學會識別物體的幾何特征和空間結構。
研究團隊通過大量實驗發現,這兩種編碼器確實表現出了互補性。SigLIP編碼器在圖像的早期處理層就能捕獲豐富的語義信息,隨著處理層數加深,它越來越專注于識別有助于語義理解的關鍵特征。而DINOv3編碼器則呈現出相反的模式,它在深層網絡中表現出更強的空間定位能力,能夠生成更加精確和一致的空間注意力圖。
三、熵值引導的智能層選擇:讓每一層都發揮最佳作用
在確定了雙編碼器架構后,研究團隊面臨著一個新的挑戰:如何從每個編碼器的眾多處理層中選出最有價值的部分?這就像在一個擁有數十個專業廚師的廚房里,決定讓哪幾位廚師參與制作一道復雜的菜肴。
研究團隊引入了一個巧妙的解決方案——熵值引導的層選擇機制。熵值在這里可以理解為信息的"純凈度"指標。高熵值意味著信息分布較為分散,包含更多樣化的特征;低熵值則意味著信息更加集中和精確。
通過分析每一層的熵值變化,研究團隊發現了一個有趣的現象。SigLIP編碼器在所有層都保持相對較高的熵值,這意味著它在各個處理階段都能提供豐富的語義信息。因此,系統選擇使用SigLIP的所有層(第0層到第27層)來獲得全面的語義理解。
相比之下,DINOv3編碼器的熵值隨著層數加深而顯著降低,在第10層到第23層之間達到最低點。這個低熵區域正是空間定位信息最為集中和可靠的區域。研究團隊因此決定只使用DINOv3的這個特定層段,避免了早期層中噪聲較多的信息干擾。
這種基于熵值的選擇策略不是隨意的,而是有著深刻的信息論基礎。當系統需要進行語義理解時,更多樣化的特征(高熵)能夠提供更全面的上下文信息。而當系統需要進行精確定位時,集中和一致的特征(低熵)能夠提供更可靠的空間線索。
四、正交化特征融合:避免信息冗余的巧妙設計
在獲得了兩個編碼器的最佳層選擇后,如何將這些不同來源的視覺信息有效融合成為了下一個關鍵問題。這就像將兩種不同樂器的音色完美融合,既要保持各自的特色,又要避免產生不和諧的共鳴。
傳統的特征融合方法往往簡單地將不同層的信息相加或拼接,但這種做法存在嚴重的信息冗余問題。相鄰的網絡層往往編碼了高度相似的信息,直接融合會導致某些特征被過度強調,而其他重要特征則可能被掩蓋。
為了解決這個問題,研究團隊設計了正交化層(Orthogonal Layer)技術。這個技術的核心思想是確保不同層的特征在融合前先經過一個特殊的變換,使得它們在數學意義上變得"正交",也就是說,它們之間的相關性被最小化,每一層都能貢獻獨特的信息。
可以把正交化層想象成一個智能的信息過濾器。當多個信息源提供類似信息時,這個過濾器會自動調整每個信息源的權重,確保最終融合的結果既包含了所有重要信息,又避免了重復和冗余。這種處理方式不僅提高了信息的利用效率,還顯著增強了系統的表達能力。
在實際實現中,正交化層使用了特殊的數學約束來保證變換矩陣的正交性。這種約束確保了特征變換過程中信息不會丟失或扭曲,同時最大化了不同特征之間的獨立性。實驗結果顯示,加入正交化層后,系統在各項任務上的表現都有了顯著提升。
五、RoPE增強的跨注意力對齊:解決空間對應難題
當兩個不同的視覺編碼器產生特征時,它們往往具有不同的空間分辨率和token網格結構。SigLIP通常產生24×24的token網格,而DINOv3可能產生14×14的網格。這就像試圖將兩幅不同尺寸的拼圖完美拼接在一起,存在天然的空間對應難題。
傳統的解決方案是直接將不同編碼器的token連接起來,然后交給語言模型處理。但這種方法存在兩個嚴重問題:首先,它會顯著增加語言模型需要處理的token數量,導致計算成本急劇上升;其次,簡單的連接無法保證來自不同編碼器的token之間建立正確的空間對應關系。
研究團隊提出了RoPE增強的跨注意力對齊機制來解決這個問題。RoPE(Rotary Position Embedding)是一種先進的位置編碼技術,它能夠將相對位置信息直接編碼到注意力計算中。簡單來說,RoPE就像給每個token貼上了一個包含精確空間坐標的標簽。
在CoME-VL系統中,SigLIP的token作為查詢(Query),DINOv3的token作為鍵值(Key-Value)。當計算跨注意力時,RoPE確保了空間上相近的token之間會產生更強的注意力連接,而空間上相遠的token之間的連接則會被適當抑制。這樣,即使兩個編碼器的token網格大小不同,系統也能建立準確的空間對應關系。
這種設計的巧妙之處在于,它不僅解決了空間對齊問題,還顯著提高了計算效率。通過跨注意力機制,系統輸出的token數量保持與SigLIP編碼器一致,避免了token數量的爆炸式增長。實驗數據顯示,CoME-VL的推理時間僅比單編碼器基準模型增加了0.26秒(從1.26秒增加到1.52秒),而性能提升卻是顯著的。
六、門控殘差連接:確保訓練穩定性
在多編碼器融合系統中,訓練穩定性是一個至關重要的考慮因素。當兩個不同的信息流需要融合時,如果處理不當,可能會導致訓練過程中的梯度爆炸或消失,就像兩股不同溫度的水流突然匯合時可能產生的湍流。
為了確保訓練過程的穩定性,研究團隊采用了門控殘差連接策略。這個策略的核心思想是在融合DINOv3信息時采用漸進式的方式。系統首先保留原有的SigLIP特征作為基礎,然后通過一個可學習的門控參數逐漸引入DINOv3的信息。
門控參數在訓練開始時被初始化為零,這意味著系統最初只依賴SigLIP編碼器的信息。隨著訓練的進行,如果DINOv3的信息確實有助于改善性能,門控參數會逐漸增大,允許更多的DINOv3信息參與到最終的特征表示中。這種設計確保了訓練過程的平滑性,避免了因為突然引入大量新信息而導致的訓練不穩定。
同時,門控機制還具有自適應性。在不同的任務或不同的輸入情況下,系統會自動調整兩個編碼器信息的混合比例。當需要更多語義理解時,系統會更多地依賴SigLIP的信息;當需要更精確的定位時,系統會增加DINOv3信息的權重。
七、實驗驗證:全方位性能提升的令人矚目表現
研究團隊在多個具有挑戰性的視覺語言基準測試上對CoME-VL進行了全面評估,結果展現出了令人印象深刻的性能提升。這些測試涵蓋了從基礎的圖像理解到精確的物體定位等各個方面。
在PixMo基準測試中,CoME-VL在所有測試類別上都顯著超越了基準模型Molmo。在圖表理解任務中,準確率從52.39%提升到57.24%,提升了4.85個百分點。在文檔理解方面,從62.41%提升到66.94%。在表格分析任務中,從66.25%提升到70.75%。這些提升看似不大,但在AI領域,幾個百分點的改進往往代表著系統能力的顯著躍升。
更加令人矚目的是CoME-VL在精確定位任務上的表現。在計數任務中,準確率從83.31%提升到87.83%,提升了4.52個百分點。而在最具挑戰性的指向任務中,CoME-VL實現了突破性進展。在3像素精度要求下,準確率達到58.56%,在5像素精度要求下達到75.94%。這些數字的意義在于,CoME-VL成為了首個能夠在如此嚴格精度要求下穩定工作的視覺語言模型。
在專門的物體檢測基準RefCOCO上,CoME-VL同樣表現優異。在驗證集上達到92.57%的準確率,在測試集A上達到95.36%,在測試集B上達到90.51%,全面超越了包括Qwen-VL在內的強基準模型。
為了驗證不同組件的貢獻,研究團隊還進行了詳細的消融實驗。結果顯示,RoPE增強的對齊機制平均帶來約2-3個百分點的性能提升,正交化層融合貢獻了額外的1-2個百分點提升。當這些技術組件協同工作時,整體效果超過了各部分簡單相加的結果,展現出了良好的協同效應。
八、定性分析:從模糊回答到精確定位的質的飛躍
除了量化的性能指標,研究團隊還通過具體的案例展示了CoME-VL在實際應用中的優勢。這些案例清楚地展現了雙編碼器架構如何解決傳統單編碼器系統的局限性。
在一個典型的指向任務示例中,當被要求"定位透明鼻托"時,傳統的QWEN2-VL模型只能給出模糊的描述性回答,比如"圖像顯示了一副未來感的矩形眼鏡,連接兩個鏡片的透明框架結構",但無法提供具體的坐標位置。LLaVA-1.5模型雖然能夠識別出鼻托的存在,但給出的坐標信息嚴重偏離實際位置。
相比之下,CoME-VL不僅能夠準確識別目標物體,還能提供精確的坐標定位。在同一個案例中,CoME-VL給出了坐標(38.5, 52.8),與真實位置的誤差在可接受的范圍內,同時還能提供清晰的物體描述。
這種從描述性回答到精確定位的轉變代表了視覺語言模型能力的質的飛躍。傳統模型就像一個只能籠統描述場景的觀察者,而CoME-VL則像一個既能理解場景含義又能精確指出細節位置的專業分析師。
在更復雜的場景中,比如包含多個對象的圖像,CoME-VL展現出了卓越的細節處理能力。當處理一張包含多人的海灘照片時,系統能夠準確計數人數,同時精確定位每個人的位置。當被問及"照片中有多少人"時,系統能夠給出準確的數字"8",并且在需要時還能指出特定人物的精確坐標。
九、技術創新的深層意義:開啟多模態AI新紀元
CoME-VL的技術創新不僅僅是性能數字上的提升,更代表了多模態人工智能發展的一個重要里程碑。這項研究從根本上改變了我們對視覺語言模型架構設計的認知。
首先,這項研究證明了專業化分工在AI系統中的重要價值。就像人類社會中不同職業的專業分工能夠提高整體效率一樣,讓不同的AI組件專注于各自最擅長的任務,然后通過巧妙的協調機制整合它們的能力,能夠實現單一系統難以達到的性能水平。
其次,CoME-VL展示了如何在保持計算效率的同時顯著提升系統能力。通過精心設計的架構,系統在增加有限計算成本的情況下實現了大幅的性能提升。這種設計思路對于AI技術的實際應用具有重要意義,因為它證明了我們不需要簡單地通過增加模型規模來提升性能,而是可以通過更智能的架構設計來實現突破。
更重要的是,這項研究為未來的多模態AI系統設計提供了新的范式。它表明,與其試圖用單一的通用模型處理所有任務,不如采用專業化模塊協同工作的方式。這種思路可能會影響未來AI系統的整體架構設計,從單一龐大的模型轉向協調良好的專業化模塊集合。
從應用角度來看,CoME-VL的精確定位能力為許多實際應用場景打開了新的可能性。在醫療圖像分析中,系統能夠不僅識別病變區域,還能精確標注其位置。在自動駕駛領域,系統能夠同時理解交通場景并精確定位各種交通要素。在工業質檢中,系統能夠發現缺陷并準確定位其具體位置。
十、局限性分析與未來發展方向
盡管CoME-VL取得了顯著的成果,但研究團隊也誠實地指出了當前系統的一些局限性。最主要的限制是計算開銷的增加。相比單編碼器基準模型,CoME-VL的推理時間增加了約20%,雖然這個增加幅度相對溫和,但在大規模部署時仍然是一個需要考慮的因素。
另一個限制是系統架構的復雜性增加。雙編碼器系統需要更仔細的超參數調優和訓練策略設計,這增加了系統開發和維護的復雜度。對于希望快速部署AI解決方案的用戶來說,這可能會帶來額外的技術門檻。
此外,當前的系統主要針對靜態圖像設計,對于視頻等動態內容的處理能力還有待進一步驗證和優化。視頻內容不僅包含空間信息,還包含時間維度的信息,如何在保持精確定位能力的同時處理時間序列信息,是一個值得探索的方向。
展望未來,這項研究為多個發展方向奠定了基礎。首先是計算效率的進一步優化,研究團隊正在探索如何通過模型壓縮、知識蒸餾等技術減少計算開銷。其次是擴展到更多模態的信息處理,比如加入音頻信息來實現更全面的多模態理解。
另一個令人興奮的方向是將這種專業化分工的思路擴展到更多的任務類型。除了語義理解和空間定位,未來的系統可能會包含專門處理時間信息、情感信息、因果關系等不同類型信息的專業化模塊。
說到底,CoME-VL這項研究最大的價值可能不在于具體的技術細節,而在于它所代表的設計哲學轉變。從追求單一模型的萬能性轉向專業化模塊的協同合作,這種思路變化可能會深刻影響未來AI系統的發展方向。正如人類社會從萬金油式的通才轉向專業分工的合作模式一樣,AI系統也許正在經歷類似的進化過程。
對于普通用戶來說,CoME-VL的成功意味著我們離真正實用的AI助手又近了一步。能夠同時理解圖像內容并精確定位物體位置的AI系統,將為從醫療診斷到智能家居等各個領域帶來實質性的改進。當你的手機相機不僅能告訴你畫面中有什么,還能精確指出每樣物品的位置時,許多原本需要人工完成的任務都將變得自動化和智能化。
雖然距離完美的AI視覺系統還有很長的路要走,但CoME-VL已經為我們展示了正確的前進方向。通過巧妙的架構設計和精心的工程實現,我們可以讓AI系統在保持理解能力的同時獲得精確的定位能力,這為構建更加智能和實用的AI應用奠定了堅實基礎。
Q&A
Q1:CoME-VL是什么?
A:CoME-VL是阿布扎比AI大學開發的新型視覺語言模型,它使用兩個專門化的"眼睛"—SigLIP編碼器負責理解圖像內容,DINOv3編碼器負責精確定位,就像人類立體視覺一樣協同工作。
Q2:CoME-VL比傳統AI視覺系統強在哪里?
A:傳統系統只能模糊描述圖像內容,CoME-VL能同時理解語義并精確定位。比如指向任務中,傳統系統要么無法回應要么位置偏差很大,CoME-VL能給出精確坐標,在3像素精度下準確率達58.56%。
Q3:CoME-VL會增加計算成本嗎?
A:會有適度增加但仍然高效。推理時間僅從1.26秒增加到1.52秒,增幅約20%,但性能提升顯著。通過RoPE跨注意力機制避免了token數量爆炸,比簡單拼接方法更節省計算資源。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.