<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      PixelRefer :讓AI從“看大圖”走向“看懂每個(gè)對(duì)象”

      0
      分享至



      多模態(tài)大模型(MLLMs)雖然在圖像理解、視頻分析上表現(xiàn)出色,但多停留在整體場(chǎng)景級(jí)理解。

      而場(chǎng)景級(jí)理解 ≠ 視覺理解的終點(diǎn),現(xiàn)實(shí)任務(wù)(如自動(dòng)駕駛、機(jī)器人、醫(yī)療影像、視頻分析)需要的是細(xì)粒度、對(duì)象級(jí)(object-level)詳細(xì)理解。

      然而,當(dāng)下的研究工作,如英偉達(dá)的Describe Anything Model (DAM)局限于單個(gè)物體的描述,難以深入理解多對(duì)象屬性、交互關(guān)系及其時(shí)序演變,且犧牲了模型本身的通用理解能力。

      針對(duì)這一問題,浙江大學(xué)、達(dá)摩院、香港理工大學(xué)聯(lián)合提出了一種創(chuàng)新的解決方案PixelRefer:一個(gè)統(tǒng)一的時(shí)空像素級(jí)區(qū)域級(jí)理解框架,可實(shí)現(xiàn)任意粒度下的精細(xì)視覺指代與推理,在多項(xiàng)像素級(jí)細(xì)粒度理解任務(wù)取得領(lǐng)先性能表現(xiàn)。和DAM-3B相比,輕量版的2B模型推理時(shí)間加快了4倍,顯存占用減半,且訓(xùn)練數(shù)據(jù)量大大少于已有方法。



      PixelRefer能夠?qū)θ我饽繕?biāo)實(shí)現(xiàn)準(zhǔn)確語義理解以及時(shí)空物體區(qū)域理解。









      • 論文標(biāo)題:
      • PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
      • 論文鏈接:
      • https://arxiv.org/abs/2510.23603
      • 項(xiàng)目網(wǎng)站鏈接:
      • https://circleradon.github.io/PixelRefer/
      • 代碼鏈接:
      • https://github.com/DAMO-NLP-SG/PixelRefer

      先驗(yàn)分析:大模型“如何看懂區(qū)域”?

      為了探索解決以上問題,作者基于通用視覺基礎(chǔ)模型采用最直接的設(shè)計(jì):將全局視覺token+像素級(jí)區(qū)域token+文本token一起喂給 LLM。當(dāng)無物體指代區(qū)域時(shí),模型則退化成通用視覺理解任務(wù),從而實(shí)現(xiàn)區(qū)域理解的同時(shí),保留通用模型本身的通用理解能力。

      作者對(duì)LLM內(nèi)從淺層到深層中分析視覺token、區(qū)域token以及其他類型token進(jìn)行可視化分析。本文可以發(fā)現(xiàn)從淺層到深層,答案(Ans)優(yōu)先關(guān)注像素級(jí)區(qū)域token,其attention分?jǐn)?shù)一直很高,說明物體token表征對(duì)于模型的回答起到重要的作用。此外,全局圖像token(vision)則僅在淺層中(第一層)表現(xiàn)出較高的attention分布(Answer-to-image token attention),LLM的深層則表現(xiàn)較弱,甚至沒有影響,這個(gè)在通用視覺基礎(chǔ)模型研究中也被討論到。



      淺層到深層的attention可視化

      基于此分析,作者得出兩種設(shè)計(jì)方案:

      1. 高質(zhì)量像素級(jí)物體表征很重要:對(duì)于像素級(jí)區(qū)域的表達(dá),語義豐富的區(qū)域表征直接決定像素級(jí)語義理解的質(zhì)量;
      2. 全局信息的冗余可以通過“預(yù)融合”優(yōu)化:在 LLM 深層階段,全局視覺標(biāo)記的作用顯著減弱,在深層階段反而變得冗余,說明其信息可提前注入對(duì)象標(biāo)記中,以大幅減少計(jì)算開銷。

      方法設(shè)計(jì)

      為此,作者針對(duì)像素級(jí)細(xì)粒度理解定義了兩種框架,Vision-Object Framework (a)與Object-Only Framework (b):



      PixelRefer(Vision-Object Framework)

      對(duì)于PixelRefer,作者把全局視覺token+像素級(jí)區(qū)域token+文本token一起送入 LLM,既保留場(chǎng)景語境,又在對(duì)象級(jí)上精細(xì)推理。關(guān)鍵在于像素級(jí)區(qū)域表征token質(zhì)量足夠高。為此,作者提出尺度自適應(yīng)對(duì)象分詞器(Scale-Adaptive Object Tokenizer, SAOT) 來生成精確、緊湊、語義豐富的對(duì)象表示。

      SAOT 圍繞兩個(gè)設(shè)計(jì):(i)小目標(biāo)容易在patch化后丟失細(xì)節(jié);(ii)大目標(biāo)的特征冗余嚴(yán)重。

      核心做法分三步:

      1. 動(dòng)態(tài)尺度處理(Dynamic Object Processing)。按像素級(jí)區(qū)域大小自適應(yīng)地放大小物體、縮小大物體,并進(jìn)行上下文擴(kuò)展(在目標(biāo)周圍留出一定背景),保證既不丟細(xì)節(jié)也不過度冗余。隨后通過共享視覺編碼器取到區(qū)域級(jí)特征。
      2. 位置感知的掩碼特征抽取(Mask Feature + Relative Positional Encoding)。對(duì)區(qū)域內(nèi)的有效特征做掩碼并疊加相對(duì)坐標(biāo)投影,形成位置感知的對(duì)象token,為后續(xù)推理提供“這片語義在圖像哪里”的線索。作者還為被裁剪/擴(kuò)展后的區(qū)域加入相對(duì)位置編碼來緩解對(duì)齊歧義,使對(duì)象token具備空間感知。
      3. 冗余聚合(Abundant Feature Aggregation)。對(duì)大/同質(zhì)區(qū)域里高度相似的token,采用k-means 聚類合并,只保留n 個(gè)代表性token,既壓縮冗余又保留多視角細(xì)節(jié)。這一步實(shí)證上顯著降低了對(duì)象內(nèi)部token的相似度,提高了表示“緊致度”。




      PixelRefer-Lite (Object-Only Framework)

      該變體僅使用對(duì)象標(biāo)記進(jìn)行 LLM 推理,借助對(duì)象中心信息融合模塊(Object-Centric Infusion Module, OCI)將全局特征在前處理階段融合入對(duì)象表示中。通過 Local-to-Object 和 Global-to-Object Attention,使目標(biāo)的表征同時(shí)具備細(xì)節(jié)感知與全局語義,從而實(shí)現(xiàn)更完整的上下文融合。這樣一來,推理階段無需再使用全局視覺標(biāo)記,顯著降低顯存與時(shí)間消耗,同時(shí)保持語義一致性與理解精度。



      PixelRefer-Lite 實(shí)現(xiàn)了一個(gè)高效的推理框架,在保持高性能的同時(shí)將推理速度提升約 2–3 倍。

      數(shù)據(jù)集

      作者收集并開源了用于訓(xùn)練的兩類數(shù)據(jù)集,分別是Foundational Object Perception(140萬樣本):涵蓋物體、部件、時(shí)序關(guān)系的識(shí)別與描述以及Visual Instruction Tuning(80萬樣本):覆蓋區(qū)域QA、視頻QA、多對(duì)象關(guān)系與未來事件預(yù)測(cè)QA。



      性能結(jié)果

      • 對(duì)于圖像像素級(jí)細(xì)粒度理解benchmark



      PixelRefer在多個(gè)圖像理解benchmark上已達(dá)到SOTA水平,不論是簡(jiǎn)單的區(qū)域識(shí)別還是詳細(xì)理解,已成為最先進(jìn)的模型,特別是在reasoning場(chǎng)景下,更是展現(xiàn)出了突出優(yōu)勢(shì)。

      • 對(duì)于視頻像素級(jí)細(xì)粒度理解benchmark



      在經(jīng)典的VideoRefer-Bench上,不論是視頻區(qū)域的caption還是QA,均取得了領(lǐng)先性能,展現(xiàn)了通用而又全面的能力。

      • 對(duì)于推理時(shí)間與效率的計(jì)算



      在基于圖片的benchmark DLC-Bench和基于視頻的benchmark上HC-STVG上均進(jìn)行了測(cè)評(píng),輕量版的PixelRefer-Lite-2B模型有較大的領(lǐng)先優(yōu)勢(shì),特別是在視頻上,相較于DAM-3B,推理時(shí)間縮短了約4倍,顯存占用減少了2倍。

      • 消融實(shí)驗(yàn):Scale-adaptive Object TokenizervsMaskPooling



      • 相較于之前簡(jiǎn)單maskpooling的做法,作者提出的Scale-adaptive Object Tokenizer模塊有明顯的提升,特別是在小目標(biāo)理解上,在LVIS和DLC-Bench上均提升了十幾個(gè)點(diǎn)。

      • 消融實(shí)驗(yàn):對(duì)于區(qū)域token的表征個(gè)數(shù)



      研究意義與總結(jié)

      PixelRefer的出現(xiàn),標(biāo)志著AI視覺理解從“看懂一張圖”邁向“理解世界的細(xì)節(jié)動(dòng)態(tài)”,為多模態(tài)大模型的精細(xì)化視覺理解提供了新的方向。應(yīng)用前景包括:

      • 自動(dòng)駕駛的時(shí)序場(chǎng)景識(shí)別
      • 醫(yī)療影像的病灶級(jí)理解
      • 智能視頻剪輯與監(jiān)控
      • 多模態(tài)對(duì)話與人機(jī)交互

      未來的多模態(tài)AI,不僅會(huì)“看見世界”,更會(huì)理解世界的關(guān)系。PixelRefer的提出,正是通向通用視覺智能的一塊關(guān)鍵拼圖。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      一男童大年初五在虎跳峽墜崖不幸遇難,當(dāng)?shù)兀菏呛桶职帜棠桃黄饋碛瓮娴?,事發(fā)地系未開放區(qū)域,不在景區(qū)內(nèi)

      一男童大年初五在虎跳峽墜崖不幸遇難,當(dāng)?shù)兀菏呛桶职帜棠桃黄饋碛瓮娴?,事發(fā)地系未開放區(qū)域,不在景區(qū)內(nèi)

      極目新聞
      2026-02-22 14:31:00
      華為確實(shí)是出現(xiàn)了嚴(yán)重的問題,只是至今官方還沒有公開承認(rèn)

      華為確實(shí)是出現(xiàn)了嚴(yán)重的問題,只是至今官方還沒有公開承認(rèn)

      雪中風(fēng)車
      2026-02-22 20:18:26
      看完破防了!真是“滿載而歸”,在G4京港澳高速粵L本田登上熱搜

      看完破防了!真是“滿載而歸”,在G4京港澳高速粵L本田登上熱搜

      火山詩話
      2026-02-22 08:29:48
      冬奧會(huì)收官日,中國第5金誕生!谷愛凌大翻盤:失誤后從第8升第1

      冬奧會(huì)收官日,中國第5金誕生!谷愛凌大翻盤:失誤后從第8升第1

      侃球熊弟
      2026-02-22 19:16:16
      10-7世界第5!趙心童18天連奪2冠 6進(jìn)決賽全奪冠 帶走140萬獎(jiǎng)金

      10-7世界第5!趙心童18天連奪2冠 6進(jìn)決賽全奪冠 帶走140萬獎(jiǎng)金

      念洲
      2026-02-23 06:53:57
      短短15天連奪2冠!28歲趙心童10-7擊潰50歲神燈 6進(jìn)決賽全奪冠

      短短15天連奪2冠!28歲趙心童10-7擊潰50歲神燈 6進(jìn)決賽全奪冠

      風(fēng)過鄉(xiāng)
      2026-02-23 06:55:28
      寧愿在國外種地,也不愿意回國,培養(yǎng)出92個(gè)世界冠軍的李永波圖啥

      寧愿在國外種地,也不愿意回國,培養(yǎng)出92個(gè)世界冠軍的李永波圖啥

      閱微札記
      2026-02-22 19:15:15
      殘陣勇士3人20+爆冷擊潰掘金 約基奇35+20+12第185次三雙

      殘陣勇士3人20+爆冷擊潰掘金 約基奇35+20+12第185次三雙

      醉臥浮生
      2026-02-23 07:10:24
      游客目擊男童虎跳峽墜崖遇難:事發(fā)1米多寬的野外路段,當(dāng)時(shí)風(fēng)很大,3人來玩沒跟團(tuán)

      游客目擊男童虎跳峽墜崖遇難:事發(fā)1米多寬的野外路段,當(dāng)時(shí)風(fēng)很大,3人來玩沒跟團(tuán)

      極目新聞
      2026-02-22 15:56:46
      冬奧會(huì)結(jié)束后,中國隊(duì)3大歸化將告別國家隊(duì),原因曝光

      冬奧會(huì)結(jié)束后,中國隊(duì)3大歸化將告別國家隊(duì),原因曝光

      何老師呀
      2026-02-23 06:42:23
      趙心童奪2026斯諾克球員錦標(biāo)賽冠軍

      趙心童奪2026斯諾克球員錦標(biāo)賽冠軍

      環(huán)球網(wǎng)資訊
      2026-02-23 07:16:15
      從感冒到離世僅5天!唐山“釣帝”安大爺去世,兒子:太快了沒來得及留遺言,父親本打算開春去釣魚

      從感冒到離世僅5天!唐山“釣帝”安大爺去世,兒子:太快了沒來得及留遺言,父親本打算開春去釣魚

      芒果都市
      2026-02-22 12:31:26
      女演員長相對(duì)選角有多重要,看看《鏢人》陳麗君與李云霄就知道了

      女演員長相對(duì)選角有多重要,看看《鏢人》陳麗君與李云霄就知道了

      露珠聊影視
      2026-02-22 23:03:30
      哈登20+9吞加盟首敗!騎士負(fù)殘陣?yán)做獰o緣8連勝 喬22分5斷

      哈登20+9吞加盟首??!騎士負(fù)殘陣?yán)做獰o緣8連勝 喬22分5斷

      羅說NBA
      2026-02-23 04:46:37
      AGI時(shí)代,養(yǎng)老金將變得毫無意義?大白話告訴你AGI到底是什么?

      AGI時(shí)代,養(yǎng)老金將變得毫無意義?大白話告訴你AGI到底是什么?

      我不叫阿哏
      2026-02-22 13:14:03
      暴漲!有相機(jī)價(jià)格翻10倍,根本搶不到,杭州姑娘傻眼,馬上翻出家里老古董

      暴漲!有相機(jī)價(jià)格翻10倍,根本搶不到,杭州姑娘傻眼,馬上翻出家里老古董

      環(huán)球網(wǎng)資訊
      2026-02-22 16:48:12
      3-0!亞馬爾助攻,1.4億真核歸來,巴薩主場(chǎng)大勝,皇馬讓出榜首

      3-0!亞馬爾助攻,1.4億真核歸來,巴薩主場(chǎng)大勝,皇馬讓出榜首

      我的護(hù)球最獨(dú)特
      2026-02-23 01:16:34
      錢再多有什么用?從主持人到“精神病”,48歲李維嘉現(xiàn)狀令人唏噓

      錢再多有什么用?從主持人到“精神病”,48歲李維嘉現(xiàn)狀令人唏噓

      秋姐居
      2026-02-22 09:21:19
      浙江一家三口春節(jié)自駕11天游7城,行程2942公里,總花費(fèi)僅七八千元,小城市住酒店,熱門城市睡車上

      浙江一家三口春節(jié)自駕11天游7城,行程2942公里,總花費(fèi)僅七八千元,小城市住酒店,熱門城市睡車上

      臺(tái)州交通廣播
      2026-02-22 18:10:06
      香港身份爛尾潮已來!12萬內(nèi)地中產(chǎn),正在被精準(zhǔn)收割

      香港身份爛尾潮已來!12萬內(nèi)地中產(chǎn),正在被精準(zhǔn)收割

      社會(huì)日日鮮
      2026-02-22 04:38:12
      2026-02-23 07:59:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12326文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發(fā)射超過10000顆衛(wèi)星

      頭條要聞

      特朗普徹底炸毛 大罵反對(duì)關(guān)稅六名大法官是"國家恥辱"

      頭條要聞

      特朗普徹底炸毛 大罵反對(duì)關(guān)稅六名大法官是"國家恥辱"

      體育要聞

      谷愛凌:6次參賽6次奪牌 我對(duì)自己非常自豪

      娛樂要聞

      谷愛凌:真正的強(qiáng)大 敢接納生命的節(jié)奏

      財(cái)經(jīng)要聞

      特朗普新加征關(guān)稅稅率從10%提升至15%

      汽車要聞

      續(xù)航1810km!smart精靈#6 EHD超級(jí)電混2026年上市

      態(tài)度原創(chuàng)

      本地
      數(shù)碼
      親子
      公開課
      軍事航空

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      數(shù)碼要聞

      古爾曼:蘋果3月2 - 4日發(fā)布“至少五款產(chǎn)品”

      親子要聞

      一個(gè)4歲孩子憑什么教大人教育小孩。

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      約旦基地美軍戰(zhàn)機(jī)驟增 包括F-35隱形戰(zhàn)斗機(jī)

      無障礙瀏覽 進(jìn)入關(guān)懷版