<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      PixelRefer :讓AI從“看大圖”走向“看懂每個對象”

      0
      分享至



      多模態(tài)大模型(MLLMs)雖然在圖像理解、視頻分析上表現(xiàn)出色,但多停留在整體場景級理解。

      而場景級理解 ≠ 視覺理解的終點,現(xiàn)實任務(如自動駕駛、機器人、醫(yī)療影像、視頻分析)需要的是細粒度、對象級(object-level)詳細理解

      然而,當下的研究工作,如英偉達的Describe Anything Model (DAM)局限于單個物體的描述,難以深入理解多對象屬性、交互關系及其時序演變,且犧牲了模型本身的通用理解能力。

      針對這一問題,浙江大學、達摩院、香港理工大學聯(lián)合提出了一種創(chuàng)新的解決方案PixelRefer:一個統(tǒng)一的時空像素級區(qū)域級理解框架,可實現(xiàn)任意粒度下的精細視覺指代與推理,在多項像素級細粒度理解任務取得領先性能表現(xiàn)。和DAM-3B相比,輕量版的2B模型推理時間加快了4倍,顯存占用減半,且訓練數(shù)據(jù)量大大少于已有方法。



      PixelRefer能夠對任意目標實現(xiàn)準確語義理解以及時空物體區(qū)域理解。









      • 論文標題:
      • PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
      • 論文鏈接:
      • https://arxiv.org/abs/2510.23603
      • 項目網(wǎng)站鏈接:
      • https://circleradon.github.io/PixelRefer/
      • 代碼鏈接:
      • https://github.com/DAMO-NLP-SG/PixelRefer

      先驗分析:大模型“如何看懂區(qū)域”?

      為了探索解決以上問題,作者基于通用視覺基礎模型采用最直接的設計:將全局視覺token+像素級區(qū)域token+文本token一起喂給 LLM。當無物體指代區(qū)域時,模型則退化成通用視覺理解任務,從而實現(xiàn)區(qū)域理解的同時,保留通用模型本身的通用理解能力。

      作者對LLM內(nèi)從淺層到深層中分析視覺token、區(qū)域token以及其他類型token進行可視化分析。本文可以發(fā)現(xiàn)從淺層到深層,答案(Ans)優(yōu)先關注像素級區(qū)域token,其attention分數(shù)一直很高,說明物體token表征對于模型的回答起到重要的作用。此外,全局圖像token(vision)則僅在淺層中(第一層)表現(xiàn)出較高的attention分布(Answer-to-image token attention),LLM的深層則表現(xiàn)較弱,甚至沒有影響,這個在通用視覺基礎模型研究中也被討論到。



      淺層到深層的attention可視化

      基于此分析,作者得出兩種設計方案:

      1. 高質(zhì)量像素級物體表征很重要:對于像素級區(qū)域的表達,語義豐富的區(qū)域表征直接決定像素級語義理解的質(zhì)量;
      2. 全局信息的冗余可以通過“預融合”優(yōu)化:在 LLM 深層階段,全局視覺標記的作用顯著減弱,在深層階段反而變得冗余,說明其信息可提前注入對象標記中,以大幅減少計算開銷。

      方法設計

      為此,作者針對像素級細粒度理解定義了兩種框架,Vision-Object Framework (a)與Object-Only Framework (b):



      PixelRefer(Vision-Object Framework)

      對于PixelRefer,作者把全局視覺token+像素級區(qū)域token+文本token一起送入 LLM,既保留場景語境,又在對象級上精細推理。關鍵在于像素級區(qū)域表征token質(zhì)量足夠高。為此,作者提出尺度自適應對象分詞器(Scale-Adaptive Object Tokenizer, SAOT) 來生成精確、緊湊、語義豐富的對象表示。

      SAOT 圍繞兩個設計:(i)小目標容易在patch化后丟失細節(jié);(ii)大目標的特征冗余嚴重

      核心做法分三步:

      1. 動態(tài)尺度處理(Dynamic Object Processing)。按像素級區(qū)域大小自適應地放大小物體、縮小大物體,并進行上下文擴展(在目標周圍留出一定背景),保證既不丟細節(jié)也不過度冗余。隨后通過共享視覺編碼器取到區(qū)域級特征。
      2. 位置感知的掩碼特征抽取(Mask Feature + Relative Positional Encoding)。對區(qū)域內(nèi)的有效特征做掩碼并疊加相對坐標投影,形成位置感知的對象token,為后續(xù)推理提供“這片語義在圖像哪里”的線索。作者還為被裁剪/擴展后的區(qū)域加入相對位置編碼來緩解對齊歧義,使對象token具備空間感知。
      3. 冗余聚合(Abundant Feature Aggregation)。對大/同質(zhì)區(qū)域里高度相似的token,采用k-means 聚類合并,只保留n 個代表性token,既壓縮冗余又保留多視角細節(jié)。這一步實證上顯著降低了對象內(nèi)部token的相似度,提高了表示“緊致度”。




      PixelRefer-Lite (Object-Only Framework)

      該變體僅使用對象標記進行 LLM 推理,借助對象中心信息融合模塊(Object-Centric Infusion Module, OCI)將全局特征在前處理階段融合入對象表示中。通過 Local-to-Object 和 Global-to-Object Attention,使目標的表征同時具備細節(jié)感知與全局語義,從而實現(xiàn)更完整的上下文融合。這樣一來,推理階段無需再使用全局視覺標記,顯著降低顯存與時間消耗,同時保持語義一致性與理解精度。



      PixelRefer-Lite 實現(xiàn)了一個高效的推理框架,在保持高性能的同時將推理速度提升約 2–3 倍。

      數(shù)據(jù)集

      作者收集并開源了用于訓練的兩類數(shù)據(jù)集,分別是Foundational Object Perception(140萬樣本):涵蓋物體、部件、時序關系的識別與描述以及Visual Instruction Tuning(80萬樣本):覆蓋區(qū)域QA、視頻QA、多對象關系與未來事件預測QA。



      性能結果

      • 對于圖像像素級細粒度理解benchmark



      PixelRefer在多個圖像理解benchmark上已達到SOTA水平,不論是簡單的區(qū)域識別還是詳細理解,已成為最先進的模型,特別是在reasoning場景下,更是展現(xiàn)出了突出優(yōu)勢。

      • 對于視頻像素級細粒度理解benchmark



      在經(jīng)典的VideoRefer-Bench上,不論是視頻區(qū)域的caption還是QA,均取得了領先性能,展現(xiàn)了通用而又全面的能力。

      • 對于推理時間與效率的計算



      在基于圖片的benchmark DLC-Bench和基于視頻的benchmark上HC-STVG上均進行了測評,輕量版的PixelRefer-Lite-2B模型有較大的領先優(yōu)勢,特別是在視頻上,相較于DAM-3B,推理時間縮短了約4倍,顯存占用減少了2倍。

      • 消融實驗:Scale-adaptive Object TokenizervsMaskPooling



      • 相較于之前簡單maskpooling的做法,作者提出的Scale-adaptive Object Tokenizer模塊有明顯的提升,特別是在小目標理解上,在LVIS和DLC-Bench上均提升了十幾個點。

      • 消融實驗:對于區(qū)域token的表征個數(shù)



      研究意義與總結

      PixelRefer的出現(xiàn),標志著AI視覺理解從“看懂一張圖”邁向“理解世界的細節(jié)動態(tài)”,為多模態(tài)大模型的精細化視覺理解提供了新的方向。應用前景包括:

      • 自動駕駛的時序場景識別
      • 醫(yī)療影像的病灶級理解
      • 智能視頻剪輯與監(jiān)控
      • 多模態(tài)對話與人機交互

      未來的多模態(tài)AI,不僅會“看見世界”,更會理解世界的關系。PixelRefer的提出,正是通向通用視覺智能的一塊關鍵拼圖。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      蔡磊近照曝光:紅光滿面、妻兒和睦,48歲本命年他能跑贏死神嗎?

      蔡磊近照曝光:紅光滿面、妻兒和睦,48歲本命年他能跑贏死神嗎?

      削桐作琴
      2026-02-20 23:29:01
      江蘇男子帶著一家人去俄羅斯旅游,結果老婆孩子葬身貝加爾湖

      江蘇男子帶著一家人去俄羅斯旅游,結果老婆孩子葬身貝加爾湖

      霹靂炮
      2026-02-22 22:56:18
      《鏢人》陳麗君、李云霄火了,霄君cp再續(xù)友情,兩人都無公開戀情

      《鏢人》陳麗君、李云霄火了,霄君cp再續(xù)友情,兩人都無公開戀情

      芬霏劇時光
      2026-02-23 18:08:54
      谷愛凌奪冠后得知奶奶去世,稱昨晚還夢到了奶奶

      谷愛凌奪冠后得知奶奶去世,稱昨晚還夢到了奶奶

      懂球帝
      2026-02-22 22:05:10
      媽祖開始懲罰這位姓許的有錢人了

      媽祖開始懲罰這位姓許的有錢人了

      麥杰遜
      2026-02-21 18:12:33
      任何一艘美航母上,都要帶足大量女兵?她們在航母上有什么作用?

      任何一艘美航母上,都要帶足大量女兵?她們在航母上有什么作用?

      來科點譜
      2026-02-23 09:27:06
      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      深度報
      2025-12-14 22:36:54
      大年初六,和幾個大廠(字節(jié)、阿里)朋友聚會。突然不聊房子了

      大年初六,和幾個大廠(字節(jié)、阿里)朋友聚會。突然不聊房子了

      螞蟻大喇叭
      2026-02-23 17:08:47
      日本首相退休后,每月的養(yǎng)老金是多少

      日本首相退休后,每月的養(yǎng)老金是多少

      徐靜波靜說日本
      2025-12-06 09:15:21
      75歲老人全新養(yǎng)老方式:不請保姆不去養(yǎng)老院,成本小老人舒心

      75歲老人全新養(yǎng)老方式:不請保姆不去養(yǎng)老院,成本小老人舒心

      孢木情感
      2026-02-21 12:15:25
      21+9難救主,馬瑟林懊惱絕殺不中:倫納德的話讓我備受鼓舞

      21+9難救主,馬瑟林懊惱絕殺不中:倫納德的話讓我備受鼓舞

      大眼瞄世界
      2026-02-23 16:12:04
      一個家庭最大的災難不是貧窮,而是父母才50歲,就處于這種狀態(tài)

      一個家庭最大的災難不是貧窮,而是父母才50歲,就處于這種狀態(tài)

      真實人物采訪
      2025-12-02 17:00:03
      比恒大還慘!中國第二大民企倒了,負債7500億,創(chuàng)始人被帶走

      比恒大還慘!中國第二大民企倒了,負債7500億,創(chuàng)始人被帶走

      芳芳歷史燴
      2025-12-25 20:32:52
      閃電航打包出售ipad,全都是蘋果牌

      閃電航打包出售ipad,全都是蘋果牌

      中國民航人
      2026-02-20 19:54:05
      1957年,韓先楚拒絕當福州軍區(qū)司令員,毛主席震怒:你不去也得去

      1957年,韓先楚拒絕當福州軍區(qū)司令員,毛主席震怒:你不去也得去

      南書房
      2026-02-22 07:25:13
      中產(chǎn)的智能馬桶,我不敢坐

      中產(chǎn)的智能馬桶,我不敢坐

      有意思報告
      2026-02-23 08:42:19
      信號與噪音:俄烏戰(zhàn)爭爆發(fā)前夕,那些不為人知的幕后故事

      信號與噪音:俄烏戰(zhàn)爭爆發(fā)前夕,那些不為人知的幕后故事

      近距離
      2026-02-22 12:49:16
      孫越訪談坦白:和岳云鵬私下不怎么聯(lián)系,成就如今的“德云一哥”

      孫越訪談坦白:和岳云鵬私下不怎么聯(lián)系,成就如今的“德云一哥”

      離離言幾許
      2026-02-21 09:26:48
      寧忠?guī)r:拿到三枚獎牌完全超出預期,賽前目標有一枚就很好了

      寧忠?guī)r:拿到三枚獎牌完全超出預期,賽前目標有一枚就很好了

      懂球帝
      2026-02-23 14:00:06
      馬筱梅曬設計款紅包,汪小菲帶隊外出聚餐,小菻菻顯得格外親張?zhí)m

      馬筱梅曬設計款紅包,汪小菲帶隊外出聚餐,小菻菻顯得格外親張?zhí)m

      心靈得以滋養(yǎng)
      2026-02-23 14:28:05
      2026-02-23 18:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12326文章數(shù) 142569關注度
      往期回顧 全部

      科技要聞

      智譜、MiniMax合計蒸發(fā)近千億市值,為何?

      頭條要聞

      鄭麗文:一旦臺海爆發(fā)沖突 臺灣將成最大輸家

      頭條要聞

      鄭麗文:一旦臺海爆發(fā)沖突 臺灣將成最大輸家

      體育要聞

      哈登版騎士首敗:雷霆的冠軍課

      娛樂要聞

      谷愛凌奶奶去世,谷愛凌淚奔

      財經(jīng)要聞

      美國海關將停止征收被裁定違法的關稅

      汽車要聞

      續(xù)航1810km!smart精靈#6 EHD超級電混2026年上市

      態(tài)度原創(chuàng)

      健康
      游戲
      家居
      藝術
      本地

      轉頭就暈的耳石癥,能開車上班嗎?

      八年前上市的《巨型水族館》還在推出更新與DLC

      家居要聞

      本真棲居 愛暖伴流年

      藝術要聞

      十大名家畫春,送給春天的你!

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      無障礙瀏覽 進入關懷版