<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      PixelRefer :讓AI從“看大圖”走向“看懂每個對象”

      0
      分享至



      多模態大模型(MLLMs)雖然在圖像理解、視頻分析上表現出色,但多停留在整體場景級理解。

      而場景級理解 ≠ 視覺理解的終點,現實任務(如自動駕駛、機器人、醫療影像、視頻分析)需要的是細粒度、對象級(object-level)詳細理解

      然而,當下的研究工作,如英偉達的Describe Anything Model (DAM)局限于單個物體的描述,難以深入理解多對象屬性、交互關系及其時序演變,且犧牲了模型本身的通用理解能力。

      針對這一問題,浙江大學、達摩院、香港理工大學聯合提出了一種創新的解決方案PixelRefer:一個統一的時空像素級區域級理解框架,可實現任意粒度下的精細視覺指代與推理,在多項像素級細粒度理解任務取得領先性能表現。和DAM-3B相比,輕量版的2B模型推理時間加快了4倍,顯存占用減半,且訓練數據量大大少于已有方法。



      PixelRefer能夠對任意目標實現準確語義理解以及時空物體區域理解。









      • 論文標題:
      • PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
      • 論文鏈接:
      • https://arxiv.org/abs/2510.23603
      • 項目網站鏈接:
      • https://circleradon.github.io/PixelRefer/
      • 代碼鏈接:
      • https://github.com/DAMO-NLP-SG/PixelRefer

      先驗分析:大模型“如何看懂區域”?

      為了探索解決以上問題,作者基于通用視覺基礎模型采用最直接的設計:將全局視覺token+像素級區域token+文本token一起喂給 LLM。當無物體指代區域時,模型則退化成通用視覺理解任務,從而實現區域理解的同時,保留通用模型本身的通用理解能力。

      作者對LLM內從淺層到深層中分析視覺token、區域token以及其他類型token進行可視化分析。本文可以發現從淺層到深層,答案(Ans)優先關注像素級區域token,其attention分數一直很高,說明物體token表征對于模型的回答起到重要的作用。此外,全局圖像token(vision)則僅在淺層中(第一層)表現出較高的attention分布(Answer-to-image token attention),LLM的深層則表現較弱,甚至沒有影響,這個在通用視覺基礎模型研究中也被討論到。



      淺層到深層的attention可視化

      基于此分析,作者得出兩種設計方案:

      1. 高質量像素級物體表征很重要:對于像素級區域的表達,語義豐富的區域表征直接決定像素級語義理解的質量;
      2. 全局信息的冗余可以通過“預融合”優化:在 LLM 深層階段,全局視覺標記的作用顯著減弱,在深層階段反而變得冗余,說明其信息可提前注入對象標記中,以大幅減少計算開銷。

      方法設計

      為此,作者針對像素級細粒度理解定義了兩種框架,Vision-Object Framework (a)與Object-Only Framework (b):



      PixelRefer(Vision-Object Framework)

      對于PixelRefer,作者把全局視覺token+像素級區域token+文本token一起送入 LLM,既保留場景語境,又在對象級上精細推理。關鍵在于像素級區域表征token質量足夠高。為此,作者提出尺度自適應對象分詞器(Scale-Adaptive Object Tokenizer, SAOT) 來生成精確、緊湊、語義豐富的對象表示。

      SAOT 圍繞兩個設計:(i)小目標容易在patch化后丟失細節;(ii)大目標的特征冗余嚴重

      核心做法分三步:

      1. 動態尺度處理(Dynamic Object Processing)。按像素級區域大小自適應地放大小物體、縮小大物體,并進行上下文擴展(在目標周圍留出一定背景),保證既不丟細節也不過度冗余。隨后通過共享視覺編碼器取到區域級特征。
      2. 位置感知的掩碼特征抽取(Mask Feature + Relative Positional Encoding)。對區域內的有效特征做掩碼并疊加相對坐標投影,形成位置感知的對象token,為后續推理提供“這片語義在圖像哪里”的線索。作者還為被裁剪/擴展后的區域加入相對位置編碼來緩解對齊歧義,使對象token具備空間感知。
      3. 冗余聚合(Abundant Feature Aggregation)。對大/同質區域里高度相似的token,采用k-means 聚類合并,只保留n 個代表性token,既壓縮冗余又保留多視角細節。這一步實證上顯著降低了對象內部token的相似度,提高了表示“緊致度”。




      PixelRefer-Lite (Object-Only Framework)

      該變體僅使用對象標記進行 LLM 推理,借助對象中心信息融合模塊(Object-Centric Infusion Module, OCI)將全局特征在前處理階段融合入對象表示中。通過 Local-to-Object 和 Global-to-Object Attention,使目標的表征同時具備細節感知與全局語義,從而實現更完整的上下文融合。這樣一來,推理階段無需再使用全局視覺標記,顯著降低顯存與時間消耗,同時保持語義一致性與理解精度。



      PixelRefer-Lite 實現了一個高效的推理框架,在保持高性能的同時將推理速度提升約 2–3 倍。

      數據集

      作者收集并開源了用于訓練的兩類數據集,分別是Foundational Object Perception(140萬樣本):涵蓋物體、部件、時序關系的識別與描述以及Visual Instruction Tuning(80萬樣本):覆蓋區域QA、視頻QA、多對象關系與未來事件預測QA。



      性能結果

      • 對于圖像像素級細粒度理解benchmark



      PixelRefer在多個圖像理解benchmark上已達到SOTA水平,不論是簡單的區域識別還是詳細理解,已成為最先進的模型,特別是在reasoning場景下,更是展現出了突出優勢。

      • 對于視頻像素級細粒度理解benchmark



      在經典的VideoRefer-Bench上,不論是視頻區域的caption還是QA,均取得了領先性能,展現了通用而又全面的能力。

      • 對于推理時間與效率的計算



      在基于圖片的benchmark DLC-Bench和基于視頻的benchmark上HC-STVG上均進行了測評,輕量版的PixelRefer-Lite-2B模型有較大的領先優勢,特別是在視頻上,相較于DAM-3B,推理時間縮短了約4倍,顯存占用減少了2倍。

      • 消融實驗:Scale-adaptive Object TokenizervsMaskPooling



      • 相較于之前簡單maskpooling的做法,作者提出的Scale-adaptive Object Tokenizer模塊有明顯的提升,特別是在小目標理解上,在LVIS和DLC-Bench上均提升了十幾個點。

      • 消融實驗:對于區域token的表征個數



      研究意義與總結

      PixelRefer的出現,標志著AI視覺理解從“看懂一張圖”邁向“理解世界的細節動態”,為多模態大模型的精細化視覺理解提供了新的方向。應用前景包括:

      • 自動駕駛的時序場景識別
      • 醫療影像的病灶級理解
      • 智能視頻剪輯與監控
      • 多模態對話與人機交互

      未來的多模態AI,不僅會“看見世界”,更會理解世界的關系。PixelRefer的提出,正是通向通用視覺智能的一塊關鍵拼圖。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一場持續6周的封神戰役,打破全世界的看法,讓中國軍事迅速強大

      一場持續6周的封神戰役,打破全世界的看法,讓中國軍事迅速強大

      云上烏托邦
      2025-12-17 17:18:38
      向華強77歲生日蛋糕簡單有愛,和向太摟著孫女拍照,笑得合不攏嘴

      向華強77歲生日蛋糕簡單有愛,和向太摟著孫女拍照,笑得合不攏嘴

      有范又有料
      2025-12-17 12:57:46
      許亞軍疑為何晴付10年抗癌費、生活費,下7次病危通知仍不放棄

      許亞軍疑為何晴付10年抗癌費、生活費,下7次病危通知仍不放棄

      林雁飛
      2025-12-17 13:55:37
      今起三天晴間多云!周末冷空氣抵津,周日最低氣溫-3℃左右

      今起三天晴間多云!周末冷空氣抵津,周日最低氣溫-3℃左右

      網信津南
      2025-12-17 08:47:17
      一部電影八個演員title,內娛的番位造詞還能更離譜嗎?

      一部電影八個演員title,內娛的番位造詞還能更離譜嗎?

      鈦媒體APP
      2025-12-15 18:57:25
      房產證上的人去世了,繼承別再花大幾千的公證費,80塊錢就能搞定

      房產證上的人去世了,繼承別再花大幾千的公證費,80塊錢就能搞定

      室內設計師有料兒
      2025-12-07 16:05:28
      承認“中華民國臺灣”兩岸就可以和談,這是國民黨多次堅持的觀點

      承認“中華民國臺灣”兩岸就可以和談,這是國民黨多次堅持的觀點

      百態人間
      2025-12-17 16:44:15
      廣東2連勝杜鋒笑不出來,胡明軒2人退化嚴重,崔永熙恢復遙遙無期

      廣東2連勝杜鋒笑不出來,胡明軒2人退化嚴重,崔永熙恢復遙遙無期

      二哥聊球
      2025-12-17 16:18:02
      福建艦進入臺灣海峽!臺軍方下令:若遭遇突襲,無需命令即可作戰

      福建艦進入臺灣海峽!臺軍方下令:若遭遇突襲,無需命令即可作戰

      南宮一二
      2025-12-17 16:34:57
      黎智英剛被定罪,不到24小時,兩國要求放人,中方回應連將兩軍!

      黎智英剛被定罪,不到24小時,兩國要求放人,中方回應連將兩軍!

      介知
      2025-12-17 02:37:46
      大廠員工自爆:985畢業,投百份簡歷無人問津,一氣之下把薪資由2W調為3W,簡歷改成英文,結果出乎意料!

      大廠員工自爆:985畢業,投百份簡歷無人問津,一氣之下把薪資由2W調為3W,簡歷改成英文,結果出乎意料!

      上海約飯局
      2025-12-05 19:59:53
      南海撞機王偉成功跳傘,咋10萬人都找不到他?直到20多年后才明白

      南海撞機王偉成功跳傘,咋10萬人都找不到他?直到20多年后才明白

      鶴羽說個事
      2025-12-12 14:31:49
      2015年,谷俊山被判死緩,朱德外孫對他的評價一針見血

      2015年,谷俊山被判死緩,朱德外孫對他的評價一針見血

      歷史龍元閣
      2025-12-03 13:50:04
      美國3次出手不管用,黎智英終極審判來了!反恐特勤現場持槍戒備

      美國3次出手不管用,黎智英終極審判來了!反恐特勤現場持槍戒備

      墨印齋
      2025-12-17 00:13:08
      1954年,尹先炳多次奸污女護士并致其自殺,毛主席大怒:開除黨籍

      1954年,尹先炳多次奸污女護士并致其自殺,毛主席大怒:開除黨籍

      帝哥說史
      2025-12-07 16:54:03
      荷蘭光刻機巨頭:中國人太聰明了,封鎖讓西方企業先活不下去

      荷蘭光刻機巨頭:中國人太聰明了,封鎖讓西方企業先活不下去

      瘋狂小菠蘿
      2025-12-17 15:30:31
      談判結果出來了?英法德或向烏派兵,美國態度變了,普京開始下令

      談判結果出來了?英法德或向烏派兵,美國態度變了,普京開始下令

      男人吻女人是一種口福
      2025-12-17 15:10:59
      年會時我主動打掃衛生,被全公司恥笑,會后秘書告訴我:你升職了

      年會時我主動打掃衛生,被全公司恥笑,會后秘書告訴我:你升職了

      流螢敘情
      2025-12-08 10:01:39
      小米集團總裁盧偉冰:小米2026年預計研發投入約400億元

      小米集團總裁盧偉冰:小米2026年預計研發投入約400億元

      財聯社
      2025-12-17 14:05:08
      柬埔寨的洪家天下:“金邊肯德基全家桶”

      柬埔寨的洪家天下:“金邊肯德基全家桶”

      Wilsonhe8
      2025-07-01 00:24:02
      2025-12-17 18:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11943文章數 142512關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      高位截癱患者因腦機接口"再就業":錢不多 供兒讀大學

      頭條要聞

      高位截癱患者因腦機接口"再就業":錢不多 供兒讀大學

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      游戲
      教育
      旅游
      公開課
      軍事航空

      栩栩如生!《生化危機4》艾什莉1:2比例雕像開啟預購

      教育要聞

      教育部:高中要嚴格控制考試次數,小學一二年級不進行紙筆考試,義務教育學校日常考試實行等級評價

      旅游要聞

      云南迪慶旅游持續火熱

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      最新現場:山東艦完成年度最后一次海上訓練

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩肏屄| 香蕉av在线| 兴和县| 毛茸茸性xxxx毛茸茸毛茸茸| 日本一卡精品视频免费| 欧美人成在线播放网站免费| 综合色道| 一本久道久久综合无码中文| 日本熟妇大乳| 国产自偷自偷免费一区 | 国产免费久久精品99reswag| 成人A在线播放| 长岭县| 国产乱xxxxx97国语对白| 亚洲日韩AV无码专区影院| 激情图区| 91n在线观看| 曰批免费视频播放免费| 亚洲欧美日本韩国| 精品无码产区一区二| 99zyz| 国产成人精品无码免费看夜聊软件| 久久天天躁狠狠躁夜夜不卡| 久久91精品牛牛| 亚洲成人免费网站| 果冻传媒色av国产在线播放| 自拍偷自拍亚洲精品播放| 熟女毛多熟妇人妻在线视频| 亚洲国产无套无码av电影| 天天狠天天透天天伊人| 99久久精品国产免费看| 国产精品久久久一区二区| 国产欧美亚洲精品a| 亚洲综合A| 抚宁县| 安平县| 亚洲精品一卡二卡三卡| 正在播放夫妇露脸自拍| 免费无码网站| 亚洲无码电影在线观看| 人人做人人澡人人人爽|