![]()
操鑠:中國科學技術大學與上海人工智能實驗室聯合培養博士生,專注多模態圖像理解與生成。主導研發了 ArtiMuse、UniPercept 等成果,多篇工作發表于 ECCV、ICCV 等國際頂級會議。
李佳陽:北京大學碩士生,專注多模態圖像理解及融合。作為核心作者參與了 ArtiMuse、UniPercept 等工作,多篇工作發表于 TIP、TPAMI 等國際頂級期刊。
盡管多模態大語言模型(MLLMs)在識別「圖中有什么」這一語義層面上取得了巨大進步,但在理解「圖像看起來怎么樣」這一感知層面上仍顯乏力。
近日,來自上海人工智能實驗室、中科大、北大、清華等機構的研究者聯合發布了UniPercept。這是首個統一了美學(Aesthetics)質量(Quality)結構與紋理(Structure & Texture)三個維度的感知級圖像理解框架。
![]()
項目主頁:https://thunderbolt215.github.io/Unipercept-project/
代碼倉庫:
https://github.com/thunderbolt215/UniPercept
論文地址:
https://arxiv.org/abs/2512.21675
模型權重:https://huggingface.co/collections/Thunderbolt215215/unipercept
相關工作 (ArtiMuse):
https://github.com/thunderbolt215/ArtiMuse
引言:
從「識別物體」到「感知圖像」
當前,多模態大語言模型在目標檢測、圖像描述和視覺推理等語義級任務中表現卓越。然而,人類視覺感知不僅限于物體識別,還包括對構圖美感、畫質損傷、材質紋理以及結構規律性的細膩捕捉。
語義級理解關注的是「場景中有哪些實體」,而感知級理解則需要評估精細的、低層級的視覺外觀,例如美學和諧度、降質嚴重程度或表面肌理。這些屬性往往是微妙且主觀的,對內容創作、圖像增強及生成模型對齊至關重要。
為了填補這一空白,研究團隊提出了UniPercept。該工作建立了層次化的感知屬性定義系統,構建了大規模基準測試集UniPercept-Bench,并開發了一個通過領域自適應預訓練和任務對齊強化學習訓練的強基準模型。此外,研究團隊還給出了UniPercept的下游應用實例,包括作為生成模型的獎勵模型(Reward Model),以及作為生成模型評估的指標(Metrics)等。
![]()
UniPercept-Bench:
三位一體的全域感知評價體系
UniPercept 將感知級圖像理解拆解為三個核心領域,構建了「領域 - 類別 - 準則」的三級層次結構,旨在全面覆蓋人類對圖像的視覺評價維度。
核心評估維度
- 圖像美學評估(IAA):側重于構圖設計、視覺元素與結構、情感和整體視覺吸引力等。它關注的是圖像是否「好看」,探討藝術表達與視覺平衡。
- 圖像質量評估(IQA):側重于感知保真度和降質因素,如噪聲、模糊、壓縮偽影。它回答的是圖像是否「技術性達標」。
- 圖像結構與紋理評估(ISTA):這是 UniPercept 首次系統化提出的維度,強調局部特征、幾何規律性、材質屬性(如平滑度、粗糙度)和細節豐富度。它回答的是圖像的「場景、結構、紋理和構成與復雜程度」。
![]()
UniPercept-Bench 的定義體系分為三級細分,包含 3 個領域、17 個類別和 44 個細分準則,給出了專家級的細致定義體系,其精細程度遠遠超過此前的圖像評估 Benchmark。
在具體定義上,它實現了從領域到準則的精密解構:例如從美學(IAA)領域,到「構圖與設計(Composition & Design)」類別,深入到對「視覺平衡(Visual Balance)」這一微觀準則的量化;或從場景解析(ISTA)領域,到「幾何構成(Geometric Composition)」類別,細化到對「3D 體積(3D Volume)」隱含信息的提取。這種三級聯動的體系,確保了模型能夠從宏觀的「整體感知」跨越到微觀的「渲染精度」進行全方位、多維度的專家級評估。
![]()
![]()
![]()
任務形式與數據流水線
該基準支持視覺評分(Visual Rating, VR)視覺問答(Visual Question Answering, VQA)兩種互補的任務形式。
![]()
為了確保數據質量,研究團隊設計了三階段自動化流水線:
- 初始生成:利用先進多模態模型結合專業準則庫生成候選問答對。
- 拒絕采樣:由異構判別模型對問題的有效性、答案的準確性及邏輯一致性進行五分制打分,剔除約 40% 的不合格樣本。
- 人工精修:組織專業志愿者進行手動核驗,特別是對邊界案例進行修改,確保最終結果與人類專家感知高度對齊。
![]()
UniPercept 模型:
領域自適應與任務對齊強化學習
為了使模型具備真正的感知能力,研究者采用兩階段框架對基礎多模態模型進行持續演進。
領域自適應預訓練(Domain-Adaptive Pre-Training)
研究團隊整合了約 80 萬個樣本的大規模語料庫,涵蓋文本描述、結構化標注和數值評分。通過這一階段,模型習得了跨領域的底層視覺特征,為其后續的精準判斷打下了相應的感知基礎。
任務對齊強化學習(Task-Aligned RL for VR & VQA)
這是提升模型感知一致性的關鍵。研究者采用了 GRPO 算法進行策略優化,并針對感知任務設計了特定的獎勵函數:
- 視覺問答(VQA)任務:采用二元獎勵,鼓勵模型輸出準確的離散答案。
- 視覺評分(VR)任務:創新性地設計了自適應高斯軟獎勵(Adaptive Gaussian Soft Reward)。該函數根據模型預測值與參考分數的偏差動態調整平滑系數。
這種軟獎勵機制提供了更平滑的梯度,避免了傳統閾值獎勵導致的優化不連續性。此外,模型引入了評分 Token 策略,直接從預測概率分布中導出數值,大幅緩解了模型生成數字時的幻覺傾向。
![]()
性能:
全面超越現有頂尖模型
研究團隊在 UniPercept-Bench 上評估了包括商用閉源模型系列、領先開源系列以及針對美學和質量優化的專用模型在內的 18 個模型,UniPercept 在其中取得了顯著優秀的表現。
視覺評分(VR)表現
在持續分數的回歸任務中,大多數通用模型在沒有針對性訓練的情況下表現較差。相比之下,UniPercept 在所有三個領域(美學、質量、結構)中均取得了最高的斯皮爾曼相關系數(SRCC)和皮爾遜相關系數(PLCC)。尤其是在 ISTA 領域,UniPercept 填補了現有模型對細節紋理判斷的空白。
![]()
視覺問答(VQA)表現
實驗顯示,即使是目前最頂尖的商業模型在處理精細感知問題時也顯得吃力:
- 圖像美學評估(IAA)領域,UniPercept 的準確率超越了 GPT-4o 約 16 個百分點。
- 圖像質量評估(IQA)領域,UniPercept 在識別特定物體上的細微損傷(如運動模糊、壓縮畸變)方面展現出極強的定位與判斷能力。
- 圖像結構與紋理復雜度評估(ISTA)領域,模型能夠準確分辨不同材質的表面特性(如鏡面反射、亞光紋理),準確率突破 80%。
![]()
![]()
![]()
應用:
作為獎勵模型/評估指標
UniPercept 展示了作為生成模型優化信號的巨大潛力。研究者將其作為獎勵模型,整合進文生圖模型的微調流水線中。UniPercept 主要從以下三個方面對生成模型進行優化:
- 美學引導:顯著改善生成圖像的構圖平衡和光影和諧度。
- 質量引導:增強圖像細節的銳度和清晰度,減少常見的偽影干擾。
- 結構紋理引導:豐富了場景的復雜程度、結構的豐富度、物體的表面肌理,使畫面表現更豐富。
不同獎勵信號有著不同的優化側重點,當三個維度的獎勵信號協同作用時,生成的圖像在視覺吸引力和技術保真度上均達到最優。
![]()
![]()
此外,UniPercept 天然可以作為從美學、質量、紋理與結構三方面對于圖像進行評估的評估指標(Metrics),可以準確反映不同模型輸出圖像的各方面表現。
![]()
生成圖像的全方位「感知檔案」
UniPercept 還能為圖像生成全方位的「感知檔案」,不僅給出評分,還能從美學、質量、紋理與結構三個方面針對構圖、執行精度、損傷位置等具體維度給出詳細的文字解析與結構化輸出。
![]()
結語
UniPercept 的提出,是多模態大模型的研究重心正在從單純的語義識別,向更具挑戰性的「感知圖像」轉化的重要一環。通過建立統一的評價基準、高效的數據生產線以及新穎的任務對齊學習策略,UniPercept 為未來的視覺內容評價與可控生成提供了一個強大的底座。它不僅是研究感知的有力工具,更是構建「感知閉環」系統的重要一步。
隨著感知級理解能力的不斷提升,人工智能將能夠像人類藝術家一樣,不僅能看懂畫面中的故事,更能體會并創造出具備極致美感與精湛質感的視覺作品。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.