![]()
新智元報道
編輯:LRST
【新智元導讀】最新報告探討了生成式模型Nano Banana Pro在低層視覺任務中的表現,如去霧、超分等,傳統上依賴PSNR/SSIM等像素級指標。研究發現,Nano Banana Pro在視覺效果上更佳,但傳統指標表現欠佳,因生成式模型更追求語義合理而非像素對齊。報告還提出改進方向和新評測范式的思考,強調生成式模型雖有潛力,但與專用模型仍有差距。
過去幾年,文本生成圖像(T2I)與多模態生成式模型的能力突飛猛進,已經能穩定地產生高質量、具備細節與語義一致性的圖像內容。
報告關注的核心矛盾在于:這些「擅長生成」的模型,是否也能在傳統低層視覺任務中充當通用求解器(generalist)?
低層視覺(low-level vision)通常強調對圖像退化的「精確逆過程」:例如去霧、超分、去噪、去雨、去模糊、去反射、去光暈等。
這類任務的經典評價方式往往依賴 PSNR/SSIM 等參考指標,強調像素級一致性。但生成式模型天生帶有「補全/重建」的傾向:它們可能會依據先驗去「合理地編造」高頻細節,從人眼觀感看更清晰、更「像真的」,卻在像素對齊意義上偏離GT。
華中科技大學的研究人員最近發布了一篇報告,把這種沖突概括為「人類感知偏好 vs. 傳統指標導向」的張力。
![]()
項目主頁:https://lowlevelbanana.github.io
論文鏈接:https://arxiv.org/abs/2512.15110
開源倉庫:https://huggingface.co/datasets/jlongzuo/LowLevelEval
報告中提出一個非常直接的問題:Nano Banana Pro能否成為低層視覺全能選手?
報告采用了一個刻意「極簡」的使用范式:不訓練、不微調,只用「輸入圖 + 簡單文本 prompt」直接讓Nano Banana Pro輸出結果,對其進行zero-shot基準評測。
零樣本+文本提示
14個低層任務的系統基準
研究人員把評測擴展到14個低層視覺任務、40個數據集,覆蓋三大類能力:圖像恢復(restoration)、圖像增強(enhancement)、圖像融合(fusion)。
![]()
任務清單包括:Dehazing、Super-Resolution、Deraining、Deshadowing、Motion Deblur、Defocus Deblur、Denoising、Reflection Removal、Flare Removal、Low-Light Enhancement、Underwater Enhancement、HDR Imaging、Multi-focus Fusion、Infrared-Visible Fusion;
圖中用顏色區分了restoration / enhancement / fusion三類任務。
保守估測性能
報告特別強調:當前結論是對模型能力的保守估計,即研究人員沒有做精細 prompt tuning,也沒有用多輪推理去「挑選最好看的輸出」,而是用固定、簡單的提示詞來模擬一種更接近「普通用戶上手」的用法。
閉源模型的評測約束
在一些任務章節里,研究人員也說明了評測工程細節:由于模型以API方式調用且閉源,無法做任務定制訓練;并且生成輸出分辨率可能固定在約1024尺度,因此需要將輸出resize回與GT一致的分辨率再計算指標,以保證定量比較盡量公平。
視覺「更好看」
但指標「更差」
報告最重要的結論可以概括為一句話:
Nano Banana Pro在主觀視覺質量上往往更討好,但在PSNR/SSIM等傳統參考指標上整體落后于專用模型。
研究人員將其歸因于生成式模型的內在屬性:生成式模型更傾向于追求「語義可信/感知合理」,而非嚴格的像素級對齊;同時模型輸出帶有隨機性(stochasticity),使得穩定性與可復現性也成為部署障礙。
系統性現象:感知質量與指標不一致
以Flare Removal為例,研究人員觀察到一種非常典型的現象:有些樣本視覺上已經「挺干凈、挺舒服」,但因為亮度/顏色等與GT存在偏差,量化分數依然不高,這反映了像素級指標對生成式增強的懲罰機制。
![]()
同時,研究人員也指出生成模型存在「高上限、低下限」的特征:在合適輸入上,它可能在細節恢復上超過 SOTA,但這種優勢會被擴散/生成模型的隨機性與語義漂移所抵消,出現明顯方差與語義幻覺,prompt 工程也只能部分緩解,難以保證工業級確定性。
穩健但不極致:生成式模型有時會選擇更保守的輸出
在低光增強(Low-Light Enhancement)的分析中,研究人員給出另一個視角:
Nano Banana Pro可能不太會引入顯著的光暈、結構破壞、嚴重色偏等「災難性偽影」,這使得它在某些實際應用中具備吸引力;
但它也會出現亮度控制不一致、對prompt敏感、以及與benchmark的GT定義不完全匹配等問題,因此整體仍難以與專用方法競爭。
![]()
更進一步,報告還給出可能的改進方向:更具體的prompt設計、few-shot示例對齊、輕量適配/微調、以及把統一多模態模型與任務模塊結合的混合范式。
報告貢獻與意義:它不只是在「打分」,而是在推動重新定義評測與目標
這份報告的價值不止在于給Nano Banana Pro下結論,更在于它把一個長期存在但常被忽略的問題擺到臺面上:
當生成式模型進入低層視覺后,「像素一致性」是否仍是唯一目標?
傳統指標是否在系統性地誤導我們對生成式恢復/增強的判斷?
是否需要能同時刻畫「感知質量 + 結構/語義穩定性 + 像素保真」的新評測范式?
報告明確指出:Nano Banana Pro作為零樣本低層視覺求解器,已經是一個很強的 baseline,并展示出跨任務的「泛化潛力」;但要達到專用模型那種高保真、可控、穩定的水準仍有明顯鴻溝。
參考資料:
https://arxiv.org/abs/2512.15110
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.