![]()
這項由密歇根大學的徐思翰、馬子喬,紐約大學的謝賽寧、于星,以及普林斯頓大學的柴文浩、弗吉尼亞大學的陳緒威、金偉陽等研究者合作完成的研究,發表于2025年12月的arXiv預印本平臺(論文編號:arXiv:2512.16922v1)。有興趣深入了解技術細節的讀者可以通過這個編號查詢完整論文。
過去幾年里,人工智能在理解圖片方面取得了驚人進步,但這種進步往往依賴復雜的訓練方法。研究團隊突然意識到一個問題:為什么不能像人類學語言那樣,讓機器通過簡單的"預測下一個"游戲來學會看懂圖片呢?這個看似簡單的想法,卻帶來了一場視覺人工智能領域的革命。
當我們看一張圖片時,大腦會自然地從一個區域移動到另一個區域,預測接下來會看到什么內容。研究團隊受到這種認知過程的啟發,開發了一種名為NEPA(Next-Embedding Predictive Autoregression,下一嵌入預測自回歸)的技術。這個技術的核心思想就像教孩子認字一樣簡單:給機器看圖片的一部分,讓它猜測下一部分會是什么樣子。
整個過程可以比作拼圖游戲。當你拿到一盒拼圖時,通常會先找邊緣部分,然后根據已經拼好的部分來預測下一塊應該放在哪里。NEPA技術也是這樣工作的:它把一張完整的圖片切割成許多小塊,就像把拼圖分成若干片段,然后讓機器按順序觀察這些片段,每看到一片就預測下一片應該是什么樣子。
這種方法的巧妙之處在于,機器不需要重新構建整張圖片的每個像素點,而是在一種叫做"嵌入空間"的抽象層面進行預測。可以把嵌入空間想象成一個翻譯器,它把復雜的圖像信息轉換成機器更容易理解的數字表示。就像我們在心里描述一張圖片時,會用"藍色的天空"、"綠色的草地"這樣的概念,而不是記住每個像素的確切顏色值。
更令人印象深刻的是,NEPA技術只需要在ImageNet-1K這個包含一百多萬張圖片的數據集上進行訓練,就能達到令人滿意的效果。這就像一個學生只需要看過一百多萬張圖片,就能掌握識別各種物體的能力。相比之下,以往的技術往往需要更復雜的訓練過程,包括對比不同圖片的相似性,或者試圖重建圖片的每個細節。
研究團隊在實驗中發現,使用NEPA技術訓練的機器在ImageNet-1K圖片分類任務上達到了83.8%的準確率(使用ViT-B模型)和85.3%的準確率(使用ViT-L模型)。這個成績與目前最先進的方法相當,但訓練過程卻簡單得多。
為了驗證這種技術的通用性,研究團隊還在語義分割任務上測試了NEPA技術。語義分割就像給圖片中的每個像素貼標簽,比如這個像素屬于"天空",那個像素屬于"汽車"。在ADE20K這個復雜的場景解析數據集上,NEPA技術同樣表現出色,基礎模型達到了48.3%的平均交并比,大型模型達到了54.0%。
NEPA技術的架構設計也體現出簡約之美。它采用標準的Vision Transformer作為骨干網絡,這是目前最成功的圖像處理架構之一。但與其他方法不同的是,NEPA不需要額外的解碼器或復雜的預測頭,整個系統就像一個精簡的預測引擎。
在訓練過程中,研究團隊采用了一種叫做"停止梯度"的技巧。這就像在學習過程中給答案加上一層保護膜,防止機器偷懶地直接復制答案,而是真正學會預測的能力。同時,他們使用因果掩碼確保機器在預測下一個圖片塊時,只能看到之前的內容,不能偷看后面的部分,這樣才能真正學會預測能力。
研究團隊還在架構中融入了幾個現代化的改進技巧。他們使用了旋轉位置編碼(RoPE)來幫助機器更好地理解圖片中各個部分的空間關系,就像給拼圖的每一塊標注上它在整幅畫中的相對位置。層級縮放(LayerScale)技術則像調節學習的步伐,確保訓練過程穩定進行。SwiGLU激活函數和查詢鍵標準化(QK-Norm)則進一步提升了模型的性能和穩定性。
當機器經過NEPA技術訓練后,研究團隊發現了一個有趣的現象:機器學會了像人類一樣關注圖片中的重要區域。通過分析注意力圖,他們發現機器在預測下一個圖片塊時,會自動將注意力集中在語義相關的區域上。比如,當看到動物的頭部時,機器會自動關注身體的其他部分;當看到建筑物的一角時,會關注建筑的整體結構。
這種行為完全是機器自發學習到的,沒有人為設計。這表明NEPA技術不僅能夠識別圖片,還能理解圖片中對象之間的關系和整體結構。更有趣的是,當研究團隊分析機器預測的嵌入向量時,發現這些向量在相似物體之間表現出高度相似性,在不相關物體之間則差異明顯,這說明機器真正學會了抽象的視覺概念。
從計算效率角度來看,NEPA技術也表現出明顯優勢。傳統的對比學習方法需要在每個訓練步驟中處理大量的正負樣本對,而掩碼重建方法需要復雜的解碼器來重建圖片細節。相比之下,NEPA技術只需要一次前向傳播,不需要額外的解碼器或復雜的采樣策略,這使得整個訓練過程更加高效。
研究團隊還發現,NEPA技術在不同規模的模型上都表現出良好的擴展性。隨著模型參數量的增加和訓練時間的延長,性能持續提升,沒有出現過擬合現象。這種良好的擴展特性意味著,隨著計算資源的增加,NEPA技術有望達到更高的性能水平。
在實際應用中,經過NEPA預訓練的模型可以很容易地適配到各種下游任務。對于圖像分類任務,只需要在模型輸出層添加一個簡單的線性分類器。對于語義分割任務,可以連接標準的UperNet解碼器。這種靈活性使得NEPA技術能夠廣泛應用于各種計算機視覺任務。
值得注意的是,研究團隊在微調階段發現了一個有趣的現象:雖然NEPA是用因果注意力訓練的(即只能看到前面的內容),但在微調時使用雙向注意力(可以看到全部內容)能夠進一步提升性能。這說明自回歸預訓練學到的表示具有很好的泛化能力,能夠適應不同的注意力模式。
當前的研究還揭示了NEPA技術的一些局限性。在線性探測實驗中,NEPA的表現不如一些專門設計的表示學習方法。這是因為NEPA的輸出表示非常接近原始的嵌入層特征,主要的表示能力存儲在預測器部分。這種設計選擇是有意為之的,因為它使得整個系統更加簡潔統一。
研究團隊還分析了一些失敗案例,發現NEPA技術在處理包含復雜反射、陰影和遮擋的場景時仍有改進空間。在多物體重疊的復雜場景中,模型有時會產生不一致的預測。這些問題反映了當前訓練數據集的局限性,也為未來的改進指明了方向。
從更宏觀的角度來看,NEPA技術代表了計算機視覺領域的一個重要轉變。傳統的方法往往專注于學習靜態的視覺表示,而NEPA技術將重點轉向學習預測模型本身。這種范式轉變與自然語言處理領域的發展軌跡相呼應,語言模型的成功正是基于這種生成式預訓練的思想。
這種統一的預訓練范式還暗示著更廣闊的可能性。研究團隊指出,現代大型語言模型越來越多地采用綁定嵌入的設計,即輸入和輸出嵌入矩陣共享參數。這種設計本質上就是在嵌入空間中進行下一個token預測,與NEPA的核心思想完全一致。這意味著,不同模態的數據可能可以在統一的框架下進行訓練,為多模態人工智能的發展開辟了新的道路。
展望未來,NEPA技術還具有向生成式建模擴展的潛力。通過與合適的圖像解碼器或擴散模型結合,同一個自回歸嵌入預測器可以用于圖像生成或編輯任務。這種統一的架構能夠在表示學習和生成建模之間架起橋梁,為構建更加通用的視覺智能系統提供可能。
歸根結底,NEPA技術的成功證明了一個重要觀點:有時候,最簡單的想法往往最有效。通過回歸到最基本的預測原理,研究團隊創造出了一種既簡單又強大的視覺學習方法。這種方法不需要復雜的工程技巧或者精巧的理論設計,只是忠實地模仿了人類視覺認知的基本過程。正如研究團隊在論文中所說,他們提供的不僅僅是一個新算法,更是一種新的視角:自回歸預測的簡潔性,當恰當地應用于視覺領域時,能夠幫助統一不同模態之間的預訓練范式。這種統一性可能是人工智能向更通用智能發展的關鍵一步。
Q&A
Q1:NEPA技術是如何工作的?
A:NEPA技術像拼圖游戲一樣工作,把圖片切成小塊,讓機器按順序觀察這些片段,每看到一片就預測下一片應該是什么樣子。機器不需要重建每個像素,而是在抽象的"嵌入空間"進行預測,就像我們用概念描述圖片而不是記住每個細節。
Q2:NEPA技術比其他圖像識別方法有什么優勢?
A:NEPA最大的優勢是簡單高效。它只需要一次前向傳播,不需要復雜的解碼器或對比學習的負樣本,訓練過程比傳統方法簡單得多。同時它在ImageNet分類上達到了83.8%到85.3%的準確率,與最先進方法相當,但架構更簡潔。
Q3:NEPA技術能應用到哪些實際場景中?
A:NEPA技術可以廣泛應用于各種計算機視覺任務。它已經在圖像分類和語義分割任務上取得優秀表現,未來還可能擴展到圖像生成和編輯領域。由于其簡潔的架構設計,它可以很容易地適配到不同的應用場景中。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.