網易首頁 > 網易號 > 正文申請入駐

密歇根大學NEPA：預測游戲賦予AI類人視覺理解力

2025-12-22 21:24:14　來源: 科技行者

北京舉報

分享至

這項由密歇根大學的徐思翰、馬子喬，紐約大學的謝賽寧、于星，以及普林斯頓大學的柴文浩、弗吉尼亞大學的陳緒威、金偉陽等研究者合作完成的研究，發表于2025年12月的arXiv預印本平臺（論文編號：arXiv:2512.16922v1）。有興趣深入了解技術細節的讀者可以通過這個編號查詢完整論文。

過去幾年里，人工智能在理解圖片方面取得了驚人進步，但這種進步往往依賴復雜的訓練方法。研究團隊突然意識到一個問題：為什么不能像人類學語言那樣，讓機器通過簡單的"預測下一個"游戲來學會看懂圖片呢？這個看似簡單的想法，卻帶來了一場視覺人工智能領域的革命。

當我們看一張圖片時，大腦會自然地從一個區域移動到另一個區域，預測接下來會看到什么內容。研究團隊受到這種認知過程的啟發，開發了一種名為NEPA（Next-Embedding Predictive Autoregression，下一嵌入預測自回歸）的技術。這個技術的核心思想就像教孩子認字一樣簡單：給機器看圖片的一部分，讓它猜測下一部分會是什么樣子。

整個過程可以比作拼圖游戲。當你拿到一盒拼圖時，通常會先找邊緣部分，然后根據已經拼好的部分來預測下一塊應該放在哪里。NEPA技術也是這樣工作的：它把一張完整的圖片切割成許多小塊，就像把拼圖分成若干片段，然后讓機器按順序觀察這些片段，每看到一片就預測下一片應該是什么樣子。

這種方法的巧妙之處在于，機器不需要重新構建整張圖片的每個像素點，而是在一種叫做"嵌入空間"的抽象層面進行預測。可以把嵌入空間想象成一個翻譯器，它把復雜的圖像信息轉換成機器更容易理解的數字表示。就像我們在心里描述一張圖片時，會用"藍色的天空"、"綠色的草地"這樣的概念，而不是記住每個像素的確切顏色值。

更令人印象深刻的是，NEPA技術只需要在ImageNet-1K這個包含一百多萬張圖片的數據集上進行訓練，就能達到令人滿意的效果。這就像一個學生只需要看過一百多萬張圖片，就能掌握識別各種物體的能力。相比之下，以往的技術往往需要更復雜的訓練過程，包括對比不同圖片的相似性，或者試圖重建圖片的每個細節。

研究團隊在實驗中發現，使用NEPA技術訓練的機器在ImageNet-1K圖片分類任務上達到了83.8%的準確率（使用ViT-B模型）和85.3%的準確率（使用ViT-L模型）。這個成績與目前最先進的方法相當，但訓練過程卻簡單得多。

為了驗證這種技術的通用性，研究團隊還在語義分割任務上測試了NEPA技術。語義分割就像給圖片中的每個像素貼標簽，比如這個像素屬于"天空"，那個像素屬于"汽車"。在ADE20K這個復雜的場景解析數據集上，NEPA技術同樣表現出色，基礎模型達到了48.3%的平均交并比，大型模型達到了54.0%。

NEPA技術的架構設計也體現出簡約之美。它采用標準的Vision Transformer作為骨干網絡，這是目前最成功的圖像處理架構之一。但與其他方法不同的是，NEPA不需要額外的解碼器或復雜的預測頭，整個系統就像一個精簡的預測引擎。

在訓練過程中，研究團隊采用了一種叫做"停止梯度"的技巧。這就像在學習過程中給答案加上一層保護膜，防止機器偷懶地直接復制答案，而是真正學會預測的能力。同時，他們使用因果掩碼確保機器在預測下一個圖片塊時，只能看到之前的內容，不能偷看后面的部分，這樣才能真正學會預測能力。

研究團隊還在架構中融入了幾個現代化的改進技巧。他們使用了旋轉位置編碼（RoPE）來幫助機器更好地理解圖片中各個部分的空間關系，就像給拼圖的每一塊標注上它在整幅畫中的相對位置。層級縮放（LayerScale）技術則像調節學習的步伐，確保訓練過程穩定進行。SwiGLU激活函數和查詢鍵標準化（QK-Norm）則進一步提升了模型的性能和穩定性。

當機器經過NEPA技術訓練后，研究團隊發現了一個有趣的現象：機器學會了像人類一樣關注圖片中的重要區域。通過分析注意力圖，他們發現機器在預測下一個圖片塊時，會自動將注意力集中在語義相關的區域上。比如，當看到動物的頭部時，機器會自動關注身體的其他部分；當看到建筑物的一角時，會關注建筑的整體結構。

這種行為完全是機器自發學習到的，沒有人為設計。這表明NEPA技術不僅能夠識別圖片，還能理解圖片中對象之間的關系和整體結構。更有趣的是，當研究團隊分析機器預測的嵌入向量時，發現這些向量在相似物體之間表現出高度相似性，在不相關物體之間則差異明顯，這說明機器真正學會了抽象的視覺概念。

從計算效率角度來看，NEPA技術也表現出明顯優勢。傳統的對比學習方法需要在每個訓練步驟中處理大量的正負樣本對，而掩碼重建方法需要復雜的解碼器來重建圖片細節。相比之下，NEPA技術只需要一次前向傳播，不需要額外的解碼器或復雜的采樣策略，這使得整個訓練過程更加高效。

研究團隊還發現，NEPA技術在不同規模的模型上都表現出良好的擴展性。隨著模型參數量的增加和訓練時間的延長，性能持續提升，沒有出現過擬合現象。這種良好的擴展特性意味著，隨著計算資源的增加，NEPA技術有望達到更高的性能水平。

在實際應用中，經過NEPA預訓練的模型可以很容易地適配到各種下游任務。對于圖像分類任務，只需要在模型輸出層添加一個簡單的線性分類器。對于語義分割任務，可以連接標準的UperNet解碼器。這種靈活性使得NEPA技術能夠廣泛應用于各種計算機視覺任務。

值得注意的是，研究團隊在微調階段發現了一個有趣的現象：雖然NEPA是用因果注意力訓練的（即只能看到前面的內容），但在微調時使用雙向注意力（可以看到全部內容）能夠進一步提升性能。這說明自回歸預訓練學到的表示具有很好的泛化能力，能夠適應不同的注意力模式。

當前的研究還揭示了NEPA技術的一些局限性。在線性探測實驗中，NEPA的表現不如一些專門設計的表示學習方法。這是因為NEPA的輸出表示非常接近原始的嵌入層特征，主要的表示能力存儲在預測器部分。這種設計選擇是有意為之的，因為它使得整個系統更加簡潔統一。

研究團隊還分析了一些失敗案例，發現NEPA技術在處理包含復雜反射、陰影和遮擋的場景時仍有改進空間。在多物體重疊的復雜場景中，模型有時會產生不一致的預測。這些問題反映了當前訓練數據集的局限性，也為未來的改進指明了方向。

從更宏觀的角度來看，NEPA技術代表了計算機視覺領域的一個重要轉變。傳統的方法往往專注于學習靜態的視覺表示，而NEPA技術將重點轉向學習預測模型本身。這種范式轉變與自然語言處理領域的發展軌跡相呼應，語言模型的成功正是基于這種生成式預訓練的思想。

這種統一的預訓練范式還暗示著更廣闊的可能性。研究團隊指出，現代大型語言模型越來越多地采用綁定嵌入的設計，即輸入和輸出嵌入矩陣共享參數。這種設計本質上就是在嵌入空間中進行下一個token預測，與NEPA的核心思想完全一致。這意味著，不同模態的數據可能可以在統一的框架下進行訓練，為多模態人工智能的發展開辟了新的道路。

展望未來，NEPA技術還具有向生成式建模擴展的潛力。通過與合適的圖像解碼器或擴散模型結合，同一個自回歸嵌入預測器可以用于圖像生成或編輯任務。這種統一的架構能夠在表示學習和生成建模之間架起橋梁，為構建更加通用的視覺智能系統提供可能。

歸根結底，NEPA技術的成功證明了一個重要觀點：有時候，最簡單的想法往往最有效。通過回歸到最基本的預測原理，研究團隊創造出了一種既簡單又強大的視覺學習方法。這種方法不需要復雜的工程技巧或者精巧的理論設計，只是忠實地模仿了人類視覺認知的基本過程。正如研究團隊在論文中所說，他們提供的不僅僅是一個新算法，更是一種新的視角：自回歸預測的簡潔性，當恰當地應用于視覺領域時，能夠幫助統一不同模態之間的預訓練范式。這種統一性可能是人工智能向更通用智能發展的關鍵一步。

Q&A

Q1：NEPA技術是如何工作的？

A：NEPA技術像拼圖游戲一樣工作，把圖片切成小塊，讓機器按順序觀察這些片段，每看到一片就預測下一片應該是什么樣子。機器不需要重建每個像素，而是在抽象的"嵌入空間"進行預測，就像我們用概念描述圖片而不是記住每個細節。

Q2：NEPA技術比其他圖像識別方法有什么優勢？

A：NEPA最大的優勢是簡單高效。它只需要一次前向傳播，不需要復雜的解碼器或對比學習的負樣本，訓練過程比傳統方法簡單得多。同時它在ImageNet分類上達到了83.8%到85.3%的準確率，與最先進方法相當，但架構更簡潔。

Q3：NEPA技術能應用到哪些實際場景中？

A：NEPA技術可以廣泛應用于各種計算機視覺任務。它已經在圖像分類和語義分割任務上取得優秀表現，未來還可能擴展到圖像生成和編輯領域。由于其簡潔的架構設計，它可以很容易地適配到不同的應用場景中。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.