<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      密歇根大學NEPA:預測游戲賦予AI類人視覺理解力

      0
      分享至


      這項由密歇根大學的徐思翰、馬子喬,紐約大學的謝賽寧、于星,以及普林斯頓大學的柴文浩、弗吉尼亞大學的陳緒威、金偉陽等研究者合作完成的研究,發表于2025年12月的arXiv預印本平臺(論文編號:arXiv:2512.16922v1)。有興趣深入了解技術細節的讀者可以通過這個編號查詢完整論文。

      過去幾年里,人工智能在理解圖片方面取得了驚人進步,但這種進步往往依賴復雜的訓練方法。研究團隊突然意識到一個問題:為什么不能像人類學語言那樣,讓機器通過簡單的"預測下一個"游戲來學會看懂圖片呢?這個看似簡單的想法,卻帶來了一場視覺人工智能領域的革命。

      當我們看一張圖片時,大腦會自然地從一個區域移動到另一個區域,預測接下來會看到什么內容。研究團隊受到這種認知過程的啟發,開發了一種名為NEPA(Next-Embedding Predictive Autoregression,下一嵌入預測自回歸)的技術。這個技術的核心思想就像教孩子認字一樣簡單:給機器看圖片的一部分,讓它猜測下一部分會是什么樣子。

      整個過程可以比作拼圖游戲。當你拿到一盒拼圖時,通常會先找邊緣部分,然后根據已經拼好的部分來預測下一塊應該放在哪里。NEPA技術也是這樣工作的:它把一張完整的圖片切割成許多小塊,就像把拼圖分成若干片段,然后讓機器按順序觀察這些片段,每看到一片就預測下一片應該是什么樣子。

      這種方法的巧妙之處在于,機器不需要重新構建整張圖片的每個像素點,而是在一種叫做"嵌入空間"的抽象層面進行預測。可以把嵌入空間想象成一個翻譯器,它把復雜的圖像信息轉換成機器更容易理解的數字表示。就像我們在心里描述一張圖片時,會用"藍色的天空"、"綠色的草地"這樣的概念,而不是記住每個像素的確切顏色值。

      更令人印象深刻的是,NEPA技術只需要在ImageNet-1K這個包含一百多萬張圖片的數據集上進行訓練,就能達到令人滿意的效果。這就像一個學生只需要看過一百多萬張圖片,就能掌握識別各種物體的能力。相比之下,以往的技術往往需要更復雜的訓練過程,包括對比不同圖片的相似性,或者試圖重建圖片的每個細節。

      研究團隊在實驗中發現,使用NEPA技術訓練的機器在ImageNet-1K圖片分類任務上達到了83.8%的準確率(使用ViT-B模型)和85.3%的準確率(使用ViT-L模型)。這個成績與目前最先進的方法相當,但訓練過程卻簡單得多。

      為了驗證這種技術的通用性,研究團隊還在語義分割任務上測試了NEPA技術。語義分割就像給圖片中的每個像素貼標簽,比如這個像素屬于"天空",那個像素屬于"汽車"。在ADE20K這個復雜的場景解析數據集上,NEPA技術同樣表現出色,基礎模型達到了48.3%的平均交并比,大型模型達到了54.0%。

      NEPA技術的架構設計也體現出簡約之美。它采用標準的Vision Transformer作為骨干網絡,這是目前最成功的圖像處理架構之一。但與其他方法不同的是,NEPA不需要額外的解碼器或復雜的預測頭,整個系統就像一個精簡的預測引擎。

      在訓練過程中,研究團隊采用了一種叫做"停止梯度"的技巧。這就像在學習過程中給答案加上一層保護膜,防止機器偷懶地直接復制答案,而是真正學會預測的能力。同時,他們使用因果掩碼確保機器在預測下一個圖片塊時,只能看到之前的內容,不能偷看后面的部分,這樣才能真正學會預測能力。

      研究團隊還在架構中融入了幾個現代化的改進技巧。他們使用了旋轉位置編碼(RoPE)來幫助機器更好地理解圖片中各個部分的空間關系,就像給拼圖的每一塊標注上它在整幅畫中的相對位置。層級縮放(LayerScale)技術則像調節學習的步伐,確保訓練過程穩定進行。SwiGLU激活函數和查詢鍵標準化(QK-Norm)則進一步提升了模型的性能和穩定性。

      當機器經過NEPA技術訓練后,研究團隊發現了一個有趣的現象:機器學會了像人類一樣關注圖片中的重要區域。通過分析注意力圖,他們發現機器在預測下一個圖片塊時,會自動將注意力集中在語義相關的區域上。比如,當看到動物的頭部時,機器會自動關注身體的其他部分;當看到建筑物的一角時,會關注建筑的整體結構。

      這種行為完全是機器自發學習到的,沒有人為設計。這表明NEPA技術不僅能夠識別圖片,還能理解圖片中對象之間的關系和整體結構。更有趣的是,當研究團隊分析機器預測的嵌入向量時,發現這些向量在相似物體之間表現出高度相似性,在不相關物體之間則差異明顯,這說明機器真正學會了抽象的視覺概念。

      從計算效率角度來看,NEPA技術也表現出明顯優勢。傳統的對比學習方法需要在每個訓練步驟中處理大量的正負樣本對,而掩碼重建方法需要復雜的解碼器來重建圖片細節。相比之下,NEPA技術只需要一次前向傳播,不需要額外的解碼器或復雜的采樣策略,這使得整個訓練過程更加高效。

      研究團隊還發現,NEPA技術在不同規模的模型上都表現出良好的擴展性。隨著模型參數量的增加和訓練時間的延長,性能持續提升,沒有出現過擬合現象。這種良好的擴展特性意味著,隨著計算資源的增加,NEPA技術有望達到更高的性能水平。

      在實際應用中,經過NEPA預訓練的模型可以很容易地適配到各種下游任務。對于圖像分類任務,只需要在模型輸出層添加一個簡單的線性分類器。對于語義分割任務,可以連接標準的UperNet解碼器。這種靈活性使得NEPA技術能夠廣泛應用于各種計算機視覺任務。

      值得注意的是,研究團隊在微調階段發現了一個有趣的現象:雖然NEPA是用因果注意力訓練的(即只能看到前面的內容),但在微調時使用雙向注意力(可以看到全部內容)能夠進一步提升性能。這說明自回歸預訓練學到的表示具有很好的泛化能力,能夠適應不同的注意力模式。

      當前的研究還揭示了NEPA技術的一些局限性。在線性探測實驗中,NEPA的表現不如一些專門設計的表示學習方法。這是因為NEPA的輸出表示非常接近原始的嵌入層特征,主要的表示能力存儲在預測器部分。這種設計選擇是有意為之的,因為它使得整個系統更加簡潔統一。

      研究團隊還分析了一些失敗案例,發現NEPA技術在處理包含復雜反射、陰影和遮擋的場景時仍有改進空間。在多物體重疊的復雜場景中,模型有時會產生不一致的預測。這些問題反映了當前訓練數據集的局限性,也為未來的改進指明了方向。

      從更宏觀的角度來看,NEPA技術代表了計算機視覺領域的一個重要轉變。傳統的方法往往專注于學習靜態的視覺表示,而NEPA技術將重點轉向學習預測模型本身。這種范式轉變與自然語言處理領域的發展軌跡相呼應,語言模型的成功正是基于這種生成式預訓練的思想。

      這種統一的預訓練范式還暗示著更廣闊的可能性。研究團隊指出,現代大型語言模型越來越多地采用綁定嵌入的設計,即輸入和輸出嵌入矩陣共享參數。這種設計本質上就是在嵌入空間中進行下一個token預測,與NEPA的核心思想完全一致。這意味著,不同模態的數據可能可以在統一的框架下進行訓練,為多模態人工智能的發展開辟了新的道路。

      展望未來,NEPA技術還具有向生成式建模擴展的潛力。通過與合適的圖像解碼器或擴散模型結合,同一個自回歸嵌入預測器可以用于圖像生成或編輯任務。這種統一的架構能夠在表示學習和生成建模之間架起橋梁,為構建更加通用的視覺智能系統提供可能。

      歸根結底,NEPA技術的成功證明了一個重要觀點:有時候,最簡單的想法往往最有效。通過回歸到最基本的預測原理,研究團隊創造出了一種既簡單又強大的視覺學習方法。這種方法不需要復雜的工程技巧或者精巧的理論設計,只是忠實地模仿了人類視覺認知的基本過程。正如研究團隊在論文中所說,他們提供的不僅僅是一個新算法,更是一種新的視角:自回歸預測的簡潔性,當恰當地應用于視覺領域時,能夠幫助統一不同模態之間的預訓練范式。這種統一性可能是人工智能向更通用智能發展的關鍵一步。

      Q&A

      Q1:NEPA技術是如何工作的?

      A:NEPA技術像拼圖游戲一樣工作,把圖片切成小塊,讓機器按順序觀察這些片段,每看到一片就預測下一片應該是什么樣子。機器不需要重建每個像素,而是在抽象的"嵌入空間"進行預測,就像我們用概念描述圖片而不是記住每個細節。

      Q2:NEPA技術比其他圖像識別方法有什么優勢?

      A:NEPA最大的優勢是簡單高效。它只需要一次前向傳播,不需要復雜的解碼器或對比學習的負樣本,訓練過程比傳統方法簡單得多。同時它在ImageNet分類上達到了83.8%到85.3%的準確率,與最先進方法相當,但架構更簡潔。

      Q3:NEPA技術能應用到哪些實際場景中?

      A:NEPA技術可以廣泛應用于各種計算機視覺任務。它已經在圖像分類和語義分割任務上取得優秀表現,未來還可能擴展到圖像生成和編輯領域。由于其簡潔的架構設計,它可以很容易地適配到不同的應用場景中。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馮忠華看望高祀仁、黃華華、朱小丹、林樹森、張廣寧等老同志

      馮忠華看望高祀仁、黃華華、朱小丹、林樹森、張廣寧等老同志

      新京報政事兒
      2025-12-27 21:39:39
      俄羅斯戰略專家:只有日本知道,中國綜合國力強大到了什么程度

      俄羅斯戰略專家:只有日本知道,中國綜合國力強大到了什么程度

      農夫史記
      2025-12-27 20:04:36
      重要決策,記者:快船正權衡在交易截止日前進行拆隊還是引援

      重要決策,記者:快船正權衡在交易截止日前進行拆隊還是引援

      懂球帝
      2025-12-27 13:49:28
      7歲女兒交給老師畫的第一張全家福,畫里爸爸沒有臉,老師果斷報警

      7歲女兒交給老師畫的第一張全家福,畫里爸爸沒有臉,老師果斷報警

      罪案洞察者
      2025-12-02 11:25:59
      一邊喊中國“真朋友”,一邊抱特朗普大腿,普京盟友翻臉比翻書快

      一邊喊中國“真朋友”,一邊抱特朗普大腿,普京盟友翻臉比翻書快

      胡麒牧博士
      2025-12-27 20:10:13
      濟南地鐵三線齊發,市委書記等領導與市民代表共乘地鐵調研

      濟南地鐵三線齊發,市委書記等領導與市民代表共乘地鐵調研

      澎湃新聞
      2025-12-27 20:28:27
      黃正問父親黃永勝:誰是你最好的上級?他說了三個名字沒有林彪

      黃正問父親黃永勝:誰是你最好的上級?他說了三個名字沒有林彪

      冰雅憶史
      2025-12-26 10:18:01
      斯普利特談楊瀚森:需要保持耐心,我清楚整個中國都在關注他

      斯普利特談楊瀚森:需要保持耐心,我清楚整個中國都在關注他

      懂球帝
      2025-12-27 15:39:03
      40歲拒絕過戶學區房給侄子,丈夫大罵,看到一張紙條他閉嘴了

      40歲拒絕過戶學區房給侄子,丈夫大罵,看到一張紙條他閉嘴了

      木子言故事
      2025-12-27 10:08:18
      回頭看10年前南博的龐萊臣名畫展,格外諷刺

      回頭看10年前南博的龐萊臣名畫展,格外諷刺

      亮見
      2025-12-25 15:05:31
      房山的房價,徹底瘋了!

      房山的房價,徹底瘋了!

      童童聊娛樂啊
      2025-12-27 15:06:16
      A股:剛剛,中央兩部門發布,信號很明確,下周將迎更大級別變盤

      A股:剛剛,中央兩部門發布,信號很明確,下周將迎更大級別變盤

      阿纂看事
      2025-12-27 17:14:43
      勇士隊已詢價小波特!美媒曬5換2交易方案:打包賣庫明加+首輪簽

      勇士隊已詢價小波特!美媒曬5換2交易方案:打包賣庫明加+首輪簽

      鍋子籃球
      2025-12-27 14:47:17
      廣東宏遠沖擊7連勝!全力擊敗山西,胡明軒復出,央視直播

      廣東宏遠沖擊7連勝!全力擊敗山西,胡明軒復出,央視直播

      體壇瞎白話
      2025-12-27 17:00:13
      年營收300萬,28個員工,最后利潤8萬塊:這就是最真實小老板!

      年營收300萬,28個員工,最后利潤8萬塊:這就是最真實小老板!

      熊林老師
      2025-11-17 18:00:03
      1976年毛主席逝世后,派誰空降上海?葉劍英擲地有聲:我提議一人

      1976年毛主席逝世后,派誰空降上海?葉劍英擲地有聲:我提議一人

      春秋硯
      2025-12-20 08:55:09
      Shams:湖人后衛里夫斯左腿腓腸肌二級拉傷,將在四周后復查

      Shams:湖人后衛里夫斯左腿腓腸肌二級拉傷,將在四周后復查

      懂球帝
      2025-12-27 10:26:34
      超級大冷,王欣瑜6-2、6-3橫掃世界第2,第5次擊敗前10,笑容超美

      超級大冷,王欣瑜6-2、6-3橫掃世界第2,第5次擊敗前10,笑容超美

      郝小小看體育
      2025-12-27 13:30:30
      全球第一,清華高考狀元要IPO

      全球第一,清華高考狀元要IPO

      投資家
      2025-12-27 21:20:58
      哭窮炫富,“知三當三”,裝了10年的吉克雋逸,還是“自食惡果”

      哭窮炫富,“知三當三”,裝了10年的吉克雋逸,還是“自食惡果”

      顧史
      2025-12-12 14:59:24
      2025-12-27 22:20:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      6680文章數 544關注度
      往期回顧 全部

      科技要聞

      小米也漲價了!業界稱終端再不漲明年必虧

      頭條要聞

      美媒:特朗普顯然觸及了中國的紅線 中方怒了

      頭條要聞

      美媒:特朗普顯然觸及了中國的紅線 中方怒了

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      張昊唯逃稅涉黃風波落幕:法院認定朋友造謠

      財經要聞

      注意,開始拉物價了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態度原創

      旅游
      親子
      游戲
      房產
      公開課

      旅游要聞

      喜迎2026跨年樂享會:文旅康養共生 奏響時代華章

      親子要聞

      寶藍爸爸扮演“廚師”開了一家披薩店,太好玩了,快來看看吧!

      PS5玩家注意!這個設置將改善成千上萬款游戲的體驗

      房產要聞

      年銷20億+!中交·藍色港灣用好房子致敬好生活

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文成人无码| 亚洲人妻系列无码专区| 亚洲一区二区三区av在线观看| AV色色色| 开平市| 日韩精品人妻中文字幕有码| 风韵丰满熟妇啪啪区老老熟妇| 国内精品美女a∨在线播放| 渝中区| 3p视频在线| 东京热无码国产精品| 业余 自由 性别 成熟偷窥| 欧洲精品免费一区二区三区| 未满十八18禁止免费无码网站| 人妻中文在线| 欧美三级中文字幕在线观看| 亚洲人成网网址在线看| 国产69精品久久久久人妻刘玥| 都安| 一区二区三区久久| 激情综合网五月婷婷| 在线播放无码高潮的视频| 人妻少妇无码精品| 男同色色| 亚洲香蕉av一区二区蜜桃| 99在线国内在线视频22| 国产香蕉九九久久精品免费| 欧美 日韩 国产 成人 在线观看| 性一交一乱一乱一视频| 东京热无码av| 伊人88| 武隆县| 91成人社区| 又粗又大AV| 久久婷婷大香萑太香蕉AV人| 国产成人无码A区在线观| 玩弄放荡人妻少妇系列视频| 亚洲国产精品ⅴa在线观看| 色爱无码综合网| 亚州脚交| 久久国产精品老人性|