<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      預測下一個像素還需要幾年?谷歌:五年夠了

      0
      分享至



      機器之心報道

      機器之心編輯部

      既然語言可以當序列來學,那圖像能不能也當序列來學?

      通過將圖像表示為像素序列,先前的研究表明通過下一像素預測,可以以一種簡單、端到端的方式同時學習視覺識別與生成。

      從概念上講,下一像素預測非常容易擴展,因為它是無監(jiān)督學習:無需任何人工標注。同時,將圖像表示為像素序列,也對圖像結構施加了最少的歸納偏置。

      然而,盡管像素級端到端建模在早期被證明是可行的,但這一范式近年來卻不再流行。

      其主要原因在于出現(xiàn)了計算效率更高的方法,例如:使用視覺 tokenizer 進行 patch 級別學習。

      盡管研究重心已經(jīng)發(fā)生轉移,但一個簡單卻極其關鍵的問題仍未被回答:我們距離真正大規(guī)模擴展下一像素預測,還有多遠?

      不可否認,相比自然語言中的下一詞預測,下一像素預測要困難得多,主要有以下幾點原因:

      • 首先,像素的語義信息極低。一個句子里的詞通常包含豐富含義,而一個像素只是一點顏色信息,兩者差距巨大。
      • 其次,像素之間的空間關系非常復雜,不容易用序列方式來表示。一個像素的顏色不僅受到周圍鄰域像素的影響,還受到圖像中那些與它不相鄰的物體和結構的影響。
      • 第三,隨著圖像分辨率升高,下一像素預測的計算量會急劇增加。例如,要生成一張 128 × 128 的圖片,一個自回歸模型必須逐個預測 16,384 個像素,一步都不能少。

      在這篇論文中,來自 Google DeepMind 的研究者分析了下一像素預測在圖像識別與圖像生成兩類任務中的擴展特性(scaling properties)。

      本文首先在固定的 32×32 像素分辨率下開展研究,在這一分辨率下,圖像已開始呈現(xiàn)清晰的結構與可辨識的物體交互,因此可被視為對原生高分辨率圖像的一種有意義的近似。

      實驗基于下一像素預測損失進行了初始 scaling 實驗。如圖 1 (a) 所示,結果表明:相較于文本 token,原始像素的學習需要顯著更高(10–20 倍)的最優(yōu) token-parameter 比例。更具體地,要實現(xiàn)計算最優(yōu)平衡,像素模型所需的 token-per-parameter 至少比語言模型高一個數(shù)量級(約 400 vs. 20)。

      這一初步發(fā)現(xiàn)促使研究者進一步深入三個核心問題。第一,我們?nèi)绾慰煽康卦u估這些模型的性能,尤其是在較低分辨率下(低分辨率便于開展大量實驗)?第二,基于下一像素預測損失得出的 scaling 規(guī)律,是否與更有意義的下游任務(如分類與圖像補全)的 scaling 行為一致?第三,不同圖像分辨率下的 scaling 趨勢會如何變化?

      為回答這些問題,本文圍繞三類指標進行了系列可控實驗。

      在固定的 32×32 分辨率下,實驗結果(見圖 1 (b))顯示:最優(yōu)的 scaling 策略高度依賴目標任務,其中圖像生成質(zhì)量需要比分類任務或下一像素預測任務更大的 token-parameter 比例。此外,這些 scaling 動態(tài)并非靜態(tài)不變;對 16×16 與 64×64 等不同分辨率的研究顯示:隨著分辨率提升,模型規(guī)模的增長必須顯著快于數(shù)據(jù)規(guī)模的增長。

      最后,鑒于訓練算力正以每年四到五倍的速度增長,本文預測逐像素建模方式在未來五年內(nèi)將變得可行。



      • 論文標題:Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?
      • 論文地址:https://arxiv.org/pdf/2511.08704

      方法介紹

      本文從 32×32 分辨率的圖像出發(fā),在多種 IsoFlops(等算力)配置下訓練了一系列 Transformer 模型,最大計算量達到 7e19 FLOPs,并從三個不同指標對其性能進行評估:下一像素預測目標、ImageNet 分類準確率以及以 Fréchet Distance 衡量的生成質(zhì)量。結果發(fā)現(xiàn):

      • 首先,最佳擴展策略強烈依賴任務類型:即使在固定的 32×32 分辨率下,分類任務與生成任務的最優(yōu) scaling 需求也完全不同,其中生成任務要達到最優(yōu)效果所需的數(shù)據(jù)規(guī)模增長速度是分類任務的三到五倍。
      • 其次,隨著圖像分辨率的提升,最優(yōu) scaling 策略顯示模型規(guī)模必須比數(shù)據(jù)規(guī)模增長得更快。更令人意外的是,根據(jù)趨勢外推,像素級模型的主要瓶頸并不是訓練數(shù)據(jù),而是計算量。

      本文采用 Transformer 架構進行研究,共四種規(guī)模,參數(shù)從 2800 萬到 4.49 億不等。Transformer 架構的詳細信息列在表 1 中。



      本文在 JFT-300M 數(shù)據(jù)集上進行預訓練,該數(shù)據(jù)集包含 3 億張多樣化圖像,規(guī)模是 ImageNet ILSVRC 2012 訓練集的 10 倍以上。在分辨率為 32×32 的條件下,對數(shù)據(jù)集完整遍歷一遍相當于處理超過 3000 億個像素。訓練過程采用標準的 Inception 風格隨機裁剪,并以 50% 概率進行水平翻轉。

      在評估上,本文進行了兩種評估方式,即圖像分類和圖像補全。

      實驗及結果

      像素是否遵循與文本相同的規(guī)律?

      答案是肯定的:對原始像素預測的擴展趨勢與文本類似、可預測,但效率要低得多。由于單個像素所攜帶的語義信息遠少于語言 token,本文估計模型在學習原始像素時,需要比語言模型多 10–20 倍的 token-per-parameter 才能達到有效學習。



      本文進一步計算了在不同訓練 FLOPs 下的最優(yōu) token-per-parameter 比例,并與典型語言模型進行比較。如圖 1 (a) 所示,即便在超過 10^21 FLOPs 的訓練預算下,學習原始像素仍然需要比語言 token 多 10–20 倍的數(shù)據(jù)量。

      這表明,即便在低分辨率 32×32 圖像中,單個像素的語義信息密度仍遠低于語言 token,后者本身就是一種壓縮且意義集中的信息單位。例如,cat 這個詞是高度壓縮的符號,攜帶著大量抽象信息:它是一種動物,有毛,會喵叫,有胡須。而單個像素本身幾乎不包含語義,因為它的顏色值可能同時對應貓、汽車或天空的一部分。



      總的來說,實驗結果顯示,下一像素預測的最優(yōu)擴展趨勢的確可以通過語言模型中已成熟的 scaling 框架進行預測。

      最優(yōu) scaling 是否能直接遷移到下游任務?

      答案是不行,至少不是以一種簡單方式。在固定的 32×32 分辨率下,由下一像素預測損失得到的最優(yōu)擴展策略對圖像生成來說并非最優(yōu)。具體而言,要獲得良好的生成質(zhì)量,需要一種更加數(shù)據(jù)驅(qū)動的 scaling 方式,即數(shù)據(jù)規(guī)模的增長速度必須明顯快于模型規(guī)模的增長速度。

      不同任務的最優(yōu) scaling 存在顯著差異。如圖 1 (b) 所示,基于獨立 IsoFlops 配置得到的最優(yōu) token-to-parameter 比例在下一像素預測損失、ImageNet 分類 top-1 準確率以及基于圖像補全的 Fréchet Distance 之間存在明顯差別。

      隨著圖像分辨率提升,最優(yōu) scaling 會改變嗎?

      答案是會的。隨著圖像分辨率的提高,最優(yōu)擴展策略從在 32×32 分辨率下對模型規(guī)模與數(shù)據(jù)規(guī)模的平衡,轉變?yōu)樵诟叻直媛氏旅黠@偏向更大的模型,而非更多的數(shù)據(jù)。

      圖像分類 vs. 圖像生成。正如圖 4 (a) 和圖 4 (c) 所一致展示的,在更高分辨率下訓練模型能夠提升下游任務表現(xiàn)。

      對于圖像分類,從 16×16 切換到 32×32 時能夠帶來明顯提升,但在 FLOPs 超過 1e20 的情況下,從 32×32 增加到 64×64 僅帶來輕微改進。這表明:對于 ImageNet 分類任務,在 32×32 之后,進一步提升分辨率的收益趨于減弱。

      相比之下,對于圖像生成,32×32 附近的 scaling 趨勢并未飽和,將分辨率從 32×32 提升至 64×64 能帶來顯著改進。直觀來看,分辨率提高后,單像素的信息密度下降,但像素之間的視覺結構變得更復雜、更真實。抽象語義在低分辨率即可有效捕獲,而細粒度紋理則需要更高分辨率。



      我們距離原始下一像素預測還有多遠?

      目前由于巨大的計算成本而難以實際執(zhí)行,但逐像素建模在未來五年內(nèi)仍是一條可行路徑,并能達到具有競爭力的性能。其主要瓶頸是計算量,而不是訓練數(shù)據(jù)的可獲得性。本文預計在未來五年內(nèi),基于原始像素的學習將成為一條可行的發(fā)展方向。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      分手29年后,肖戰(zhàn)成國乒副總教練,而她嫁給富商,已是大學教授

      分手29年后,肖戰(zhàn)成國乒副總教練,而她嫁給富商,已是大學教授

      做一個合格的吃瓜群眾
      2026-04-06 10:16:48
      皮爾斯建議詹姆斯立即退役:傷病潮已讓湖人崩潰,他為聯(lián)盟付出了一切

      皮爾斯建議詹姆斯立即退役:傷病潮已讓湖人崩潰,他為聯(lián)盟付出了一切

      漫川舟船
      2026-04-07 09:10:30
      不甘心的羅玉鳳,令人敬佩

      不甘心的羅玉鳳,令人敬佩

      廖保平
      2026-03-22 10:49:24
      6連勝也挨罵!烏度卡怒吼申京滾回去,火箭更衣室要炸

      6連勝也挨罵!烏度卡怒吼申京滾回去,火箭更衣室要炸

      阿晞體育
      2026-04-07 14:04:46
      霍爾木茲海峽驚現(xiàn)“隱形”船只,航運量驟增50%!

      霍爾木茲海峽驚現(xiàn)“隱形”船只,航運量驟增50%!

      花小貓的美食日常
      2026-04-07 12:20:55
      英國上將揭露:1997年香港回歸真相,誰敢抗衡中國解放軍?

      英國上將揭露:1997年香港回歸真相,誰敢抗衡中國解放軍?

      老范談史
      2026-03-18 23:51:08
      國內(nèi)某汽車巨頭獲百萬輛海外訂單!

      國內(nèi)某汽車巨頭獲百萬輛海外訂單!

      新浪財經(jīng)
      2026-04-07 04:16:18
      領導上班都在干嘛?網(wǎng)友說:老總搞了個包房經(jīng)理和人事輪流去陪他

      領導上班都在干嘛?網(wǎng)友說:老總搞了個包房經(jīng)理和人事輪流去陪他

      黯泉
      2026-04-05 20:47:13
      不留骨灰,不設墓地,不立碑,59歲王志文對后事的安排讓人深思

      不留骨灰,不設墓地,不立碑,59歲王志文對后事的安排讓人深思

      荒野老五
      2026-04-07 11:59:09
      馬筱梅想在臺北買房原因曝光!心態(tài)失衡,自覺不比具俊曄和S媽差

      馬筱梅想在臺北買房原因曝光!心態(tài)失衡,自覺不比具俊曄和S媽差

      小娛樂悠悠
      2026-04-07 09:20:48
      李在明萬萬沒想到,被判無期的尹錫悅,竟能比當總統(tǒng)還掙得多

      李在明萬萬沒想到,被判無期的尹錫悅,竟能比當總統(tǒng)還掙得多

      青煙小先生
      2026-04-07 14:53:58
      最慘十大本科專業(yè)!70%人畢業(yè)就轉行,別再讓孩子踩坑了!

      最慘十大本科專業(yè)!70%人畢業(yè)就轉行,別再讓孩子踩坑了!

      戶外阿毽
      2026-04-07 12:19:53
      豪擲6000萬歐元!英超雙雄圍剿巴薩,瘋搶19歲足壇天才

      豪擲6000萬歐元!英超雙雄圍剿巴薩,瘋搶19歲足壇天才

      夜白侃球
      2026-04-07 11:04:20
      美國驅(qū)逐伊朗離岸愛國者,戰(zhàn)爭中的小點綴

      美國驅(qū)逐伊朗離岸愛國者,戰(zhàn)爭中的小點綴

      二湘空間
      2026-04-07 12:45:36
      湖南永州發(fā)生一起交通事故,一輛重型半掛牽引車與一輛小車相撞,致3死3傷

      湖南永州發(fā)生一起交通事故,一輛重型半掛牽引車與一輛小車相撞,致3死3傷

      臺州交通廣播
      2026-04-06 17:40:32
      日本餐飲巨頭食其家創(chuàng)始人心梗去世,終年77歲

      日本餐飲巨頭食其家創(chuàng)始人心梗去世,終年77歲

      紅星新聞
      2026-04-07 13:24:07
      蘇州!二手房漲271%!新房漲138%!最新出爐,樓市狂飆...

      蘇州!二手房漲271%!新房漲138%!最新出爐,樓市狂飆...

      華瑤說房
      2026-04-07 12:48:15
      88票對3票!MVP結果定了?約基奇卻被無情羞辱

      88票對3票!MVP結果定了?約基奇卻被無情羞辱

      茅塞盾開本尊
      2026-04-07 14:03:10
      一定要大量讀書:只要你還一直讀書,你就能夠一直理解自己的痛苦

      一定要大量讀書:只要你還一直讀書,你就能夠一直理解自己的痛苦

      欣辰讀書
      2026-04-06 23:06:40
      戲子當?shù)溃茄雵蠊芾碇械囊淮笸袋c

      戲子當?shù)溃茄雵蠊芾碇械囊淮笸袋c

      細說職場
      2026-03-06 20:01:27
      2026-04-07 15:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12700文章數(shù) 142616關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      國家繼續(xù)實施調(diào)控 成品油價格適當調(diào)整

      頭條要聞

      國家繼續(xù)實施調(diào)控 成品油價格適當調(diào)整

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      張藝上浪姐惹爭議 黃景瑜前妻發(fā)文內(nèi)涵

      財經(jīng)要聞

      2026年,全國租房市場還有波降價潮

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態(tài)體驗

      態(tài)度原創(chuàng)

      教育
      游戲
      房產(chǎn)
      數(shù)碼
      手機

      教育要聞

      朝陽這所低調(diào)的老牌重點校,憑什么美出新高度?

      《仁王3》制作人:PC市場已成為開發(fā)團隊戰(zhàn)略核心

      房產(chǎn)要聞

      小陽春全面啟動!現(xiàn)房,才是這波行情里最穩(wěn)的上車票

      數(shù)碼要聞

      榮耀WIN游戲本4月23日發(fā)布,旗艦游戲本新勢力、新可能

      手機要聞

      谷歌Pixel 10等手機3月更新被曝卡死、斷連、無限重啟等問題

      無障礙瀏覽 進入關懷版