<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      預測下一個像素還需要幾年?谷歌:五年夠了

      0
      分享至



      機器之心報道

      機器之心編輯部

      既然語言可以當序列來學,那圖像能不能也當序列來學?

      通過將圖像表示為像素序列,先前的研究表明通過下一像素預測,可以以一種簡單、端到端的方式同時學習視覺識別與生成。

      從概念上講,下一像素預測非常容易擴展,因為它是無監督學習:無需任何人工標注。同時,將圖像表示為像素序列,也對圖像結構施加了最少的歸納偏置。

      然而,盡管像素級端到端建模在早期被證明是可行的,但這一范式近年來卻不再流行。

      其主要原因在于出現了計算效率更高的方法,例如:使用視覺 tokenizer 進行 patch 級別學習。

      盡管研究重心已經發生轉移,但一個簡單卻極其關鍵的問題仍未被回答:我們距離真正大規模擴展下一像素預測,還有多遠?

      不可否認,相比自然語言中的下一詞預測,下一像素預測要困難得多,主要有以下幾點原因:

      • 首先,像素的語義信息極低。一個句子里的詞通常包含豐富含義,而一個像素只是一點顏色信息,兩者差距巨大。
      • 其次,像素之間的空間關系非常復雜,不容易用序列方式來表示。一個像素的顏色不僅受到周圍鄰域像素的影響,還受到圖像中那些與它不相鄰的物體和結構的影響。
      • 第三,隨著圖像分辨率升高,下一像素預測的計算量會急劇增加。例如,要生成一張 128 × 128 的圖片,一個自回歸模型必須逐個預測 16,384 個像素,一步都不能少。

      在這篇論文中,來自 Google DeepMind 的研究者分析了下一像素預測在圖像識別與圖像生成兩類任務中的擴展特性(scaling properties)。

      本文首先在固定的 32×32 像素分辨率下開展研究,在這一分辨率下,圖像已開始呈現清晰的結構與可辨識的物體交互,因此可被視為對原生高分辨率圖像的一種有意義的近似。

      實驗基于下一像素預測損失進行了初始 scaling 實驗。如圖 1 (a) 所示,結果表明:相較于文本 token,原始像素的學習需要顯著更高(10–20 倍)的最優 token-parameter 比例。更具體地,要實現計算最優平衡,像素模型所需的 token-per-parameter 至少比語言模型高一個數量級(約 400 vs. 20)。

      這一初步發現促使研究者進一步深入三個核心問題。第一,我們如何可靠地評估這些模型的性能,尤其是在較低分辨率下(低分辨率便于開展大量實驗)?第二,基于下一像素預測損失得出的 scaling 規律,是否與更有意義的下游任務(如分類與圖像補全)的 scaling 行為一致?第三,不同圖像分辨率下的 scaling 趨勢會如何變化?

      為回答這些問題,本文圍繞三類指標進行了系列可控實驗。

      在固定的 32×32 分辨率下,實驗結果(見圖 1 (b))顯示:最優的 scaling 策略高度依賴目標任務,其中圖像生成質量需要比分類任務或下一像素預測任務更大的 token-parameter 比例。此外,這些 scaling 動態并非靜態不變;對 16×16 與 64×64 等不同分辨率的研究顯示:隨著分辨率提升,模型規模的增長必須顯著快于數據規模的增長。

      最后,鑒于訓練算力正以每年四到五倍的速度增長,本文預測逐像素建模方式在未來五年內將變得可行。



      • 論文標題:Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?
      • 論文地址:https://arxiv.org/pdf/2511.08704

      方法介紹

      本文從 32×32 分辨率的圖像出發,在多種 IsoFlops(等算力)配置下訓練了一系列 Transformer 模型,最大計算量達到 7e19 FLOPs,并從三個不同指標對其性能進行評估:下一像素預測目標、ImageNet 分類準確率以及以 Fréchet Distance 衡量的生成質量。結果發現:

      • 首先,最佳擴展策略強烈依賴任務類型:即使在固定的 32×32 分辨率下,分類任務與生成任務的最優 scaling 需求也完全不同,其中生成任務要達到最優效果所需的數據規模增長速度是分類任務的三到五倍。
      • 其次,隨著圖像分辨率的提升,最優 scaling 策略顯示模型規模必須比數據規模增長得更快。更令人意外的是,根據趨勢外推,像素級模型的主要瓶頸并不是訓練數據,而是計算量。

      本文采用 Transformer 架構進行研究,共四種規模,參數從 2800 萬到 4.49 億不等。Transformer 架構的詳細信息列在表 1 中。



      本文在 JFT-300M 數據集上進行預訓練,該數據集包含 3 億張多樣化圖像,規模是 ImageNet ILSVRC 2012 訓練集的 10 倍以上。在分辨率為 32×32 的條件下,對數據集完整遍歷一遍相當于處理超過 3000 億個像素。訓練過程采用標準的 Inception 風格隨機裁剪,并以 50% 概率進行水平翻轉。

      在評估上,本文進行了兩種評估方式,即圖像分類和圖像補全。

      實驗及結果

      像素是否遵循與文本相同的規律?

      答案是肯定的:對原始像素預測的擴展趨勢與文本類似、可預測,但效率要低得多。由于單個像素所攜帶的語義信息遠少于語言 token,本文估計模型在學習原始像素時,需要比語言模型多 10–20 倍的 token-per-parameter 才能達到有效學習。



      本文進一步計算了在不同訓練 FLOPs 下的最優 token-per-parameter 比例,并與典型語言模型進行比較。如圖 1 (a) 所示,即便在超過 10^21 FLOPs 的訓練預算下,學習原始像素仍然需要比語言 token 多 10–20 倍的數據量。

      這表明,即便在低分辨率 32×32 圖像中,單個像素的語義信息密度仍遠低于語言 token,后者本身就是一種壓縮且意義集中的信息單位。例如,cat 這個詞是高度壓縮的符號,攜帶著大量抽象信息:它是一種動物,有毛,會喵叫,有胡須。而單個像素本身幾乎不包含語義,因為它的顏色值可能同時對應貓、汽車或天空的一部分。



      總的來說,實驗結果顯示,下一像素預測的最優擴展趨勢的確可以通過語言模型中已成熟的 scaling 框架進行預測。

      最優 scaling 是否能直接遷移到下游任務?

      答案是不行,至少不是以一種簡單方式。在固定的 32×32 分辨率下,由下一像素預測損失得到的最優擴展策略對圖像生成來說并非最優。具體而言,要獲得良好的生成質量,需要一種更加數據驅動的 scaling 方式,即數據規模的增長速度必須明顯快于模型規模的增長速度。

      不同任務的最優 scaling 存在顯著差異。如圖 1 (b) 所示,基于獨立 IsoFlops 配置得到的最優 token-to-parameter 比例在下一像素預測損失、ImageNet 分類 top-1 準確率以及基于圖像補全的 Fréchet Distance 之間存在明顯差別。

      隨著圖像分辨率提升,最優 scaling 會改變嗎?

      答案是會的。隨著圖像分辨率的提高,最優擴展策略從在 32×32 分辨率下對模型規模與數據規模的平衡,轉變為在更高分辨率下明顯偏向更大的模型,而非更多的數據。

      圖像分類 vs. 圖像生成。正如圖 4 (a) 和圖 4 (c) 所一致展示的,在更高分辨率下訓練模型能夠提升下游任務表現。

      對于圖像分類,從 16×16 切換到 32×32 時能夠帶來明顯提升,但在 FLOPs 超過 1e20 的情況下,從 32×32 增加到 64×64 僅帶來輕微改進。這表明:對于 ImageNet 分類任務,在 32×32 之后,進一步提升分辨率的收益趨于減弱。

      相比之下,對于圖像生成,32×32 附近的 scaling 趨勢并未飽和,將分辨率從 32×32 提升至 64×64 能帶來顯著改進。直觀來看,分辨率提高后,單像素的信息密度下降,但像素之間的視覺結構變得更復雜、更真實。抽象語義在低分辨率即可有效捕獲,而細粒度紋理則需要更高分辨率。



      我們距離原始下一像素預測還有多遠?

      目前由于巨大的計算成本而難以實際執行,但逐像素建模在未來五年內仍是一條可行路徑,并能達到具有競爭力的性能。其主要瓶頸是計算量,而不是訓練數據的可獲得性。本文預計在未來五年內,基于原始像素的學習將成為一條可行的發展方向。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      4-0!中國隊罕見大勝,全場壓著打,首次出線有戲,劍指亞洲杯8強

      4-0!中國隊罕見大勝,全場壓著打,首次出線有戲,劍指亞洲杯8強

      侃球熊弟
      2025-12-17 19:48:44
      這可能是2026年A股最大的利好!

      這可能是2026年A股最大的利好!

      小白讀財經
      2025-12-17 16:40:51
      撿到寶了!泰國上將:中國沒要求歸還導彈,將反打柬埔寨59D坦克

      撿到寶了!泰國上將:中國沒要求歸還導彈,將反打柬埔寨59D坦克

      南宮一二
      2025-12-17 07:22:32
      30歲健美運動員王昆心源性猝死 好友稱其出事前感染了流感,生病期間仍做高強度訓練

      30歲健美運動員王昆心源性猝死 好友稱其出事前感染了流感,生病期間仍做高強度訓練

      紅星新聞
      2025-12-17 17:53:46
      泰國打的不是柬埔寨,是臉

      泰國打的不是柬埔寨,是臉

      求實處
      2025-12-16 23:00:43
      一個巨大的半導體泡沫!寒武紀,摩爾線程,沐曦營收70億,市值1.2萬億

      一個巨大的半導體泡沫!寒武紀,摩爾線程,沐曦營收70億,市值1.2萬億

      爆角追蹤
      2025-12-17 19:24:09
      “汪蘇瀧隱婚生子”沖上熱搜,回應來了

      “汪蘇瀧隱婚生子”沖上熱搜,回應來了

      大風新聞
      2025-12-17 15:50:05
      球迷在評論區問戴琳賬還完了嗎?戴琳回復:你老婆給我還完了

      球迷在評論區問戴琳賬還完了嗎?戴琳回復:你老婆給我還完了

      懂球帝
      2025-12-17 12:50:29
      掃地機器人鼻祖宣布破產

      掃地機器人鼻祖宣布破產

      臺州交通廣播
      2025-12-16 20:24:44
      賣房時宣傳樓下有“百畝公園”,收房后“公園”變一條草地?住建局:置業顧問口頭宣傳,個人行為

      賣房時宣傳樓下有“百畝公園”,收房后“公園”變一條草地?住建局:置業顧問口頭宣傳,個人行為

      大風新聞
      2025-12-17 20:42:04
      游客稱天津一公園有鴨子被凍在冰面上,景區:是野鴨,去救時它能走動,每年都有被凍住的情況

      游客稱天津一公園有鴨子被凍在冰面上,景區:是野鴨,去救時它能走動,每年都有被凍住的情況

      極目新聞
      2025-12-17 11:25:52
      上海46歲單身女猝死,有錢不能花:骨灰海葬,幾百萬存款全充公

      上海46歲單身女猝死,有錢不能花:骨灰海葬,幾百萬存款全充公

      恪守原則和底線
      2025-12-16 17:01:55
      “骯臟的中國人”罵聲中20歲小伙被打進醫院,西西里發生仇恨襲擊

      “骯臟的中國人”罵聲中20歲小伙被打進醫院,西西里發生仇恨襲擊

      意大利華人網0039
      2025-12-17 00:12:41
      14億獎金!卡車司機領70萬,團隊當場哭成一片,霉霉這波操作太瘋

      14億獎金!卡車司機領70萬,團隊當場哭成一片,霉霉這波操作太瘋

      凡知
      2025-12-15 18:43:28
      獨居者死后財產“收歸國有”:民政部門應依法澄清誤會丨中聽

      獨居者死后財產“收歸國有”:民政部門應依法澄清誤會丨中聽

      大象新聞
      2025-12-17 12:41:03
      寧波這回鬧大了!外賣平臺本想給商家立規矩,結果把大家逼急了!

      寧波這回鬧大了!外賣平臺本想給商家立規矩,結果把大家逼急了!

      青青子衿
      2025-12-17 04:58:18
      太慘了!杭州小米汽車銷售病歷詳情流出,120到場已呼吸心跳驟停

      太慘了!杭州小米汽車銷售病歷詳情流出,120到場已呼吸心跳驟停

      火山詩話
      2025-12-17 14:09:12
      不是迷信!明日十月二十九,記得:1不去、2不做、3不問、4要吃!

      不是迷信!明日十月二十九,記得:1不去、2不做、3不問、4要吃!

      阿龍美食記
      2025-12-17 04:08:25
      陳慧琳演唱會穿三角褲衩,五十多了合適嗎?人老心不老

      陳慧琳演唱會穿三角褲衩,五十多了合適嗎?人老心不老

      蕾爸退休日記
      2025-12-16 22:37:37
      攜程簽約柬埔寨引發注銷潮,網傳洪森威脅“相關國家”要公布電詐園區股東名單

      攜程簽約柬埔寨引發注銷潮,網傳洪森威脅“相關國家”要公布電詐園區股東名單

      普通人ThePeople
      2025-12-17 13:51:44
      2025-12-17 21:08:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11943文章數 142512關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      美方威脅歐盟:點名了 別逼我動手

      頭條要聞

      美方威脅歐盟:點名了 別逼我動手

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      健康
      數碼
      親子
      游戲
      公開課

      這些新療法,讓化療不再那么痛苦

      數碼要聞

      公牛靈犀智能開關發布:藍牙Mesh 2.0,支持米家App、小愛控制

      親子要聞

      想讓孩子猛長個,家長一定要多給孩子吃這5道長高菜

      獵魂世界:少女比比東技能信息匯總!第七大中毒流派正式降臨!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日产精品一区二区| 偷自在线| 亚洲一区二区三区在线| 亚洲精品成人无| 大香焦一区二区三区| 国产精品麻豆成人av电影艾秋| 国产日产欧美最新| 久久精品www人人爽人人| 欧洲性开放老太大| 亚洲人妻网| 婷婷综合五月| 国产性狂乱视频| 亚洲 欧美 综合 在线 精品| 天天综合天天做天天综合| 亚洲熟妇久久国产精品| 人妻系列中文字幕精品| 无玛视频| 激情无码人妻又粗又大| 久久天天躁狠狠躁夜夜婷| 久草综合视频| 人人看成人在线| 衢州市| 国产xxxx做受视频| 亚洲三级无码| jizzjizz亚洲| 精品亚洲天堂| 亚洲精品中文字幕无码蜜桃| 亚洲成人动漫在线| 久久久久久亚洲AV无码专区| 色综合久久久久久中文网| 无码国产精品一区二区免费虚拟vr| 亚洲成人动漫在线| 亚洲日韩AV无码专区影院| 久久草网站| 中文字幕有码在线观看| 亚洲video| 精品va在线观看| 她也色tayese在线视频| 无码视频一区二区三区在线观看| 日本公妇乱偷中文字幕| 天天躁日日躁狠狠躁欧美老妇小说|