<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      NextStep-1:一次在圖像生成上自回歸范式的探索

      0
      分享至



      機(jī)器之心發(fā)布

      機(jī)器之心編輯部

      自回歸模型,是 AIGC 領(lǐng)域一塊迷人的基石。開(kāi)發(fā)者們一直在探索它在視覺(jué)生成領(lǐng)域的邊界,從經(jīng)典的離散序列生成,到結(jié)合強(qiáng)大擴(kuò)散模型的混合范式,每一步都凝聚了社區(qū)的智慧。

      這些工作,比如 MAR、Fluid、LatentLM 等,為我們帶來(lái)了巨大的啟發(fā),也讓我們看到了進(jìn)一步優(yōu)化的空間:比如,如何避免離散化帶來(lái)的信息損失?如何讓模型的架構(gòu)更輕盈、更強(qiáng)大?

      帶著這些問(wèn)題,階躍星辰團(tuán)隊(duì)進(jìn)行了新的嘗試,并分享了階段性成果:NextStep-1

      階躍星辰的初衷是探索一條新的自回歸圖像生成的路徑。NextStep-1 的核心思想是直接在連續(xù)的視覺(jué)空間中,以自回歸方式進(jìn)行生成

      為實(shí)現(xiàn)這一點(diǎn),團(tuán)隊(duì)采用了一個(gè)輕量的「流匹配頭」(Flow Matching Head)。它讓模型能夠:

      • 學(xué)會(huì)在連續(xù)的視覺(jué)空間中直接生成單個(gè)圖像 Patch,從根本上繞開(kāi)了作為信息瓶頸的離散化步驟。
      • 模型以自回歸的方式,逐一生成所有 patches,最終完成一幅完整的圖像。

      這一設(shè)計(jì)帶來(lái)了另一個(gè)顯著優(yōu)勢(shì):架構(gòu)的簡(jiǎn)潔與純粹。由于不再需要外部大型擴(kuò)散模型的 「輔助」,NextStep-1 的整體架構(gòu)變得高度統(tǒng)一,實(shí)現(xiàn)了真正意義上的端到端訓(xùn)練。

      階躍星辰團(tuán)隊(duì)認(rèn)為,NextStep-1 的探索指向了一個(gè)有趣且充滿潛力的方向。它證明了在不犧牲連續(xù)性的前提下,構(gòu)建一個(gè)簡(jiǎn)潔、高效的自回歸模型是完全可行的。

      這只是探索的第一步。階躍星辰選擇將 NextStep-1 開(kāi)源,衷心期待它能引發(fā)更多有價(jià)值的討論,并希望能與社區(qū)的研究者一起,繼續(xù)推動(dòng)生成技術(shù)的演進(jìn)



      • 論文鏈接:https://arxiv.org/abs/2508.10711
      • GitHub 鏈接:https://github.com/stepfun-ai/NextStep-1
      • Hugging Face 模型:https://huggingface.co/collections/stepfun-ai/nextstep-1-689d80238a01322b93b8a3dc

      動(dòng)因探究:背后的技術(shù)支撐

      整體架構(gòu)

      NextStep-1 的架構(gòu)如圖 1 所示,其核心是一個(gè)強(qiáng)大的 Transformer 骨干網(wǎng)絡(luò)(14B 參數(shù)),輔以一個(gè)輕量級(jí)的流匹配頭(Flow Matching Head,157M 參數(shù)),用于直接生成連續(xù)的圖像 Patch。



      圖 1 NextStep-1 的架構(gòu)圖

      這一結(jié)構(gòu)極其簡(jiǎn)潔、純粹,它帶來(lái)了兩大解放:

      • 解放了對(duì)離散化的依賴:不再需要圖像 Tokenizer 進(jìn)行離散化,直接在連續(xù)空間操作。
      • 解放了對(duì)外部擴(kuò)散模型的依賴:不再需要外接大型擴(kuò)散模型作為 「解碼器」,實(shí)現(xiàn)了端到端的自回歸訓(xùn)練。

      核心發(fā)現(xiàn)

      在探索 NextStep-1 的過(guò)程中,階躍星辰團(tuán)隊(duì)獲得了兩個(gè)關(guān)鍵發(fā)現(xiàn),它們不僅解釋了模型為何高效,也為未來(lái)的研究提供了新的思路。

      發(fā)現(xiàn)一:真正的「藝術(shù)家」 是 Transformer

      在階躍星辰的框架中,Transformer 是 「主創(chuàng)」,流匹配頭更像是「畫筆」。團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),流匹配頭的尺寸大小( 157M -> 528M),對(duì)最終圖像質(zhì)量影響很小。這有力地證明了,核心的生成建模與邏輯推理等 「重活」,完全由 Transformer 承擔(dān)。流匹配頭則作為一個(gè)高效輕量的采樣器,忠實(shí)地將 Transformer 的潛在預(yù)測(cè) 「翻譯」 成圖像 Patch。

      發(fā)現(xiàn)二:Tokenizer 的「煉金術(shù)」—— 穩(wěn)定與質(zhì)量的關(guān)鍵

      在連續(xù)視覺(jué) Token 上的操作帶來(lái)了獨(dú)特的穩(wěn)定性挑戰(zhàn),團(tuán)隊(duì)發(fā)現(xiàn)兩個(gè)關(guān)鍵 「煉金術(shù)」:

      • 通道歸一化 (Channel-Wise Normalization) 是穩(wěn)定性的「壓艙石」:通過(guò)引入簡(jiǎn)單的通道歸一化,極其有效地穩(wěn)定了 Token 的統(tǒng)計(jì)特性,即使在高 CFG 指導(dǎo)強(qiáng)度下,也能確保生成清晰、無(wú)偽影的圖像。
      • 「更多噪聲」 竟能帶來(lái)「更好質(zhì)量」:一個(gè)反直覺(jué)的發(fā)現(xiàn)是,訓(xùn)練 Tokenizer 時(shí)加入更多噪聲正則化,反而能顯著提升最終生成圖像的質(zhì)量。階躍星辰團(tuán)隊(duì)推斷,這有助于塑造一個(gè)更魯棒、分布更均勻的潛在空間,為自回歸主模型提供更理想的工作平臺(tái)。

      眼見(jiàn)為實(shí):高保真的視覺(jué)生成和編輯能力

      NextStep-1 實(shí)現(xiàn)了高保真的文生圖的生成,同時(shí)具有強(qiáng)大的圖像編輯能力,覆蓋多種編輯操作(如物體增刪、背景修改、動(dòng)作修改、風(fēng)格遷移等),并能理解用戶的日常語(yǔ)言指令,實(shí)現(xiàn)形式自由的圖像編輯。



      圖 2 展示 NextStep-1 全面的圖像生成和編輯能力

      硬核實(shí)力:權(quán)威 Benchmark 下的表現(xiàn)

      除了直觀的視覺(jué)效果,階躍星辰團(tuán)隊(duì)也在多個(gè)行業(yè)公認(rèn)的 Benchmark 上對(duì) NextStep-1 進(jìn)行了嚴(yán)格的評(píng)估。結(jié)果表明,

      • 綜合性能在自回歸模型中達(dá)到了新的 SOTA(State-of-the-Art)水平
      • 在多個(gè) benchmark 上已能與頂尖的擴(kuò)散模型(Diffusion Models)直接競(jìng)爭(zhēng)



      表 1 NextStep-1 在 GenEval、GenAI-Bench 和 DPG-Bench 上的性能



      表 2 NextStep-1 在 OneIG 上的性能



      表 3 NextStep-1 在 WISE 上的性能



      表 4 NextStep-1 在 GEdit-Bench 和 ImgEdit-Bench 上的性能

      局限性與未來(lái)展望

      NextStep-1 是階躍星辰團(tuán)隊(duì)對(duì)構(gòu)建簡(jiǎn)潔的高保真生成模型的一次真誠(chéng)探索。它證明了,在不犧牲連續(xù)性的前提下,構(gòu)建一個(gè)純粹的端到端自回歸模型是完全可行的。階躍星辰相信,這條 「簡(jiǎn)潔」 的道路,為多模態(tài)生成領(lǐng)域提供了有價(jià)值的新視角。

      階躍星辰團(tuán)隊(duì)深知這只是探索的開(kāi)始,前路依然廣闊。作為一個(gè)對(duì)新范式的初步探索,NextStep-1 在展現(xiàn)出巨大潛力的同時(shí),也讓團(tuán)隊(duì)識(shí)別出了一些亟待解決的挑戰(zhàn)。我們?cè)诖颂拐\(chéng)地列出這些觀察,并視其為未來(lái)工作的重要方向。

      生成過(guò)程中不穩(wěn)定

      NextStep-1 成功證明了自回歸模型可以在高維連續(xù)潛在空間中運(yùn)行,并達(dá)到媲美擴(kuò)散模型的生成質(zhì)量,但這條路徑也帶來(lái)了獨(dú)特的穩(wěn)定性挑戰(zhàn)。觀察到,當(dāng)模型的潛在空間從低維(如 4 通道)擴(kuò)展到更高維(如 16 通道)時(shí),盡管后者能表達(dá)更豐富的細(xì)節(jié),但也偶發(fā)性地出現(xiàn)了一些生成 「翻車」的情況(如圖 3 所示)。



      圖 3 失敗的例子,展示圖像生成過(guò)程中一些暴露出的問(wèn)題

      雖然其根本原因仍有待進(jìn)一步探究,但團(tuán)隊(duì)推測(cè)可能存在以下因素:

      • 局部噪聲 / 塊狀偽影: 可能源于生成后期出現(xiàn)的數(shù)值不穩(wěn)定性。
      • 全局噪聲: 可能反映了模型尚未完全收斂,需要更多的訓(xùn)練來(lái)優(yōu)化。
      • 網(wǎng)格狀偽影: 可能揭示了當(dāng)前一維位置編碼在精確捕捉二維空間關(guān)系上的局限性。

      順序解碼帶來(lái)的推理延遲

      自回歸模型的順序解碼特性,是其推理速度的主要瓶頸。研究團(tuán)隊(duì)對(duì)單個(gè) Token 在 H100 GPU 上的延遲進(jìn)行了理論分析(如表 5 所示),結(jié)果表明:

      • 主要瓶頸在于大模型(LLM)骨干網(wǎng)絡(luò)的順序解碼
      • 流匹配頭(Flow Matching Head)的多步采樣過(guò)程也構(gòu)成了不可忽視的開(kāi)銷



      表 5 H100 上生成每個(gè) token 的理論延遲速度 ( batch size 為 1 )

      這一觀察指明了兩個(gè)明確的加速方向:

      • 優(yōu)化流匹配頭:通過(guò)減小其參數(shù)量、應(yīng)用模型蒸餾以實(shí)現(xiàn)少步生成,或采用更先進(jìn)的少步采樣器。
      • 加速自回歸主干:借鑒大語(yǔ)言模型領(lǐng)域的最新進(jìn)展,如將多 Token 預(yù)測(cè)等技術(shù),適配到圖像 Token 的生成中。

      高分辨率生成的挑戰(zhàn)

      在擴(kuò)展到高分辨率圖像生成方面,與技術(shù)生態(tài)已相當(dāng)成熟的擴(kuò)散模型相比,階躍星辰團(tuán)隊(duì)的框架面臨兩大挑戰(zhàn):

      • 收斂效率:自回歸模型的嚴(yán)格順序生成特性,在更高分辨率下需要更多的訓(xùn)練步數(shù)才能收斂。相比之下,擴(kuò)散模型在每次迭代中并行地優(yōu)化整張圖像,能更直接地利用二維空間歸納偏置。
      • 技術(shù)遷移難度:為高分辨率擴(kuò)散模型開(kāi)發(fā)的先進(jìn)技術(shù)(如 timestep shift)難以直接遷移。其根本原因在于,流匹配頭主要扮演一個(gè)輕量級(jí)采樣器的角色,而核心的生成建模由 Transformer 骨干網(wǎng)絡(luò)完成,因此單純修改采樣過(guò)程對(duì)最終輸出的影響有限。

      因此,基于 patch-wise 的圖像自回歸模型的高分辨率生成是一個(gè)重要探索方向。

      監(jiān)督微調(diào)(SFT)的獨(dú)特挑戰(zhàn)

      團(tuán)隊(duì)觀察到,當(dāng)使用小規(guī)模、高質(zhì)量的數(shù)據(jù)集進(jìn)行微調(diào)時(shí),訓(xùn)練動(dòng)態(tài)會(huì)變得極不穩(wěn)定

      擴(kuò)散模型通常僅需數(shù)千個(gè)樣本,就能穩(wěn)定地適應(yīng)目標(biāo)數(shù)據(jù)分布,同時(shí)保持良好的泛化生成能力。相比之下,階躍星辰的 SFT 過(guò)程:

      • 依賴大規(guī)模數(shù)據(jù):只有在百萬(wàn)樣本規(guī)模的數(shù)據(jù)集上訓(xùn)練時(shí),才能觀察到顯著且穩(wěn)定的提升。
      • 在小數(shù)據(jù)集上表現(xiàn)脆弱:當(dāng)使用小規(guī)模數(shù)據(jù)集時(shí),模型會(huì)陷入一種 「岌岌可危」 的平衡狀態(tài)。它要么收效甚微,幾乎沒(méi)有變化;要么突然 「崩潰」,完全過(guò)擬合到目標(biāo)數(shù)據(jù)分布上,喪失了原有的泛化能力。

      因此,如何在一個(gè)小規(guī)模數(shù)據(jù)集上,找到一個(gè)既能對(duì)齊目標(biāo)風(fēng)格、又能保留通用生成能力的 「甜蜜點(diǎn)」(sweet spot)檢查點(diǎn),對(duì)階躍星辰團(tuán)隊(duì)而言仍然是一個(gè)重大的挑戰(zhàn)。

      階躍星辰團(tuán)隊(duì)相信,坦誠(chéng)地面對(duì)這些挑戰(zhàn),是推動(dòng)領(lǐng)域前進(jìn)的第一步。

      NextStep-1 的開(kāi)源是團(tuán)隊(duì)為此付出的努力,也希望能成為社區(qū)進(jìn)一步研究的基石。階躍星辰團(tuán)隊(duì)期待與全球的研究者和開(kāi)發(fā)者交流與合作,共同推動(dòng)自回歸生成技術(shù)向前發(fā)展。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      瑞典名將卡爾伯格與華裔美女大婚,相戀八年 岳父是前八一隊(duì)教練

      瑞典名將卡爾伯格與華裔美女大婚,相戀八年 岳父是前八一隊(duì)教練

      郝小小看體育
      2025-12-18 00:29:41
      激動(dòng)!全國(guó)輔警2025年底換裝藍(lán)制服,重視與威嚴(yán)藏在統(tǒng)一著裝里?

      激動(dòng)!全國(guó)輔警2025年底換裝藍(lán)制服,重視與威嚴(yán)藏在統(tǒng)一著裝里?

      今朝牛馬
      2025-12-17 22:38:13
      28歲女教師結(jié)婚當(dāng)天墜亡,疑似朋友圈遺言被逼婚;當(dāng)?shù)匾殃P(guān)注到此事

      28歲女教師結(jié)婚當(dāng)天墜亡,疑似朋友圈遺言被逼婚;當(dāng)?shù)匾殃P(guān)注到此事

      大風(fēng)新聞
      2025-12-17 13:12:04
      海南封關(guān),不單是為再建一個(gè)香港,關(guān)鍵是對(duì)美國(guó)制造業(yè)釜底抽薪

      海南封關(guān),不單是為再建一個(gè)香港,關(guān)鍵是對(duì)美國(guó)制造業(yè)釜底抽薪

      林小明商業(yè)評(píng)說(shuō)
      2025-12-17 12:45:12
      4-0!中國(guó)隊(duì)罕見(jiàn)大勝,全場(chǎng)壓著打,首次出線有戲,劍指亞洲杯8強(qiáng)

      4-0!中國(guó)隊(duì)罕見(jiàn)大勝,全場(chǎng)壓著打,首次出線有戲,劍指亞洲杯8強(qiáng)

      侃球熊弟
      2025-12-17 19:48:44
      超級(jí)“大空頭”:熊市警告!

      超級(jí)“大空頭”:熊市警告!

      中國(guó)基金報(bào)
      2025-12-17 17:31:41
      美國(guó)入境限制國(guó)家 擴(kuò)至40個(gè)

      美國(guó)入境限制國(guó)家 擴(kuò)至40個(gè)

      每日經(jīng)濟(jì)新聞
      2025-12-17 13:29:12
      誰(shuí)敢竄訪,就炸誰(shuí)的港口!

      誰(shuí)敢竄訪,就炸誰(shuí)的港口!

      安安說(shuō)
      2025-12-12 10:30:12
      吳磊北京被偶遇,生圖下嘴巴突出像猩猩,雙手插兜一身痞氣

      吳磊北京被偶遇,生圖下嘴巴突出像猩猩,雙手插兜一身痞氣

      一娛三分地
      2025-12-16 19:46:01
      泰國(guó)定義柬埔寨園區(qū)為“犯罪團(tuán)伙”,國(guó)人卻稱他們?yōu)椤半娫p人員”

      泰國(guó)定義柬埔寨園區(qū)為“犯罪團(tuán)伙”,國(guó)人卻稱他們?yōu)椤半娫p人員”

      清書先生
      2025-12-17 17:32:36
      王毅同委內(nèi)瑞拉外長(zhǎng)希爾通電話

      王毅同委內(nèi)瑞拉外長(zhǎng)希爾通電話

      界面新聞
      2025-12-17 22:35:55
      泰國(guó)打的不是柬埔寨,是臉

      泰國(guó)打的不是柬埔寨,是臉

      求實(shí)處
      2025-12-16 23:00:43
      房產(chǎn)稅的前身“房屋養(yǎng)老金”要來(lái)了,博主分析:明年的二手房慘了

      房產(chǎn)稅的前身“房屋養(yǎng)老金”要來(lái)了,博主分析:明年的二手房慘了

      三言四拍
      2025-12-17 11:43:14
      泰軍炸掉詐騙園區(qū)、器官移植中心,洪森為何氣急敗壞?

      泰軍炸掉詐騙園區(qū)、器官移植中心,洪森為何氣急敗壞?

      胡嚴(yán)亂語(yǔ)
      2025-12-16 20:33:51
      俄烏迎來(lái)大結(jié)局?澤連斯基終于怕了,普京被甩鍋,最大輸家浮現(xiàn)

      俄烏迎來(lái)大結(jié)局?澤連斯基終于怕了,普京被甩鍋,最大輸家浮現(xiàn)

      軍機(jī)Talk
      2025-12-17 14:19:47
      哈佛大學(xué)驚人發(fā)現(xiàn):世界上最健康長(zhǎng)壽的運(yùn)動(dòng),竟然簡(jiǎn)單到一學(xué)就會(huì)

      哈佛大學(xué)驚人發(fā)現(xiàn):世界上最健康長(zhǎng)壽的運(yùn)動(dòng),竟然簡(jiǎn)單到一學(xué)就會(huì)

      原來(lái)仙女不講理
      2025-12-17 17:16:38
      河南輝縣“智力缺陷者接任村支書”后續(xù):法院相關(guān)負(fù)責(zé)人上門致歉,當(dāng)事人接受道歉

      河南輝縣“智力缺陷者接任村支書”后續(xù):法院相關(guān)負(fù)責(zé)人上門致歉,當(dāng)事人接受道歉

      澎湃新聞
      2025-12-17 15:14:26
      殘疾車不得載人,“老頭樂(lè)”不得上路:上海正在嚴(yán)查相關(guān)交通違法行為

      殘疾車不得載人,“老頭樂(lè)”不得上路:上海正在嚴(yán)查相關(guān)交通違法行為

      上觀新聞
      2025-12-17 19:43:37
      陳慧琳演唱會(huì)穿三角褲衩,五十多了合適嗎?人老心不老

      陳慧琳演唱會(huì)穿三角褲衩,五十多了合適嗎?人老心不老

      蕾爸退休日記
      2025-12-16 22:37:37
      中國(guó)女排前隊(duì)長(zhǎng)惠若琪,擬任新職

      中國(guó)女排前隊(duì)長(zhǎng)惠若琪,擬任新職

      極目新聞
      2025-12-17 17:51:59
      2025-12-18 05:47:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11943文章數(shù) 142512關(guān)注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬(wàn)億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      萬(wàn)斯公開(kāi)與特朗普唱反調(diào) 承認(rèn)美國(guó)人生活成本高漲

      頭條要聞

      萬(wàn)斯公開(kāi)與特朗普唱反調(diào) 承認(rèn)美國(guó)人生活成本高漲

      體育要聞

      短短一年,從爭(zhēng)冠到0勝墊底...

      娛樂(lè)要聞

      狗仔曝?zé)岵〗愕軕僬嬲劻耍浚浚?/h3>

      財(cái)經(jīng)要聞

      重磅信號(hào)!收入分配制度或迎重大突破

      汽車要聞

      一車多動(dòng)力+雙姿態(tài) 長(zhǎng)城歐拉5上市 限時(shí)9.18萬(wàn)元起

      態(tài)度原創(chuàng)

      游戲
      時(shí)尚
      旅游
      本地
      教育

      德瑪西亞杯:沒(méi)什么好說(shuō)得,UP零封FRK

      你算老幾?我算老己!

      旅游要聞

      跨年去哪玩?哈爾濱冰雪大世界無(wú)人機(jī)秀 + 煙花,承包冬日終極浪漫

      本地新聞

      云游安徽|踏過(guò)戰(zhàn)壕與石板,讀一部活的淮北史

      教育要聞

      教育部:小學(xué)一、二年級(jí)不進(jìn)行紙筆考試,普通高中要嚴(yán)格控制考試次數(shù)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 中文字幕亚洲资源一区二区| 色狠狠久久av五月综合| 亚洲熟妇色自偷自拍另类| 久久久精品456亚洲影院| 99r精品| 白嫩少妇激情无码| bt天堂新版中文在线| 亚洲日本韩国欧美云霸高清| 青久草视频| 国模一区二区三区白浆| 日韩成人无码影院| 国产精品无码翘臀在线看| аⅴ天堂国产最新版在线中文| 超碰成人福利| 中文字幕乱码亚洲无线三区| 亚洲精品久久久久久下一站| 成人嫩草研究院久久久精品| 伊人在线免费观看| 麻豆成人精品国产免费| 国产成人久久婷婷精品流白浆| 欧美日产国产精品日产| 黄色A片网址| 奇米影视7777久久精品| 男人j进入女人j内部免费网站| 国产免费无遮挡吸奶头视频| 婷婷有码| 高清无码午夜福利视频| 人人草人人做人人爱| 91乱子伦国产乱子伦| 亚洲AV无一区二区三区久久| 免费观看羞羞视频网站| 老妇女性较大毛片| 亚洲男人天堂2018| 久久国产成人午夜av影院| 岛国在线视频| 天天躁夜夜踩很很踩2022| 国产亚洲精品久久久久丝瓜| 国产精品xxxx| 樟树市| 色情一区二区三区免费看| 国产91视频|