網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

NextStep-1：一次在圖像生成上自回歸范式的探索

2025-08-18 15:26:13　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心發(fā)布

機(jī)器之心編輯部

自回歸模型，是 AIGC 領(lǐng)域一塊迷人的基石。開(kāi)發(fā)者們一直在探索它在視覺(jué)生成領(lǐng)域的邊界，從經(jīng)典的離散序列生成，到結(jié)合強(qiáng)大擴(kuò)散模型的混合范式，每一步都凝聚了社區(qū)的智慧。

這些工作，比如 MAR、Fluid、LatentLM 等，為我們帶來(lái)了巨大的啟發(fā)，也讓我們看到了進(jìn)一步優(yōu)化的空間：比如，如何避免離散化帶來(lái)的信息損失？如何讓模型的架構(gòu)更輕盈、更強(qiáng)大？

帶著這些問(wèn)題，階躍星辰團(tuán)隊(duì)進(jìn)行了新的嘗試，并分享了階段性成果：NextStep-1

階躍星辰的初衷是探索一條新的自回歸圖像生成的路徑。NextStep-1 的核心思想是直接在連續(xù)的視覺(jué)空間中，以自回歸方式進(jìn)行生成

為實(shí)現(xiàn)這一點(diǎn)，團(tuán)隊(duì)采用了一個(gè)輕量的「流匹配頭」（Flow Matching Head）。它讓模型能夠：

學(xué)會(huì)在連續(xù)的視覺(jué)空間中直接生成單個(gè)圖像 Patch，從根本上繞開(kāi)了作為信息瓶頸的離散化步驟。
模型以自回歸的方式，逐一生成所有 patches，最終完成一幅完整的圖像。

這一設(shè)計(jì)帶來(lái)了另一個(gè)顯著優(yōu)勢(shì)：架構(gòu)的簡(jiǎn)潔與純粹。由于不再需要外部大型擴(kuò)散模型的「輔助」，NextStep-1 的整體架構(gòu)變得高度統(tǒng)一，實(shí)現(xiàn)了真正意義上的端到端訓(xùn)練。

階躍星辰團(tuán)隊(duì)認(rèn)為，NextStep-1 的探索指向了一個(gè)有趣且充滿潛力的方向。它證明了在不犧牲連續(xù)性的前提下，構(gòu)建一個(gè)簡(jiǎn)潔、高效的自回歸模型是完全可行的。

這只是探索的第一步。階躍星辰選擇將 NextStep-1 開(kāi)源，衷心期待它能引發(fā)更多有價(jià)值的討論，并希望能與社區(qū)的研究者一起，繼續(xù)推動(dòng)生成技術(shù)的演進(jìn)

論文鏈接：https://arxiv.org/abs/2508.10711
GitHub 鏈接：https://github.com/stepfun-ai/NextStep-1
Hugging Face 模型：https://huggingface.co/collections/stepfun-ai/nextstep-1-689d80238a01322b93b8a3dc

動(dòng)因探究：背后的技術(shù)支撐

整體架構(gòu)

NextStep-1 的架構(gòu)如圖 1 所示，其核心是一個(gè)強(qiáng)大的 Transformer 骨干網(wǎng)絡(luò)（14B 參數(shù)），輔以一個(gè)輕量級(jí)的流匹配頭（Flow Matching Head，157M 參數(shù)），用于直接生成連續(xù)的圖像 Patch。

圖 1 NextStep-1 的架構(gòu)圖

這一結(jié)構(gòu)極其簡(jiǎn)潔、純粹，它帶來(lái)了兩大解放：

解放了對(duì)離散化的依賴：不再需要圖像 Tokenizer 進(jìn)行離散化，直接在連續(xù)空間操作。
解放了對(duì)外部擴(kuò)散模型的依賴：不再需要外接大型擴(kuò)散模型作為「解碼器」，實(shí)現(xiàn)了端到端的自回歸訓(xùn)練。

核心發(fā)現(xiàn)

在探索 NextStep-1 的過(guò)程中，階躍星辰團(tuán)隊(duì)獲得了兩個(gè)關(guān)鍵發(fā)現(xiàn)，它們不僅解釋了模型為何高效，也為未來(lái)的研究提供了新的思路。

發(fā)現(xiàn)一：真正的「藝術(shù)家」是 Transformer

在階躍星辰的框架中，Transformer 是「主創(chuàng)」，流匹配頭更像是「畫筆」。團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)，流匹配頭的尺寸大小（ 157M -> 528M），對(duì)最終圖像質(zhì)量影響很小。這有力地證明了，核心的生成建模與邏輯推理等「重活」，完全由 Transformer 承擔(dān)。流匹配頭則作為一個(gè)高效輕量的采樣器，忠實(shí)地將 Transformer 的潛在預(yù)測(cè) 「翻譯」成圖像 Patch。

發(fā)現(xiàn)二：Tokenizer 的「煉金術(shù)」—— 穩(wěn)定與質(zhì)量的關(guān)鍵

在連續(xù)視覺(jué) Token 上的操作帶來(lái)了獨(dú)特的穩(wěn)定性挑戰(zhàn)，團(tuán)隊(duì)發(fā)現(xiàn)兩個(gè)關(guān)鍵「煉金術(shù)」：

通道歸一化（Channel-Wise Normalization）是穩(wěn)定性的「壓艙石」：通過(guò)引入簡(jiǎn)單的通道歸一化，極其有效地穩(wěn)定了 Token 的統(tǒng)計(jì)特性，即使在高 CFG 指導(dǎo)強(qiáng)度下，也能確保生成清晰、無(wú)偽影的圖像。
「更多噪聲」竟能帶來(lái)「更好質(zhì)量」：一個(gè)反直覺(jué)的發(fā)現(xiàn)是，訓(xùn)練 Tokenizer 時(shí)加入更多噪聲正則化，反而能顯著提升最終生成圖像的質(zhì)量。階躍星辰團(tuán)隊(duì)推斷，這有助于塑造一個(gè)更魯棒、分布更均勻的潛在空間，為自回歸主模型提供更理想的工作平臺(tái)。

眼見(jiàn)為實(shí)：高保真的視覺(jué)生成和編輯能力

NextStep-1 實(shí)現(xiàn)了高保真的文生圖的生成，同時(shí)具有強(qiáng)大的圖像編輯能力，覆蓋多種編輯操作（如物體增刪、背景修改、動(dòng)作修改、風(fēng)格遷移等），并能理解用戶的日常語(yǔ)言指令，實(shí)現(xiàn)形式自由的圖像編輯。

圖 2 展示 NextStep-1 全面的圖像生成和編輯能力

硬核實(shí)力：權(quán)威 Benchmark 下的表現(xiàn)

除了直觀的視覺(jué)效果，階躍星辰團(tuán)隊(duì)也在多個(gè)行業(yè)公認(rèn)的 Benchmark 上對(duì) NextStep-1 進(jìn)行了嚴(yán)格的評(píng)估。結(jié)果表明，

綜合性能在自回歸模型中達(dá)到了新的 SOTA（State-of-the-Art）水平
在多個(gè) benchmark 上已能與頂尖的擴(kuò)散模型（Diffusion Models）直接競(jìng)爭(zhēng)

表 1 NextStep-1 在 GenEval、GenAI-Bench 和 DPG-Bench 上的性能

表 2 NextStep-1 在 OneIG 上的性能

表 3 NextStep-1 在 WISE 上的性能

表 4 NextStep-1 在 GEdit-Bench 和 ImgEdit-Bench 上的性能

局限性與未來(lái)展望

NextStep-1 是階躍星辰團(tuán)隊(duì)對(duì)構(gòu)建簡(jiǎn)潔的高保真生成模型的一次真誠(chéng)探索。它證明了，在不犧牲連續(xù)性的前提下，構(gòu)建一個(gè)純粹的端到端自回歸模型是完全可行的。階躍星辰相信，這條「簡(jiǎn)潔」的道路，為多模態(tài)生成領(lǐng)域提供了有價(jià)值的新視角。

階躍星辰團(tuán)隊(duì)深知這只是探索的開(kāi)始，前路依然廣闊。作為一個(gè)對(duì)新范式的初步探索，NextStep-1 在展現(xiàn)出巨大潛力的同時(shí)，也讓團(tuán)隊(duì)識(shí)別出了一些亟待解決的挑戰(zhàn)。我們?cè)诖颂拐\(chéng)地列出這些觀察，并視其為未來(lái)工作的重要方向。

生成過(guò)程中不穩(wěn)定

NextStep-1 成功證明了自回歸模型可以在高維連續(xù)潛在空間中運(yùn)行，并達(dá)到媲美擴(kuò)散模型的生成質(zhì)量，但這條路徑也帶來(lái)了獨(dú)特的穩(wěn)定性挑戰(zhàn)。觀察到，當(dāng)模型的潛在空間從低維（如 4 通道）擴(kuò)展到更高維（如 16 通道）時(shí)，盡管后者能表達(dá)更豐富的細(xì)節(jié)，但也偶發(fā)性地出現(xiàn)了一些生成「翻車」的情況（如圖 3 所示）。

圖 3 失敗的例子，展示圖像生成過(guò)程中一些暴露出的問(wèn)題

雖然其根本原因仍有待進(jìn)一步探究，但團(tuán)隊(duì)推測(cè)可能存在以下因素：

局部噪聲 / 塊狀偽影：可能源于生成后期出現(xiàn)的數(shù)值不穩(wěn)定性。
全局噪聲：可能反映了模型尚未完全收斂，需要更多的訓(xùn)練來(lái)優(yōu)化。
網(wǎng)格狀偽影：可能揭示了當(dāng)前一維位置編碼在精確捕捉二維空間關(guān)系上的局限性。

順序解碼帶來(lái)的推理延遲

自回歸模型的順序解碼特性，是其推理速度的主要瓶頸。研究團(tuán)隊(duì)對(duì)單個(gè) Token 在 H100 GPU 上的延遲進(jìn)行了理論分析（如表 5 所示），結(jié)果表明：

主要瓶頸在于大模型（LLM）骨干網(wǎng)絡(luò)的順序解碼
流匹配頭（Flow Matching Head）的多步采樣過(guò)程也構(gòu)成了不可忽視的開(kāi)銷

表 5 H100 上生成每個(gè) token 的理論延遲速度 ( batch size 為 1 )

這一觀察指明了兩個(gè)明確的加速方向：

優(yōu)化流匹配頭：通過(guò)減小其參數(shù)量、應(yīng)用模型蒸餾以實(shí)現(xiàn)少步生成，或采用更先進(jìn)的少步采樣器。
加速自回歸主干：借鑒大語(yǔ)言模型領(lǐng)域的最新進(jìn)展，如將多 Token 預(yù)測(cè)等技術(shù)，適配到圖像 Token 的生成中。

高分辨率生成的挑戰(zhàn)

在擴(kuò)展到高分辨率圖像生成方面，與技術(shù)生態(tài)已相當(dāng)成熟的擴(kuò)散模型相比，階躍星辰團(tuán)隊(duì)的框架面臨兩大挑戰(zhàn)：

收斂效率：自回歸模型的嚴(yán)格順序生成特性，在更高分辨率下需要更多的訓(xùn)練步數(shù)才能收斂。相比之下，擴(kuò)散模型在每次迭代中并行地優(yōu)化整張圖像，能更直接地利用二維空間歸納偏置。
技術(shù)遷移難度：為高分辨率擴(kuò)散模型開(kāi)發(fā)的先進(jìn)技術(shù)（如 timestep shift）難以直接遷移。其根本原因在于，流匹配頭主要扮演一個(gè)輕量級(jí)采樣器的角色，而核心的生成建模由 Transformer 骨干網(wǎng)絡(luò)完成，因此單純修改采樣過(guò)程對(duì)最終輸出的影響有限。

因此，基于 patch-wise 的圖像自回歸模型的高分辨率生成是一個(gè)重要探索方向。

監(jiān)督微調(diào)（SFT）的獨(dú)特挑戰(zhàn)

團(tuán)隊(duì)觀察到，當(dāng)使用小規(guī)模、高質(zhì)量的數(shù)據(jù)集進(jìn)行微調(diào)時(shí)，訓(xùn)練動(dòng)態(tài)會(huì)變得極不穩(wěn)定

擴(kuò)散模型通常僅需數(shù)千個(gè)樣本，就能穩(wěn)定地適應(yīng)目標(biāo)數(shù)據(jù)分布，同時(shí)保持良好的泛化生成能力。相比之下，階躍星辰的 SFT 過(guò)程：

依賴大規(guī)模數(shù)據(jù)：只有在百萬(wàn)樣本規(guī)模的數(shù)據(jù)集上訓(xùn)練時(shí)，才能觀察到顯著且穩(wěn)定的提升。
在小數(shù)據(jù)集上表現(xiàn)脆弱：當(dāng)使用小規(guī)模數(shù)據(jù)集時(shí)，模型會(huì)陷入一種「岌岌可危」的平衡狀態(tài)。它要么收效甚微，幾乎沒(méi)有變化；要么突然「崩潰」，完全過(guò)擬合到目標(biāo)數(shù)據(jù)分布上，喪失了原有的泛化能力。

因此，如何在一個(gè)小規(guī)模數(shù)據(jù)集上，找到一個(gè)既能對(duì)齊目標(biāo)風(fēng)格、又能保留通用生成能力的「甜蜜點(diǎn)」（sweet spot）檢查點(diǎn)，對(duì)階躍星辰團(tuán)隊(duì)而言仍然是一個(gè)重大的挑戰(zhàn)。

階躍星辰團(tuán)隊(duì)相信，坦誠(chéng)地面對(duì)這些挑戰(zhàn)，是推動(dòng)領(lǐng)域前進(jìn)的第一步。

NextStep-1 的開(kāi)源是團(tuán)隊(duì)為此付出的努力，也希望能成為社區(qū)進(jìn)一步研究的基石。階躍星辰團(tuán)隊(duì)期待與全球的研究者和開(kāi)發(fā)者交流與合作，共同推動(dòng)自回歸生成技術(shù)向前發(fā)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.