網易首頁 > 網易號 > 正文申請入駐

上線兩天登頂全球榜單，階躍星辰怎么讓 AI 又「聰明」又「快」？

2026-02-06 16:53:13　來源: 雷峰網

北京舉報

分享至

就在昨天，階躍星辰登頂了全球模型榜單——他們最新開源的Agent基座模型Step 3.5 Flash，發布首日便登上全球模型平臺OpenRouter的“最快模型榜”，而發布后僅用短短兩天，就獲得了OpenRouter“熱度趨勢榜”排名第一的好成績，其數據是基于全球開發者與用戶的實際模型調用量。也就是說，Step 3.5 Flash以硬實力贏得了用戶的“用腳投票”。

（圖為Step 3.5 Flash 登頂 OpenRouter 的Trending 榜單）

對階躍來說，拿下榜單第一并不新鮮，而這個成績有意思的地方在于，它點破了當前AI應用深化的一個普遍瓶頸：模型越來越“聰明”，能處理的任務越來越復雜，但用戶和開發者在真實使用時，最直接的感官體驗卻是——“慢”。

這里的“慢”，不是指回答一句“你好”的速度，而是當用戶任務變得復雜，任務鏈和工作流明顯變長（比如分析整篇財報、編寫復雜函數、或同時完成圖文音視頻多模態輸出等等）時，AI的處理速度必然下降，用戶的等待時間可能會被拖得很長。

漫長的等待——本身就嚴重限制了AI在實際工作流中的可用性；而如果等了半天，AI拿出的結果還不能令人滿意，用戶的流失就已成定局。

而過去外界的一貫認知中，“快”=小參數模型的敏捷調用、輸出；“慢”=更大參數量級的模型和細致的思考。此前，模型要的是“快”和“好”的平衡，而今天，階躍的Step 3.5 Flash卻敢于對世界說：“我全都要！”

稀疏MoE架構：不要“大而全”，我要“以巧見大”

論速度，Step 3.5 Flash有多快？

在復雜推理場景下，保證穩定性的同時，Step 3.5 Flash在NVDIA Hopper GPU的最高推理速度可以達到每秒350個Token，實現“點擊即輸出”的秒速體驗。

榜單上，Step 3.5 Flash以每秒167個Token的速度排名第九，但排在它前面的，多是在為專有硬件環境定制的模型和8b-120b規模不等的小型模型。

（圖為Step 3.5 Flash在OpenRouter的Fastest榜位居前列）

而Step 3.5 Flash的參數量是1960億，足以作為基座模型為Agent提供強勁的動力。

（Reddit平臺用戶評價：終于有東西能在我那只有120GB顯存的破電腦上運行了）

跑分測試上，Step 3.5 Flash一馬當先，并且尤其擅長Agent場景和數學任務。在τ2-Bench、BrowseComp等測試，以及LiveCodeBench V6代碼挑戰和AIME 2025數學競賽中，Step 3.5 Flash都拿出了不錯的成績。

圖注：Step 3.5 Flash僅憑11B激活參數（總規模196B MoE）便達到了頂尖級別的智能水平，足以媲美領先的閉源及開源模型（數據來源：階躍星辰官方Tech Report）

實踐上，Step 3.5 Flash還在多步推理的結構化輸出、復雜邏輯求解、后端自動化和長時間運行任務中，已經具備了企業級應用落地的能力。而針對高頻工具調用和對行為可預測性有強要求的系統環境，Step 3.5 Flash也能輕松駕馭。

“快”很容易，“強”也很容易。要理解Step 3.5 Flash為何能做到又快又強，首先要了解的，是它采用的“稀疏混合專家（MoE）架構”——這是一個在追求“超大模型”時代里，回歸工程理性的設計。

傳統的千億參數大模型像一個“全能巨人”，處理任何問題，無論難易，都要動用全部腦力（激活所有參數）。

每一次都“全力出擊”，這固然能保證能力，但計算成本極高的同時，也讓推理緩慢、能耗巨大，算力的浪費也同樣不可避免。

Step 3.5 Flash的思路則不同。

作為一個總參數量1960億的Agent原生基座模型，它被精巧地組織成了許多個“專家小組”。當一個問題輸入時，一個智能的路由機制會迅速判斷：“這個問題主要由哪幾個專家小組來處理最合適？”然后，只激活這些相關的“專家”——大約110億參數——來工作。

（海外用戶評價：它僅使用11b的活躍參數，所以運行速度極快。老實說，我對它毫無延遲的運行表現著迷。）

你可以把它想象成一個高度專業化的超級顧問團。接到一個金融分析任務，系統不會喚醒團里的醫學專家或文學教授，而是精準地調度金融、數據分析、邏輯推理這幾個小組來協同工作。

這種設計，既能讓每次推理實際消耗的計算資源大幅減少，提升了計算速度，成本也隨之下降；又能背靠“顧問團”1960億參數的“總知識庫”，在需要處理復雜、跨界問題時，依然有能力調動不同領域的“專家”進行深度協作，讓輸出保質保量。

憑借著更聰明的調用，Step 3.5 Flash采用的稀疏MoE架構，打破了“大模型”必須“力大磚飛”的固有印象，讓AI的能力和速度，成為了可以兼得的“魚與熊掌”。

不只是“跑得快”，更是“想得流暢”

光是有了更高效的架構還不夠，Step 3.5 Flash在具體工程實現上也做了不少優化，確保在真實場景中“跑”得流暢。

首先是處理長文本的“巧勁”。

人要學會快速瀏覽文本，就必須學會“一目十行”——AI也一樣，面對一個超長文本還要快速輸出內容，就不能在生成新詞時，每次都全文逐字閱讀理解。這被稱為“全注意力”機制，雖然輸出效果更好，但AI的計算量會隨著文本長度呈平方級增長，是導致處理長文本時速度劇降、延遲飆升的主要原因。

要一目十行，模型就必須采取滑動窗口注意力（Sliding-Window Attention, SWA）的機制。

所謂滑動窗口，是基于一個符合直覺的觀察：在理解一個長句子或段落時，當前詞的含義最受其“鄰近”詞匯的影響，而距離很遠的詞影響相對較小。在這種機制下，模型能更專注于一個窗口中臨近詞匯的內容，讀的內容變少了，處理速度當然更快，成本也自然更低。

而Step 3.5 Flash則是博采眾長，采用了3：1的滑動窗口與全局注意力混合架構（SWA + Full Attention），對256K上下文有著高效的處理能力。

不光“看”得快，Step 3.5 Flash還“寫”得快。

傳統的模式，AI生成Token，要一個一個地“往外蹦”，在追求AI快交互的今天，這樣的速度明顯不夠。

而Step 3.5 Flash采用了多Token預測（Multi-Token Prediction, MTP-3)的技術，一次可以完成多個Token的預測，這相當于讓Token的輸出從“單車道”變成了“多車道”，直接讓文本生成的吞吐效率翻了倍。

有了稀疏MoE架構，再整合了更先進的技術模式，給市場帶來的震撼是直接的：AI在處理復雜、多步任務時的“遲滯感”正在被抹平。無論是代碼生成、長文檔分析還是需要多輪思考的規劃任務，響應都變得更加即時和連貫。

Step 3.5 Flash的出現，對于那些希望將AI深度集成到自動化工作流中的開發者而言，標志著一個實用的拐點——一個既聰明又敏捷的“AI大腦”已經觸手可及。

結語

模型能力的升級，在今天似乎已經不是新鮮事——而Step 3.5 Flash的強勢登場，卻打破了過往的技術預設。

Step 3.5 Flash所代表的，不僅僅是一個模型版本的迭代，更是一種技術路徑的明確：通往更強大的人工智能的道路，不一定只靠無限制地堆疊參數，通過架構創新和工程優化，在效能與能力之間取得精妙平衡，同樣是關鍵且務實的一步。

Step 3.5 Flash登榜的勝利，不止是模型技術的勝利，更是模型工程的勝利，是階躍星辰在追尋AGI的路上，邁出的堅實一步。

今天，Step 3.5 Flash已在OpenRouter、GitHub、階躍AI APP和網頁端等多端同步上線，面向開發者提供免費試用與快速部署支持。而同時，階躍星辰也已啟動了下一代Step 4的研發，并邀請全球開發者“深度參與共創”，讓模型從工程中來，到工程中去，用最“落地”的方式做最“高級”的事情。

從Step 3.5 Flash開始，市場便能夠看到一條通往AGI更清晰的路徑——通過構建更快、更穩、更易獲取的智能基座，降低每一個創新者構建高級AI應用的門檻。

當無數開發者可以基于這樣的基座，在面對千行百業的具體問題時，都能創造出屬于自己的智能體，并且以更便宜、更便捷的方式滿足自己的實際需求，那時的我們距離AGI，或許可以又近了一點點。

雷峰網

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.