網易首頁 > 網易號 > 正文申請入駐

Agent原生模型時代開啟！階躍Step 3.5 Flash上線，2天登頂OpenRouter全球趨勢榜

2026-02-05 19:01:46　來源: AI前線

北京舉報

分享至

從 chatbot 到 Agent，大模型以「缸中之腦」為起點，正在悄然進化出屬于自己的四肢百骸。

但在 Agent 應用狂飆突進的同時，各種安全事故也層出不窮。初具雛形的 Agent 應用，正在急切呼喚一個更聰明、更可靠的「原生大腦」。

爆改基模結構，開啟 AI 模型

「Agent 原生」時代

Agent 時代，由于外部工具和任務重試需求等因素的介入，令上下文長度相比 coding、chatbot 等應用場景，迎來了一輪暴漲。同時，用戶對即時性也有了更高的要求。相比 chatbot 時代，吐字比閱讀速度快的基本訴求，等待 Agent 工具交付結果的時間，必須被進一步壓縮。

所以，上一個時代的 Reasoning 模型，已經不能再適應本世代的需求。一個好的 Agent 原生模型，在推理成本、速度和智能水平三個層面，都必須再次迎來進化。

基于此，階躍星辰新上線的 Step 3.5 Flash，可謂「多快好省」：

為了滿足 Agent 時代的訴求，Step 3.5 Flash 從基礎模型層面，就采用了十分獨特的結構設計。作為一款旗艦級語言推理模型，它并未盲目追逐模型尺寸，而是選擇了稀疏混合專家（MoE）架構。總參數量為 1960 億，每次推理僅激活約 110 億參數。

同時，Step 3.5 Flash，將傳統的 Linear Attention（線性注意力機制），打散為滑動窗口注意力（SWA）+ 全局注意力（Full Attention）3:1 的混合架構。如果要找個比喻的話，這種結構，十分接近推理小說的閱讀體驗：大部分注意力依舊集中在當前段落附近的文本，但當一個伏筆回收時，幾章之前埋下的劇情鉤子，仍然能快速的浮現出來。

最后，在模型技術層面，Step 3.5 Flash 還使用了 MTP-3「多 token 并行預測」機制。

如果說傳統大模型，是一個詞接一個詞的“文字接龍”，那么 MTP-3，就像是先打草稿，再深入潤色。在 Transformer 主干之后，MTP-3 會附加一個專用的預測網絡層，讓模型根據當前上下文同時推斷多個未來 token 的概率分布。這樣的設計，在保證因果一致性的前提下，實現了多 token 的并行推理。

架構精巧，推理速度

可達每秒 350 個 token

多方加持下，Step 3.5 Flash 擁有了高達 256K 的超長上下文，和十分夸張的推理速度。在單請求代碼類任務上，Step 3.5 Flash 最高推理速度可達每秒 350 個 token，確保了復雜 Agent 任務的低延遲響應。

和它的名字一樣，「快」，是 Step 3.5 Flash 最顯著的特點。但速度不能以犧牲智力為代價。在推理速度狂飆突進的同時，它的邏輯能力，同樣不容小覷。

在例行刷榜環節當中，Step 3.5 Flash 拿下了 AIME 2025（美國數學邀請賽）97.3 分； IMOAnswerBench（國際奧林匹克數學基準測試）85.4 分；HMMT 2025（哈佛 - 麻省理工數學競賽） 96.2 分的好成績。

與國內頂級開源模型相比，上述項目得分，Step 3.5 Flash 均為第一。

縮放定律似乎暗示我們，模型的能力，直接和尺寸掛鉤。但 Step 3.5 Flash 用事實證明，合適尺寸 + 充分的后訓練，完全可以兼顧速度與效率，得到一個精致、且有強邏輯內核的大模型。

拋棄「規模迷信」的背后，是階躍星辰對大模型的獨特理解：模型應該凝縮「邏輯」，而非用超大規模，簡單地對文本模式死記硬背。

「高智商」，才是硬道理

這種認知的回報，在真實世界的任務當中體現的尤為明顯：coding 榜單當中，Step 3.5 Flash 拿下了 Terminal-Bench 2.0（終端任務自動化），和 LiveCodeBench-V6（實時編碼調試）國內開源第一的好成績，整體測試水平屬于全球第一梯隊。

Agent 相關的測試項目更是手到擒來：τ2-Bench（多步任務規劃）88.2 分；xbench-DeepSearch（深度搜索與信息整合）54 分，均為國內開源模型第一。BrowseComp（網頁瀏覽與上下文管理） 69 分，實現了對海外御三家模型的成功反超。

更大的認可，來自 AI 社群：在真實世界任務中，Step 3.5 Flash 以高達 167 Tokens/s 的推理速度，發布首日，即進入全球知名 AI 模型聚合平臺 OpenRouter “Fastest Models”速度榜前列。

發布 2 天，登頂 OpenRouter 全球趨勢榜（Trending）榜單。

作為匯聚了 OpenAI、Anthropic、Google 等主流模型的 API 平臺，OpenRouter 的全球趨勢榜單，實時反映著開發者在實際應用中的模型偏好與付費選擇。此次登頂，意味著 Step 3.5 Flash 在真實任務當中的表現，已收獲了全球 AI 開發者的積極認可。

Reddit、X 等平臺上也有不少用戶，對 Step 3.5 Flash 的表現給出了很高的評價：多語言混用時切換自然，很少出現同尺寸模型身上常見的「夾雜」情況；行事穩定可靠，幻覺率極低，且對自身的能力邊界有著清晰的認知，不會為了強行接話而編造答案。

而這一切，都發生在一臺 128G 內存、M3 Max 芯片的 mac 電腦上。

本地 Agent，從此平權

據社區反饋，借助 llama.cpp，Step 3.5 Flash 在 mac 平臺上的推理速度極佳。平均速度 35 tokens/ 秒，約為該平臺理論最大效率的 70%。

某種程度上，這是階躍星辰 CTO 朱亦博「私心」的結果：他希望這個模型，能支持 4-bit 量化后，運行在 128GB 內存的 MacBook 上。

但 Step 3.5 Flash 最終發布時的支持范圍遠不止于此：云服務層面，包括華為昇騰、沐曦股份、壁仞科技、燧原科技、天數智芯、阿里平頭哥等在內的多家芯片廠商，均已率先完成了對 Step 3.5 Flash 的適配工作。同時，經過 4-bit 量化以后，Step 3.5 Flash 也支持在 NVIDIA DGX Spark、Apple M3/M4 Max 以及 AMD AI Max+ 395 等主流個人 AI 終端上，進行本地部署——同時依然保持著 256K context 的超長上下文能力。

朱亦博在博客文章里不無自豪地表示，這是你在 128GB 內存的 Macbook 和 DGX Spark 上，用 4-bit 暢快跑 256K context 的最強模型，沒有之一。

AI 模型的又一個「中國時刻」？

在過去的一年中，來自中國的開源模型，用更低的獲取門檻、推理成本和打平的性能，一舉擊碎了“超大規模 + 閉源 = 先進”的行業迷信，無數 AI 應用因此涌現，也將大模型競爭，重新拉回了效率與架構創新的主航道。

現在，國內幾家 AI 公司動作頻頻、傳聞不斷，今年大模型領域的「春節檔」，注定熱鬧非常。而最近發布的 Step 3.5 Flash，或許正悄然復刻又一個 AI 領域的「中國時刻」——高性能、低門檻、新范式。只是這一次，范式轉移的焦點，從“推理模型”轉向了更具顛覆性的“Agent 原生（開源）基座模型”。

當行業還在用稠密模型硬扛 Agent 場景時，它用 1960 億總參數、僅 110 億激活參數的精巧架構，同時解決了 Agent 時代的三大死結——超長上下文下的低延遲響應、復雜任務中的高幻覺風險、以及終端設備上的本地化部署。

當海外巨頭將 Agent 能力鎖死在云端 API 時，Step 3.5 Flash，讓 256K 上下文的 Agent 大腦，跑在 128GB 內存的 MacBook 上——這是對 AI 權力結構的重構：Agent 的智能不應被云廠商壟斷，開發者理應擁有在終端側構建私有化 Agent 工作流的自由。

這種“終端平權”邏輯，恰是此前中國 AI 大模型引領的范式轉移，在新環境下進一步的延續與深化：從模型獲取的平權，進階到 Agent 能力的平權。

歷史從不重復，但常常押韻。如果說之前的國產大模型，打破的是“對規模和閉源的迷信”，那么 Step 3.5 Flash 正在擊碎的，就是“速度與智能不可兼得”的新迷信。當行業還在用“參數量”“榜單分數”這類舊范式衡量模型價值時，Step 3.5 Flash 已用 OpenRouter 趨勢榜登頂、Reddit 開發者自發安利、多芯片廠商 Day 0 適配的事實證明：真正的范式轉移，永遠始于真實世界中，解決真實訴求的能力。

我們或許正站在 Agent 時代的分水嶺上：過去一年，市場狂熱追逐 Agent 應用層的“四肢百骸”，卻忽略了為其注入靈魂的“原生大腦”。而 Step 3.5 Flash 的此時此刻，又恰似 2025 年春節的彼時彼刻——盡管暫時被 Agent 應用的喧囂浪潮所掩蓋，但歷史終將被證明，在 Agent 時代，是階躍星辰，完成了一次基礎設施層，最關鍵的范式躍遷。

會議推薦

InfoQ 2026 全年會議規劃已上線！從 AI Infra 到 Agentic AI，從 AI 工程化到產業落地，從技術前沿到行業應用，全面覆蓋 AI 與軟件開發核心賽道！集結全球技術先鋒，拆解真實生產案例、深挖技術與產業落地痛點，探索前沿領域、聚焦產業賦能，獲取實戰落地方案與前瞻產業洞察，高效實現技術價值轉化。把握行業變革關鍵節點，搶占 2026 智能升級發展先機！

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.