![]()
從 chatbot 到 Agent,大模型以「缸中之腦」為起點,正在悄然進化出屬于自己的四肢百骸。
但在 Agent 應用狂飆突進的同時,各種安全事故也層出不窮。初具雛形的 Agent 應用,正在急切呼喚一個更聰明、更可靠的「原生大腦」。
爆改基模結構,開啟 AI 模型
「Agent 原生」時代
Agent 時代,由于外部工具和任務重試需求等因素的介入,令上下文長度相比 coding、chatbot 等應用場景,迎來了一輪暴漲。同時,用戶對即時性也有了更高的要求。相比 chatbot 時代,吐字比閱讀速度快的基本訴求,等待 Agent 工具交付結果的時間,必須被進一步壓縮。
所以,上一個時代的 Reasoning 模型,已經不能再適應本世代的需求。一個好的 Agent 原生模型,在推理成本、速度和智能水平三個層面,都必須再次迎來進化。
基于此,階躍星辰新上線的 Step 3.5 Flash,可謂「多快好省」:
為了滿足 Agent 時代的訴求,Step 3.5 Flash 從基礎模型層面,就采用了十分獨特的結構設計。作為一款旗艦級語言推理模型,它并未盲目追逐模型尺寸,而是選擇了稀疏混合專家(MoE)架構。總參數量為 1960 億,每次推理僅激活約 110 億參數。
同時,Step 3.5 Flash,將傳統的 Linear Attention(線性注意力機制),打散為滑動窗口注意力(SWA)+ 全局注意力(Full Attention)3:1 的混合架構。如果要找個比喻的話,這種結構,十分接近推理小說的閱讀體驗:大部分注意力依舊集中在當前段落附近的文本,但當一個伏筆回收時,幾章之前埋下的劇情鉤子,仍然能快速的浮現出來。
最后,在模型技術層面,Step 3.5 Flash 還使用了 MTP-3「多 token 并行預測」機制。
如果說傳統大模型,是一個詞接一個詞的“文字接龍”,那么 MTP-3,就像是先打草稿,再深入潤色。在 Transformer 主干之后,MTP-3 會附加一個專用的預測網絡層,讓模型根據當前上下文同時推斷多個未來 token 的概率分布。這樣的設計,在保證因果一致性的前提下,實現了多 token 的并行推理。
架構精巧,推理速度
可達每秒 350 個 token
多方加持下,Step 3.5 Flash 擁有了高達 256K 的超長上下文,和十分夸張的推理速度。在單請求代碼類任務上,Step 3.5 Flash 最高推理速度可達每秒 350 個 token,確保了復雜 Agent 任務的低延遲響應。
和它的名字一樣,「快」,是 Step 3.5 Flash 最顯著的特點。但速度不能以犧牲智力為代價。在推理速度狂飆突進的同時,它的邏輯能力,同樣不容小覷。
在例行刷榜環節當中,Step 3.5 Flash 拿下了 AIME 2025(美國數學邀請賽)97.3 分; IMOAnswerBench(國際奧林匹克數學基準測試)85.4 分;HMMT 2025(哈佛 - 麻省理工數學競賽) 96.2 分的好成績。
與國內頂級開源模型相比,上述項目得分,Step 3.5 Flash 均為第一。
縮放定律似乎暗示我們,模型的能力,直接和尺寸掛鉤。但 Step 3.5 Flash 用事實證明,合適尺寸 + 充分的后訓練,完全可以兼顧速度與效率,得到一個精致、且有強邏輯內核的大模型。
拋棄「規模迷信」的背后,是階躍星辰對大模型的獨特理解:模型應該凝縮「邏輯」,而非用超大規模,簡單地對文本模式死記硬背。
「高智商」,才是硬道理
這種認知的回報,在真實世界的任務當中體現的尤為明顯:coding 榜單當中,Step 3.5 Flash 拿下了 Terminal-Bench 2.0(終端任務自動化),和 LiveCodeBench-V6(實時編碼調試)國內開源第一的好成績,整體測試水平屬于全球第一梯隊。
Agent 相關的測試項目更是手到擒來:τ2-Bench(多步任務規劃)88.2 分 ;xbench-DeepSearch(深度搜索與信息整合)54 分,均為國內開源模型第一。BrowseComp(網頁瀏覽與上下文管理) 69 分,實現了對海外御三家模型的成功反超。
更大的認可,來自 AI 社群:在真實世界任務中,Step 3.5 Flash 以高達 167 Tokens/s 的推理速度,發布首日,即進入全球知名 AI 模型聚合平臺 OpenRouter “Fastest Models”速度榜前列。
![]()
發布 2 天,登頂 OpenRouter 全球趨勢榜(Trending)榜單。
![]()
作為匯聚了 OpenAI、Anthropic、Google 等主流模型的 API 平臺,OpenRouter 的全球趨勢榜單,實時反映著開發者在實際應用中的模型偏好與付費選擇。此次登頂,意味著 Step 3.5 Flash 在真實任務當中的表現,已收獲了全球 AI 開發者的積極認可。
Reddit、X 等平臺上也有不少用戶,對 Step 3.5 Flash 的表現給出了很高的評價:多語言混用時切換自然,很少出現同尺寸模型身上常見的「夾雜」情況;行事穩定可靠,幻覺率極低,且對自身的能力邊界有著清晰的認知,不會為了強行接話而編造答案。
![]()
![]()
![]()
而這一切,都發生在一臺 128G 內存、M3 Max 芯片的 mac 電腦上。
本地 Agent,從此平權
據社區反饋,借助 llama.cpp,Step 3.5 Flash 在 mac 平臺上的推理速度極佳。平均速度 35 tokens/ 秒,約為該平臺理論最大效率的 70%。
某種程度上,這是階躍星辰 CTO 朱亦博「私心」的結果:他希望這個模型,能支持 4-bit 量化后,運行在 128GB 內存的 MacBook 上。
但 Step 3.5 Flash 最終發布時的支持范圍遠不止于此:云服務層面,包括華為昇騰、沐曦股份、壁仞科技、燧原科技、天數智芯、阿里平頭哥等在內的多家芯片廠商,均已率先完成了對 Step 3.5 Flash 的適配工作。同時,經過 4-bit 量化以后,Step 3.5 Flash 也支持在 NVIDIA DGX Spark、Apple M3/M4 Max 以及 AMD AI Max+ 395 等主流個人 AI 終端上,進行本地部署——同時依然保持著 256K context 的超長上下文能力。
朱亦博在博客文章里不無自豪地表示,這是你在 128GB 內存的 Macbook 和 DGX Spark 上,用 4-bit 暢快跑 256K context 的最強模型,沒有之一。
AI 模型的又一個「中國時刻」?
在過去的一年中,來自中國的開源模型,用更低的獲取門檻、推理成本和打平的性能,一舉擊碎了“超大規模 + 閉源 = 先進”的行業迷信,無數 AI 應用因此涌現,也將大模型競爭,重新拉回了效率與架構創新的主航道。
現在,國內幾家 AI 公司動作頻頻、傳聞不斷,今年大模型領域的「春節檔」,注定熱鬧非常。而最近發布的 Step 3.5 Flash,或許正悄然復刻又一個 AI 領域的「中國時刻」——高性能、低門檻、新范式。只是這一次,范式轉移的焦點,從“推理模型”轉向了更具顛覆性的“Agent 原生(開源)基座模型”。
當行業還在用稠密模型硬扛 Agent 場景時,它用 1960 億總參數、僅 110 億激活參數的精巧架構,同時解決了 Agent 時代的三大死結——超長上下文下的低延遲響應、復雜任務中的高幻覺風險、以及終端設備上的本地化部署。
當海外巨頭將 Agent 能力鎖死在云端 API 時,Step 3.5 Flash,讓 256K 上下文的 Agent 大腦,跑在 128GB 內存的 MacBook 上——這是對 AI 權力結構的重構:Agent 的智能不應被云廠商壟斷,開發者理應擁有在終端側構建私有化 Agent 工作流的自由。
這種“終端平權”邏輯,恰是此前中國 AI 大模型引領的范式轉移,在新環境下進一步的延續與深化:從模型獲取的平權,進階到 Agent 能力的平權。
歷史從不重復,但常常押韻。如果說之前的國產大模型,打破的是“對規模和閉源的迷信”,那么 Step 3.5 Flash 正在擊碎的,就是“速度與智能不可兼得”的新迷信。當行業還在用“參數量”“榜單分數”這類舊范式衡量模型價值時,Step 3.5 Flash 已用 OpenRouter 趨勢榜登頂、Reddit 開發者自發安利、多芯片廠商 Day 0 適配的事實證明:真正的范式轉移,永遠始于真實世界中,解決真實訴求的能力。
我們或許正站在 Agent 時代的分水嶺上:過去一年,市場狂熱追逐 Agent 應用層的“四肢百骸”,卻忽略了為其注入靈魂的“原生大腦”。而 Step 3.5 Flash 的此時此刻,又恰似 2025 年春節的彼時彼刻——盡管暫時被 Agent 應用的喧囂浪潮所掩蓋,但歷史終將被證明,在 Agent 時代,是階躍星辰,完成了一次基礎設施層,最關鍵的范式躍遷。
會議推薦
InfoQ 2026 全年會議規劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產業落地,從技術前沿到行業應用,全面覆蓋 AI 與軟件開發核心賽道!集結全球技術先鋒,拆解真實生產案例、深挖技術與產業落地痛點,探索前沿領域、聚焦產業賦能,獲取實戰落地方案與前瞻產業洞察,高效實現技術價值轉化。把握行業變革關鍵節點,搶占 2026 智能升級發展先機!
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.