網易首頁 > 網易號 > 正文申請入駐

階躍Step 3.5 Flash ：春節(jié) AI 混戰(zhàn)殺出的黑馬，正在 Agent 時代彎道超車

2026-02-03 18:32:48　來源: 愛范兒

廣東舉報

分享至

今年的 AI 圈，有點像 2008 年的智能手機市場，所有人都知道觸摸屏是未來，但廠商們都在做「帶觸摸屏的諾基亞」。

Agent 時代已經來了，這是共識。而怎么做一個好用的 Agent 模型？按照慣性思維，或許還是一樣，更多的參數，更深更廣的網絡結構，還有更大的數據集。

300B 不夠就 1T，1T 不夠就 10T。仿佛只要把模型做得足夠大，Agent 能力就會自然涌現，就像只要把諾基亞的屏幕做得足夠大，iPhone 就會自己出現一樣。

大參數模型確實帶來了更博學的知識面和更穩(wěn)健的底座，但這種一味在上一代模型上「優(yōu)化」的方法，顯然不能讓我們手里的 Agent 更好用，Agent 時代需要 Agentic 的模型。

那有沒有一條更高效的、真正顛覆性思維的路線，不靠堆參數，靠架構優(yōu)化；不需要云端服務器獨占，本地也能跑；既是全能選手的同時，又有定向優(yōu)化。

▲模型參數規(guī)模與智能對比圖，Step 3.5 Flash 總參數在圖中最少，但智能得分排名第二

2 月 2 日，階躍星辰發(fā)布并開源了最新基座模型 Step 3.5 Flash，這是一個讓 Agent 更高效的底層支撐模型，采用稀疏 MoE 架構，總計 1960 億參數，但每個 token 僅激活約 110 億個參數。

這是大模型行業(yè)里一個十分反常識的數據，在一眾卷向萬億參數的競爭對手面前。似乎顯得有些「掉隊」。然而就是這個看似「掉隊」的選擇，可能藏著 Agent 時代最大的秘密。

L3 時代的模型，不能再沿著 L1 的梯子爬

如果這放在半年前，階躍星辰可能還在做著另一件事。

階躍星辰聯合創(chuàng)始人兼 CTO 朱亦博在最新的博客中提到，Step 2 模型時代，他們也曾是 Scaling Law（規(guī)模定律）的忠實信徒。和當時所有的模型廠商一樣，他們認真地爬著那座名為參數的梯子，設計了比 DeepSeek V3 還要大的參數量，甚至比對方早訓練了好幾個月。

結果是，雖然跑分一度輝煌，但在 DeepSeek R1 的推理范式面前，傳統的堆料邏輯還是遭遇了降維打擊。

原因很簡單，DeepSeek R1 是一個時代的跨越，從 L1 的 Chatbot 到 L2 的 Reasoner，繼續(xù)用 Chatbot 的思維去做推理模型，不一定會失敗，但注定要碰壁。

這不僅是階躍星辰的復盤，更是整個行業(yè)的縮影。痛定思痛后，他們發(fā)現了一個被忽略的真相：L1 時代的 Chatbot（聊天機器人）和 L3 時代的 Agent（智能體），需要的是兩種不同的模型。

▲OpenAI 的五級框架，從第一級的聊天機器人，到推理、智能體、創(chuàng)新者和第五級的組織體

按照 OpenAI 的五級架構，我們正在經歷從 L2 Reasoner（推理）邁入 L3 Agent（智能體）的跨越。

L1 Chatbot 時代：核心需求是對話流暢度，模型只要能快速響應、自然表達就夠了。我們需要的可能是一個會背百科全書的「文科生」，它足夠博學，能隨口復刻魯迅風。此時，每秒 20-30 個 token 的輸出速度，剛好適配人類的閱讀習慣。

L2 Reasoner 時代：長思維鏈出現，我們需要模型展現完整的深度思考。看著長長的思考過程，我們覺得它聰明，甚至愿意為了更準確的結果等待數十秒。

L3 Agent 時代：特征徹底變了。工作場景的上下文常駐 32K-128K 區(qū)間，我們不再逐字閱讀輸出，只盯著「什么時候能交付結果」。

在這種場景下，繼續(xù)沿用 L2 時代的重型參數模型，打個比方可以說是，帶著鰲太線的裝備去爬佘山「滬太線」，雖然儲備充足，但效率變低，且算力代價極其昂貴。

Agent 在某種程度上，甚至可以說不再是給用戶看的，而是給任務用的。它需要長上下文的高效運行，能輕松處理幾十萬 token 的代碼庫；以及速度的提升，這能直接決定用戶體驗；而核心還是規(guī)劃和工具調用。

如果繼續(xù)用 L1 時代的重型模型去跑 L3 的任務，就像開著法拉利去送外賣——不僅貴，而且在擁堵的「長上下文」路況里，根本跑不起來。

這也解釋了為什么階躍敢于反其道而行，掏出 Step 3.5 Flash這個「新物種」，專注于「快」與「強邏輯」。這種取舍乍看之下與行業(yè)格格不入，卻有了更多的可能性。

天下武功，唯快不破：Agent 時代的「暴力美學」

Agent 時代，「快」不再是一種錦上添花，直接是模型生死線。

朱亦博指出了一個極易被忽視的細節(jié)，在 Chatbot 時代，模型輸出只要快過人類閱讀速度（20-30 tokens/s）就夠了，再快我們也讀不過來。但在 Agent 時代，這個標準完全失效。

為什么？因為用戶根本不想看過程。當 AI 幫我們寫代碼、查資料、訂機票時，我們不會盯著屏幕看它一個字一個字往外蹦，我們只想要結果。

在這個階段，速度不再是體驗，而是生產力本身，直接決定了任務交付的效率。

為了實現這種極致的「快」，階躍星辰在技術路線上做了一次豪賭。

▲Step 3.5 Flash 整體架構，Step 3.5 Flash 是一款采用稀疏混合專家（MoE）架構的大語言模型，其架構由模型-系統協同設計定義，并且將推理成本和速度作為核心架構約束。

在同行都在盲目跟風 Linear Attention（線性注意力機制）時，Step 3.5 Flash 堅持選擇了SWA（滑動窗口注意力）架構。這種混合注意力布局，一方面能更快的處理 Token 計算，另一方面也解決了長上下文處理的二次瓶頸。

簡單來說，它不是死記硬背 256K 的全文，而是像人類一樣，有重點、有節(jié)奏地分配注意力。這讓它在處理海量數據時，不僅不降智，還能大幅降低算力開銷。

看起來是一種「逆行」，其實正是 Agent 時代「以巧見大」的精算。因為在當前的硬件條件下，SWA 對投機采樣（Speculative Sampling）最為友好。這種技術上的取舍，直接將單請求代碼類任務的推理速度干到了最高350 tokens/s。

快如閃電的「瞬殺」，是直接將 AI 從「玩具」變成生產力工具的決定性瞬間。在 Step 3.5 Flash 發(fā)布首日，就登上 OpenRouter Fastest Models 榜單。

▲根據 OpenRouter 最新發(fā)布的 Fastest Models 排名顯示， Step 3.5 Flash 的生成速率達到 167 Tokens/s，位列全球最快模型之列。

拒絕「背題家」，高智商才是第一生產力

跑得快不能以「降智」為代價，衡量一個模型適不適合做 Agent，「高智商」也是必不可少。

無論是我們用戶還是大多數模型廠，普遍的共識都是：參數越大，能力越強。但 Step 3.5 Flash 在數學領域的屠榜表現，用合適尺寸 + 極致后訓練，也得到了不輸大參數模型的效果。

AIME 2025（美國數學邀請賽）中，它拿下了97.3 分
IMOAnswerBench（國際數學奧林匹克題基準）中斬獲85.4 分
HMMT 2025（哈佛 - 麻省理工數學競賽）中更是飆到了96.2 分

這是什么概念？這些分數均為國內頂級開源模型第一。

如果開啟并行協同推理（PaCoRe）模式，它的得分甚至逼近滿分。這種「智商溢出」的現象背后，藏著一個極其隱晦但精準的行業(yè)真相：過去的模型像是個「背題家」，靠死記硬背海量數據來蒙混過關；而 Step 3.5 Flash 是個真正的「解題家」。

▲PaCoRe（Parallel Coordinated Reasoning）的推理流程。每一輪啟動廣泛的并行探索，將生成的軌跡壓縮成緊湊的信息，并將這些信息與問題一起傳遞，以協調下一輪。重復此過程 ? 次，可在遵守固定上下文限制的同時，實現數百萬標記的有效 TTC（測試時計算），最終壓縮的信息作為系統的答案。

在 Agent 的工作流中，這種能力是致命的。因為真實世界的任務充滿了未知，我們要的不是一個只會復讀知識點的鸚鵡，而是一個能看懂復雜指令、能拆解任務邏輯、能自我糾錯的「超級大腦」。

推理能力證明了智商在線，但 Agent 還需要干活靠譜。Step 3.5 Flash 在多個關鍵場景拿到了國內開源第一。

代碼能力：全球第一梯隊

SWE-bench Verified: 74.4 分（真實開源項目的 bug 修復）
Terminal-Bench 2.0: 51 分（國內開源第一，終端任務自動化）
LiveCodeBench-V6: 86.4/88.9 分（國內開源第一，實時編碼調試）

Agent 核心能力：多項國內開源第一

τ2-Bench: 88.2 分（國內開源第一，多步任務規(guī)劃）
xbench-DeepSearch: 54 分（國內開源第一，深度搜索與信息整合）
BrowseComp: 69 分（第一梯隊，網頁瀏覽與上下文管理）

數據再漂亮，也得經得起真實場景的檢驗。在下面這幾個典型場景中，Step 3.5 Flash 也驗證了「以巧見大，快如閃電」不是口號。

普遍常識里，用 Deep Research 寫分析報告，可能會覺得需要模型有引經據典的文采，但實際上還是依賴強大的邏輯推理和工具調用能力。

給它一個模糊的課題，比如「0-3 歲嬰幼兒科學教育」，它不會直接胡編亂造，而是像一個真正的人類研究員一樣，拆解任務、規(guī)劃路徑、聯網搜索、反思修正，然后交給我們一份內容翔實、新手父母都能看懂的萬字報告。

在 Scale AI 的 Research Rubrics 評測中，它的得分甚至壓過了 OpenAI 和 Gemini 的同類系統。這也進一步說明，它已經具備了獨立干活的「邏輯閉環(huán)」。

Step 3.5 Flash 同樣能接入 Claude Code 環(huán)境，當要模型擔任一名專業(yè)數據分析師，面對復雜的數據分析任務時，它不僅能自己寫代碼清洗數據、協助日常數據流程、對齊數據格式，還能直接產出工作流報告。

無論是做 Deep Research 還是 Vibe Coding 項目，這些要么在階躍的官網完成，要么就是調用 API 的方式，但 Step 3.5 Flash 的野心遠不止于從云端服務器拉取 AI 能力。

朱亦博透露，為了跑模型，他甚至自掏腰包買了一臺設備。現在，Step 3.5 Flash 是目前能用 4-bit 量化，在128GB 內存的 MacBook上流暢運行 256K 超長上下文的最強模型，沒有之一。

這句沒有之一，確實凸顯了技術人的倔強。或許，這也暗示了階躍星辰「AI + 終端」的終極圖謀：最強的大腦，不應該只活在昂貴的 H100 集群里，它應該活在你的電腦里，甚至未來的手機里。

當其他廠商還在卷融資、卷估值時，階躍星辰已經默默地把高性能 Agent 的成本門檻，再一次降低。這正印證了那句戰(zhàn)略預判：大模型競爭的「表演賽」已經結束，行業(yè)正式步入決定生死的「淘汰賽」。

春節(jié) AI 大戰(zhàn)里，又一匹攪動大模型格局的黑馬

在最近喧囂的 AI 發(fā)布混戰(zhàn)中，Step 3.5 Flash 這匹黑馬肯定其實有些被過于低估了，它不只是一個「高性價比」的模型，反而有點像一年前 DeepSeek 的突然出現，給 AI 行業(yè)趟出了一條新路：

在算力并不是無限的現實世界里，誰能用更精巧的架構、更少的資源解決更復雜的問題，誰才是真正的贏家。

那個靠堆參數就能騙到融資、靠刷榜單就能獲得掌聲的「草莽時代」已經一去不復返。接下來的戰(zhàn)爭，屬于那些不僅「腦子好使」，而且「手腳麻利」的物種。

這種對「小型化、高效率」的堅持，本質上源于階躍星辰對 AGI 使命的執(zhí)著。朱亦博曾感慨，堅持訓練基模的意義，除了商業(yè)優(yōu)勢，就是為了那份「一直以來的 AGI 夢想」。

對階躍星辰來說，通往 AGI 的路徑不是靠賭一把大的，而是靠前瞻性的方法論，和對時代需求的精準判斷。正如階躍星辰新任董事長印奇在采訪中所談到的，「做好基模、探索整個智能的上限是階躍的使命。」

從 Step 1 到 Step 3.5，從多模態(tài)到語音，從云端到終端，AI 與物理空間的結合、與終端硬件的深度布局，都是階躍星辰走向最終 AGI 的必經之路。

當 AI 能力真正「飛入尋常百姓家」，技術競賽的終點也不再是算力軍備競賽，AI 開始更好地服務我們，每個人，中小企業(yè)、個人開發(fā)者、學生都能低成本，用得起頂級 Agent 能力，AGI 才不只是巨頭的游戲。

以巧見大，快如閃電。這是 Step 3.5 Flash 給出的答案，也是階躍星辰對 AGI 使命的又一次靠近。

那些堅持夢想的人，終會走出自己的路。而這條路，已經越來越清晰。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.