![]()
智東西
作者 | 王涵
編輯 | 心緣
智東西2月2日報道,今日,階躍星辰Step 3.5 Flash開源并上線,該模型在Agent場景和數(shù)學(xué)任務(wù)上能力逼近閉源模型,能夠勝任復(fù)雜、長鏈條任務(wù),是階躍星辰迄今最強的開源基座模型。
![]()
Step 3.5 Flash開源頁面(來源:Hugging Face)
就在上周,階躍星辰宣布由曠視科技聯(lián)合創(chuàng)始人、千里科技董事長印奇正式出任董事長,并完成華勤、騰訊等參投的超50億元B+輪融資。這也是印奇履新后,階躍星辰在開源模型領(lǐng)域的首個大動作。
在智能密度對比圖中可以看出,Step 3.5 Flash以約200B的參數(shù)量,取得了81.0的分?jǐn)?shù),在所有模型中智能密度最高。在單請求代碼類任務(wù)中,Step 3.5 Flash的推理速度最高可達(dá)到350TPS。
![]()
智能密度對比圖
Step 3.5 Flash采用稀疏MoE架構(gòu),每個token僅激活約110億個參數(shù)(總計1960億參數(shù)),在保證模型能力的同時提升推理效率。
包括華為昇騰、沐曦股份、壁仞科技、燧原科技、天數(shù)智芯、阿里平頭哥在內(nèi)的多家芯片廠商,已率先完成對Step 3.5 Flash的適配。
開源地址:
GitHub:
https://github.com/stepfun-ai/Step-3.5-Flash/tree/main
Hugging Face:
https://huggingface.co/stepfun-ai/Step-3.5-Flash
一、性能全面逼近閉源大模型,最高推理速度達(dá)350TPS
在基準(zhǔn)測試成績上,推理能力方面,Step 3.5 Flash在AIME 2025、IMOAnswerBench、HMMT 2025等數(shù)學(xué)競賽級任務(wù)中分別取得了97.3、88.8、96.2的分?jǐn)?shù),均排名第二,Step 3.5 Flash開啟Parallel Thinking后的增強性能排名第一。
在編碼能力上,Step 3.5 Flash在LiveCodeBench-V6測試中得分86.4,排名第三,開啟Parallel Thinking后,其僅次于Gemini 3.0 Pro。
在智能Agent能力上,Step 3.5 Flash在BrowseComp測試中得分69.0,僅次于kimi K2.5;在xbench-DeepSearch測試得分54.0,僅次于GPT-5.2 xhigh。
![]()
基準(zhǔn)測試成績
該模型采用稀疏混合專家(MoE)架構(gòu),總參數(shù)量達(dá)1960億,單個token僅需激活約110億參數(shù)。
針對長文本處理場景,Step 3.5 Flash三路多Token預(yù)測(MTP-3)技術(shù),Step 3.5 Flash在典型使用場景中實現(xiàn)了每秒100-300個token的生成吞吐量,在單請求代碼類任務(wù)中峰值可達(dá)350TPS。
在長上下文任務(wù)中,模型僅聚焦關(guān)鍵信息區(qū)域,降低冗余計算開銷,可支撐256K長度的長文本理解與生成。
據(jù)官方介紹,Step 3.5 Flash專為智能體任務(wù)構(gòu)建,集成了可擴展的強化學(xué)習(xí)框架以實現(xiàn)持續(xù)的自我改進(jìn)。
該模型通過采用3:1滑動窗口注意力(SWA)比例,即每層全注意力層配以三層SWA層。這種混合方法確保模型在處理海量數(shù)據(jù)或長代碼庫時性能穩(wěn)定,同時降低了標(biāo)準(zhǔn)長上下文模型通常所需的計算開銷。
針對可訪問性優(yōu)化,Step 3.5 Flash可以在高端消費級硬件,如Mac Studio M4 Max、NVIDIA DGX Spark等上安全運行,確保數(shù)據(jù)私密性的同時不犧牲性能。
二、幾秒算出等差數(shù)列,還能一句話搭建可視化平臺
智東西第一時間上手體驗,首先數(shù)學(xué)方面,我們先考考Step 3.5 Flash一個把很多大模型都難倒了的問題:9.9和9.11誰大?Step 3.5 Flash幾乎立刻就給出了思考過程和正確答案。
那再復(fù)雜一些的數(shù)學(xué)題呢?階躍星辰官方給出案例,Step 3.5 Flash可以快速計算復(fù)雜數(shù)學(xué)題并輸出正確答案。
Prompt:請在不使用外部工具的情況下,依次計算并列出以下等差數(shù)列的和:從第1項開始,首項為100,公差為-3的前50項和;13+23+…+103的和;1!+2!+3!+4!+5!的和;2^10+3^5的和;√144+?125+?√16的和。
快速計算復(fù)雜數(shù)學(xué)題
在智能體編程方面,Step 3.5 Flash可以基于一段文字prompt自動編程輸出可視化平臺結(jié)果。
我們讓Step 3.5 Flash生成一個模擬海浪平臺,可以看到,其生成的可視化平臺可以調(diào)節(jié)海浪的頻率和形態(tài),還可以調(diào)整攝像頭的位置,生成效果基本符合要求。
生成模擬海浪平臺
官方給出了一個生成氣象情報儀表盤的例子:
Prompt:氣象情報儀表盤——一款受飛行駕駛艙啟發(fā)的三維地球可視化平臺,專為高密度數(shù)據(jù)環(huán)境設(shè)計。其搭載的定制WebGL 2.0引擎,可實時處理超過15000個動態(tài)節(jié)點及WebSocket遙測數(shù)據(jù)流。
生成結(jié)果顯示,Step 3.5 Flash展現(xiàn)出了構(gòu)建低延遲數(shù)據(jù)管道與高性能地理空間可視化系統(tǒng)的能力。
生成氣象情報儀表盤
Step 3.5 Flash也原生支持多智能體架構(gòu),其中一個主智能體通過自主規(guī)劃和動態(tài)路由來協(xié)調(diào)復(fù)雜任務(wù)。
這個分層框架會派遣專門的“搜索”和“驗證”智能體,通過并行工具調(diào)用循環(huán)來處理信息檢索和事實核查。為確保精確性,一個“總結(jié)”智能體會將每個子智能體的執(zhí)行軌跡整合為結(jié)構(gòu)化反饋,使主智能體能夠綜合生成最終連貫的響應(yīng)。
![]()
多智能體深度研究
Step 3.5 Flash還可以端云結(jié)合,簡化本地端執(zhí)行流程。例如,用戶提出對比Mac Mini M4在各平臺的價格。
Step 3.5 Flash作為“云端大腦”,將這一復(fù)雜需求拆解為針對淘寶、京東和拼多多的具體子任務(wù)。隨后Step 3.5 Flash匯總結(jié)果,識別出拼多多為最低價平臺,并提供購買指南。
這種云端規(guī)劃顯著降低了本地Step-GUI的執(zhí)行難度,使其在從各應(yīng)用抓取實時數(shù)據(jù)時獲得更高成功率。
對比Mac Mini M4在各平臺的價格
結(jié)語:Agent能力成為新戰(zhàn)場
無論是階躍星辰Step 3.5 Flash的開源,還是此前月之暗面Kimi K2.5的發(fā)布,都指向了Agent的能力,階躍星辰官方還透露已經(jīng)開啟Step 4模型的訓(xùn)練,同樣是Agent基礎(chǔ)模型。
Agent要求模型具備深度的邏輯推理、任務(wù)拆解、規(guī)劃執(zhí)行和工具調(diào)用能力,對模型“大腦”的性能要求更高。
模型大腦的技術(shù)迭代加速了AI技術(shù)的實用化進(jìn)程,或?qū)⒋呱鼜姶蟮纳a(chǎn)力工具,并可能圍繞智能體形成新的競爭格局。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.