印奇掛帥后，階躍星辰最強開源模型登場！六大AI芯片已適配

2026-02-02 16:14:14　來源: 智東西

北京舉報

分享至

智東西

作者 | 王涵

編輯 | 心緣

智東西2月2日報道，今日，階躍星辰Step 3.5 Flash開源并上線，該模型在Agent場景和數(shù)學(xué)任務(wù)上能力逼近閉源模型，能夠勝任復(fù)雜、長鏈條任務(wù)，是階躍星辰迄今最強的開源基座模型。

Step 3.5 Flash開源頁面（來源：Hugging Face）

就在上周，階躍星辰宣布由曠視科技聯(lián)合創(chuàng)始人、千里科技董事長印奇正式出任董事長，并完成華勤、騰訊等參投的超50億元B+輪融資。這也是印奇履新后，階躍星辰在開源模型領(lǐng)域的首個大動作。

在智能密度對比圖中可以看出，Step 3.5 Flash以約200B的參數(shù)量，取得了81.0的分?jǐn)?shù)，在所有模型中智能密度最高。在單請求代碼類任務(wù)中，Step 3.5 Flash的推理速度最高可達(dá)到350TPS。

智能密度對比圖

Step 3.5 Flash采用稀疏MoE架構(gòu)，每個token僅激活約110億個參數(shù)（總計1960億參數(shù)），在保證模型能力的同時提升推理效率。

包括華為昇騰、沐曦股份、壁仞科技、燧原科技、天數(shù)智芯、阿里平頭哥在內(nèi)的多家芯片廠商，已率先完成對Step 3.5 Flash的適配。

開源地址：

GitHub：

https://github.com/stepfun-ai/Step-3.5-Flash/tree/main

Hugging Face：

https://huggingface.co/stepfun-ai/Step-3.5-Flash

一、性能全面逼近閉源大模型，最高推理速度達(dá)350TPS

在基準(zhǔn)測試成績上，推理能力方面，Step 3.5 Flash在AIME 2025、IMOAnswerBench、HMMT 2025等數(shù)學(xué)競賽級任務(wù)中分別取得了97.3、88.8、96.2的分?jǐn)?shù)，均排名第二，Step 3.5 Flash開啟Parallel Thinking后的增強性能排名第一。

在編碼能力上，Step 3.5 Flash在LiveCodeBench-V6測試中得分86.4，排名第三，開啟Parallel Thinking后，其僅次于Gemini 3.0 Pro。

在智能Agent能力上，Step 3.5 Flash在BrowseComp測試中得分69.0，僅次于kimi K2.5；在xbench-DeepSearch測試得分54.0，僅次于GPT-5.2 xhigh。

基準(zhǔn)測試成績

該模型采用稀疏混合專家（MoE）架構(gòu)，總參數(shù)量達(dá)1960億，單個token僅需激活約110億參數(shù)。

針對長文本處理場景，Step 3.5 Flash三路多Token預(yù)測（MTP-3）技術(shù)，Step 3.5 Flash在典型使用場景中實現(xiàn)了每秒100-300個token的生成吞吐量，在單請求代碼類任務(wù)中峰值可達(dá)350TPS。

在長上下文任務(wù)中，模型僅聚焦關(guān)鍵信息區(qū)域，降低冗余計算開銷，可支撐256K長度的長文本理解與生成。

據(jù)官方介紹，Step 3.5 Flash專為智能體任務(wù)構(gòu)建，集成了可擴展的強化學(xué)習(xí)框架以實現(xiàn)持續(xù)的自我改進(jìn)。

該模型通過采用3:1滑動窗口注意力（SWA）比例，即每層全注意力層配以三層SWA層。這種混合方法確保模型在處理海量數(shù)據(jù)或長代碼庫時性能穩(wěn)定，同時降低了標(biāo)準(zhǔn)長上下文模型通常所需的計算開銷。

針對可訪問性優(yōu)化，Step 3.5 Flash可以在高端消費級硬件，如Mac Studio M4 Max、NVIDIA DGX Spark等上安全運行，確保數(shù)據(jù)私密性的同時不犧牲性能。

二、幾秒算出等差數(shù)列，還能一句話搭建可視化平臺

智東西第一時間上手體驗，首先數(shù)學(xué)方面，我們先考考Step 3.5 Flash一個把很多大模型都難倒了的問題：9.9和9.11誰大？Step 3.5 Flash幾乎立刻就給出了思考過程和正確答案。

那再復(fù)雜一些的數(shù)學(xué)題呢？階躍星辰官方給出案例，Step 3.5 Flash可以快速計算復(fù)雜數(shù)學(xué)題并輸出正確答案。

Prompt：請在不使用外部工具的情況下，依次計算并列出以下等差數(shù)列的和：從第1項開始，首項為100，公差為-3的前50項和；13+23+…+103的和；1!+2!+3!+4!+5!的和；2^10+3^5的和；√144+?125+?√16的和。

快速計算復(fù)雜數(shù)學(xué)題

在智能體編程方面，Step 3.5 Flash可以基于一段文字prompt自動編程輸出可視化平臺結(jié)果。

我們讓Step 3.5 Flash生成一個模擬海浪平臺，可以看到，其生成的可視化平臺可以調(diào)節(jié)海浪的頻率和形態(tài)，還可以調(diào)整攝像頭的位置，生成效果基本符合要求。

生成模擬海浪平臺

官方給出了一個生成氣象情報儀表盤的例子：

Prompt：氣象情報儀表盤——一款受飛行駕駛艙啟發(fā)的三維地球可視化平臺，專為高密度數(shù)據(jù)環(huán)境設(shè)計。其搭載的定制WebGL 2.0引擎，可實時處理超過15000個動態(tài)節(jié)點及WebSocket遙測數(shù)據(jù)流。

生成結(jié)果顯示，Step 3.5 Flash展現(xiàn)出了構(gòu)建低延遲數(shù)據(jù)管道與高性能地理空間可視化系統(tǒng)的能力。

生成氣象情報儀表盤

Step 3.5 Flash也原生支持多智能體架構(gòu)，其中一個主智能體通過自主規(guī)劃和動態(tài)路由來協(xié)調(diào)復(fù)雜任務(wù)。

這個分層框架會派遣專門的“搜索”和“驗證”智能體，通過并行工具調(diào)用循環(huán)來處理信息檢索和事實核查。為確保精確性，一個“總結(jié)”智能體會將每個子智能體的執(zhí)行軌跡整合為結(jié)構(gòu)化反饋，使主智能體能夠綜合生成最終連貫的響應(yīng)。

多智能體深度研究

Step 3.5 Flash還可以端云結(jié)合，簡化本地端執(zhí)行流程。例如，用戶提出對比Mac Mini M4在各平臺的價格。

Step 3.5 Flash作為“云端大腦”，將這一復(fù)雜需求拆解為針對淘寶、京東和拼多多的具體子任務(wù)。隨后Step 3.5 Flash匯總結(jié)果，識別出拼多多為最低價平臺，并提供購買指南。

這種云端規(guī)劃顯著降低了本地Step-GUI的執(zhí)行難度，使其在從各應(yīng)用抓取實時數(shù)據(jù)時獲得更高成功率。

對比Mac Mini M4在各平臺的價格

結(jié)語：Agent能力成為新戰(zhàn)場

無論是階躍星辰Step 3.5 Flash的開源，還是此前月之暗面Kimi K2.5的發(fā)布，都指向了Agent的能力，階躍星辰官方還透露已經(jīng)開啟Step 4模型的訓(xùn)練，同樣是Agent基礎(chǔ)模型。

Agent要求模型具備深度的邏輯推理、任務(wù)拆解、規(guī)劃執(zhí)行和工具調(diào)用能力，對模型“大腦”的性能要求更高。

模型大腦的技術(shù)迭代加速了AI技術(shù)的實用化進(jìn)程，或?qū)⒋呱鼜姶蟮纳a(chǎn)力工具，并可能圍繞智能體形成新的競爭格局。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.