<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      階躍Step 3.5 Flash :春節(jié) AI 混戰(zhàn)殺出的黑馬,正在 Agent 時代彎道超車

      0
      分享至

      今年的 AI 圈,有點(diǎn)像 2008 年的智能手機(jī)市場,所有人都知道觸摸屏是未來,但廠商們都在做「帶觸摸屏的諾基亞」。

      Agent 時代已經(jīng)來了,這是共識。而怎么做一個好用的 Agent 模型?按照慣性思維,或許還是一樣,更多的參數(shù),更深更廣的網(wǎng)絡(luò)結(jié)構(gòu),還有更大的數(shù)據(jù)集。


      300B 不夠就 1T,1T 不夠就 10T。仿佛只要把模型做得足夠大,Agent 能力就會自然涌現(xiàn),就像只要把諾基亞的屏幕做得足夠大,iPhone 就會自己出現(xiàn)一樣。

      大參數(shù)模型確實(shí)帶來了更博學(xué)的知識面和更穩(wěn)健的底座,但這種一味在上一代模型上「優(yōu)化 」的方法,顯然不能讓我們手里的 Agent 更好用, Agent 時代需要 Agentic 的模型

      那有沒有一條更高效的、真正顛覆性思維的路線,不靠堆參數(shù),靠架構(gòu)優(yōu)化;不需要云端服務(wù)器獨(dú)占,本地也能跑;既是全能選手的同時,又有定向優(yōu)化。


      模型參數(shù)規(guī)模與智能對比圖,Step 3.5 Flash 總參數(shù)在圖中最少,但智能得分排名第二

      2 月 2 日,階躍星辰發(fā)布并開源了最新基座模型 Step 3.5 Flash,這是一個讓 Agent 更高效的底層支撐模型,采用稀疏 MoE 架構(gòu),總計(jì) 1960 億參數(shù),但每個 token 僅激活約 110 億個參數(shù)。

      這是大模型行業(yè)里一個十分反常識的數(shù)據(jù),在一眾卷向萬億參數(shù)的競爭對手面前。似乎顯得有些「掉隊(duì)」。然而就是這個看似「掉隊(duì)」的選擇,可能藏著 Agent 時代最大的秘密。

      L3 時代的模型,不能再沿著 L1 的梯子爬

      如果這放在半年前,階躍星辰可能還在做著另一件事。

      階躍星辰聯(lián)合創(chuàng)始人兼 CTO 朱亦博在最新的博客中提到,Step 2 模型時代,他們也曾是 Scaling Law(規(guī)模定律)的忠實(shí)信徒。和當(dāng)時所有的模型廠商一樣,他們認(rèn)真地爬著那座名為參數(shù)的梯子,設(shè)計(jì)了比 DeepSeek V3 還要大的參數(shù)量,甚至比對方早訓(xùn)練了好幾個月。

      結(jié)果是,雖然跑分一度輝煌,但在 DeepSeek R1 的推理范式面前,傳統(tǒng)的堆料邏輯還是遭遇了 降維打擊

      原因很簡單,DeepSeek R1 是一個時代的跨越,從 L1 的 Chatbot 到 L2 的 Reasoner,繼續(xù)用 Chatbot 的思維去做推理模型,不一定會失敗,但注定要碰壁。

      這不僅是階躍星辰的復(fù)盤,更是整個行業(yè)的縮影。痛定思痛后,他們發(fā)現(xiàn)了一個被忽略的真相: L1 時代的 Chatbot(聊天機(jī)器人)和 L3 時代的 Agent(智能體),需要的是兩種不同的模型


      OpenAI 的五級框架,從第一級的聊天機(jī)器人,到推理、智能體、創(chuàng)新者和第五級的組織體

      按照 OpenAI 的五級架構(gòu),我們正在經(jīng)歷從 L2 Reasoner(推理) 邁入 L3 Agent(智能體) 的跨越。

      L1 Chatbot 時代 :核心需求是對話流暢度,模型只要能快速響應(yīng)、自然表達(dá)就夠了。我們需要的可能是一個會背百科全書的「文科生」,它足夠博學(xué),能隨口復(fù)刻魯迅風(fēng)。此時,每秒 20-30 個 token 的輸出速度,剛好適配人類的閱讀習(xí)慣 。

      L2 Reasoner 時代 :長思維鏈出現(xiàn),我們需要模型展現(xiàn)完整的深度思考。看著長長的思考過程,我們覺得它聰明,甚至愿意為了更準(zhǔn)確的結(jié)果等待數(shù)十秒 。


      L3 Agent 時代 :特征徹底變了。工作場景的上下文常駐 32K-128K 區(qū)間,我們不再逐字閱讀輸出,只盯著「什么時候能交付結(jié)果」。

      在這種場景下,繼續(xù)沿用 L2 時代的重型參數(shù)模型,打個比方可以說是,帶著鰲太線的裝備去爬佘山「滬太線」,雖然儲備充足,但效率變低,且算力代價極其昂貴 。

      Agent 在某種程度上,甚至可以說不再是給用戶看的,而是給任務(wù)用的。它需要長上下文的高效運(yùn)行,能輕松處理幾十萬 token 的代碼庫;以及速度的提升,這能直接決定用戶體驗(yàn);而核心還是規(guī)劃和工具調(diào)用。

      如果繼續(xù)用 L1 時代的重型模型去跑 L3 的任務(wù),就像開著法拉利去送外賣——不僅貴,而且在擁堵的「長上下文」路況里,根本跑不起來。

      這也解釋了為什么階躍敢于反其道而行,掏出 Step 3.5 Flash這個「新物種」,專注于「快」與「強(qiáng)邏輯」。這種取舍乍看之下與行業(yè)格格不入,卻有了更多的可能性。

      天下武功,唯快不破:Agent 時代的「暴力美學(xué)」

      Agent 時代,「快」不再是一種錦上添花,直接是模型生死線。

      朱亦博指出了一個極易被忽視的細(xì)節(jié),在 Chatbot 時代,模型輸出只要快過人類閱讀速度(20-30 tokens/s)就夠了,再快我們也讀不過來。 但在 Agent 時代,這個標(biāo)準(zhǔn)完全失效

      為什么?因?yàn)橛脩舾静幌肟催^程。當(dāng) AI 幫我們寫代碼、查資料、訂機(jī)票時,我們不會盯著屏幕看它一個字一個字往外蹦,我們只想要結(jié)果。

      在這個階段,速度不再是體驗(yàn),而是生產(chǎn)力本身,直接決定了任務(wù)交付的效率。

      為了實(shí)現(xiàn)這種極致的「快」,階躍星辰在技術(shù)路線上做了一次豪賭。


      Step 3.5 Flash 整體架構(gòu),Step 3.5 Flash 是一款采用稀疏混合專家(MoE)架構(gòu)的大語言模型,其架構(gòu)由模型-系統(tǒng)協(xié)同設(shè)計(jì)定義,并且將 推理成本和速度作為核心架構(gòu) 約束。

      在同行都在盲目跟風(fēng) Linear Attention(線性注意力機(jī)制)時,Step 3.5 Flash 堅(jiān)持選擇了 SWA(滑動窗口注意力) 架構(gòu)。這種混合注意力布局,一方面能更快的處理 Token 計(jì)算,另一方面也解決了長上下文處理的二次瓶頸。

      簡單來說,它不是死記硬背 256K 的全文,而是像人類一樣,有重點(diǎn)、有節(jié)奏地分配注意力。這讓它在處理海量數(shù)據(jù)時,不僅不降智,還能大幅降低算力開銷。

      看起來是一種「逆行」, 其實(shí)正是 Agent 時代「以巧見大」的精算 。因?yàn)樵诋?dāng)前的硬件條件下,SWA 對投機(jī)采樣(Speculative Sampling)最為友好。這種技術(shù)上的取舍,直接將單請求代碼類任務(wù)的推理速度干到了最高 350 tokens/s

      快如閃電的「瞬殺」,是直接將 AI 從「玩具」變成生產(chǎn)力工具的 決定性瞬間在 Step 3.5 Flash 發(fā)布首日,就登上 OpenRouter Fastest Models 榜單


      根據(jù) OpenRouter 最新發(fā)布的 Fastest Models 排名顯示, Step 3.5 Flash 的生成速率達(dá)到 167 Tokens/s,位列全球最快模型之列。

      拒絕「背題家」,高智商才是第一生產(chǎn)力

      跑得快不能以「降智」為代價,衡量一個模型適不適合做 Agent,「 高智商 」也是必不可少。

      無論是我們用戶還是大多數(shù)模型廠,普遍的共識都是:參數(shù)越大,能力越強(qiáng)。但 Step 3.5 Flash 在數(shù)學(xué)領(lǐng)域的屠榜表現(xiàn),用 合適尺寸 + 極致后訓(xùn)練 ,也得到了不輸大參數(shù)模型的效果。


      在 AIME 2025(美國數(shù)學(xué)邀請賽)中,它拿下了 97.3 分;

      在 IMOAnswerBench(國際數(shù)學(xué)奧林匹克題基準(zhǔn))中斬獲 85.4 分;

      在 HMMT 2025(哈佛 - 麻省理工數(shù)學(xué)競賽)中更是飆到了 96.2 分。

      這是什么概念?這些分?jǐn)?shù)均為國內(nèi)頂級開源模型第一。

      如果開啟并行協(xié)同推理(PaCoRe)模式,它的得分甚至逼近滿分。這種「智商溢出」的現(xiàn)象背后,藏著一個極其隱晦但精準(zhǔn)的行業(yè)真相: 過去的模型像是個「背題家」,靠死記硬背海量數(shù)據(jù)來蒙混過關(guān);而 Step 3.5 Flash 是個真正的「解題家」。


      PaCoRe(Parallel Coordinated Reasoning)的推理流程。每一輪啟動廣泛的并行探索,將生成的軌跡壓縮成緊湊的信息,并將這些信息與問題一起傳遞,以協(xié)調(diào)下一輪。重復(fù)此過程 ? 次,可在遵守固定上下文限制的同時,實(shí)現(xiàn)數(shù)百萬標(biāo)記的有效 TTC(測試時計(jì)算),最終壓縮的信息作為系統(tǒng)的答案。

      在 Agent 的工作流中,這種能力是致命的。因?yàn)檎鎸?shí)世界的任務(wù)充滿了未知,我們要的不是一個只會復(fù)讀知識點(diǎn)的鸚鵡,而是一個能看懂復(fù)雜指令、能拆解任務(wù)邏輯、能自我糾錯的「超級大腦」。

      推理能力證明了智商在線,但 Agent 還需要干活靠譜。Step 3.5 Flash 在多個關(guān)鍵場景拿到了國內(nèi)開源第一。

      代碼能力:全球第一梯隊(duì)


      SWE-bench Verified: 74.4 分(真實(shí)開源項(xiàng)目的 bug 修復(fù))

      Terminal-Bench 2.0: 51 分(國內(nèi)開源第一,終端任務(wù)自動化)

      LiveCodeBench-V6: 86.4/88.9 分(國內(nèi)開源第一,實(shí)時編碼調(diào)試)

      Agent 核心能力:多項(xiàng)國內(nèi)開源第一


      τ2-Bench: 88.2 分(國內(nèi)開源第一,多步任務(wù)規(guī)劃)

      xbench-DeepSearch: 54 分(國內(nèi)開源第一,深度搜索與信息整合)

      BrowseComp: 69 分(第一梯隊(duì),網(wǎng)頁瀏覽與上下文管理)

      數(shù)據(jù)再漂亮,也得經(jīng)得起真實(shí)場景的檢驗(yàn) 。在下面這幾個典型場景中,Step 3.5 Flash 也驗(yàn)證了「以巧見大,快如閃電」不是口號。

      普遍常識里,用 Deep Research 寫分析報告,可能會覺得需要模型有引經(jīng)據(jù)典的文采,但實(shí)際上還是依賴強(qiáng)大的邏輯推理和工具調(diào)用能力。

      給它一個模糊的課題,比如「0-3 歲嬰幼兒科學(xué)教育」,它不會直接胡編亂造,而是像一個真正的人類研究員一樣,拆解任務(wù)、規(guī)劃路徑、聯(lián)網(wǎng)搜索、反思修正,然后交給我們一份內(nèi)容翔實(shí)、新手父母都能看懂的萬字報告。


      在 Scale AI 的 Research Rubrics 評測中,它的得分甚至壓過了 OpenAI 和 Gemini 的同類系統(tǒng)。這也進(jìn)一步說明,它已經(jīng)具備了獨(dú)立干活的「邏輯閉環(huán)」。


      Step 3.5 Flash 同樣能接入 Claude Code 環(huán)境,當(dāng)要模型擔(dān)任一名專業(yè)數(shù)據(jù)分析師,面對復(fù)雜的數(shù)據(jù)分析任務(wù)時,它不僅能自己寫代碼清洗數(shù)據(jù)、協(xié)助日常數(shù)據(jù)流程、對齊數(shù)據(jù)格式,還能直接產(chǎn)出工作流報告。

      無論是做 Deep Research 還是 Vibe Coding 項(xiàng)目,這些要么在階躍的官網(wǎng)完成,要么就是調(diào)用 API 的方式,但 Step 3.5 Flash 的野心遠(yuǎn)不止于從云端服務(wù)器拉取 AI 能力。

      朱亦博透露,為了跑模型,他甚至自掏腰包買了一臺設(shè)備。現(xiàn)在,Step 3.5 Flash 是目前能用 4-bit 量化,在 128GB 內(nèi)存的 MacBook 上流暢運(yùn)行 256K 超長上下文的最強(qiáng)模型, 沒有之一

      這句沒有之一,確實(shí)凸顯了技術(shù)人的倔強(qiáng)。或許,這也暗示了階躍星辰「AI + 終端」的終極圖謀: 最強(qiáng)的大腦,不應(yīng)該只活在昂貴的 H100 集群里,它應(yīng)該活在你的電腦里,甚至未來的手機(jī)里

      當(dāng)其他廠商還在卷融資、卷估值時,階躍星辰已經(jīng)默默地把高性能 Agent 的成本門檻,再一次降低。這正印證了那句戰(zhàn)略預(yù)判:大模型競爭的「表演賽」已經(jīng)結(jié)束,行業(yè)正式步入決定生死的「淘汰賽」。

      春節(jié) AI 大戰(zhàn)里,又一匹攪動大模型格局的黑馬

      在最近喧囂的 AI 發(fā)布混戰(zhàn)中,Step 3.5 Flash 這匹黑馬肯定其實(shí)有些被過于低估了,它不只是一個「高性價比」的模型,反而有點(diǎn)像一年前 DeepSeek 的突然出現(xiàn),給 AI 行業(yè)趟出了一條新路:

      在算力并不是無限的現(xiàn)實(shí)世界里,誰能用更精巧的架構(gòu)、更少的資源解決更復(fù)雜的問題,誰才是真正的贏家。

      那個靠堆參數(shù)就能騙到融資、靠刷榜單就能獲得掌聲的「草莽時代」已經(jīng)一去不復(fù)返。 接下來的戰(zhàn)爭,屬于那些不僅「腦子好使」,而且「手腳麻利」的物種。

      這種對「小型化、高效率」的堅(jiān)持,本質(zhì)上源于階躍星辰對 AGI 使命的執(zhí)著。朱亦博曾感慨,堅(jiān)持訓(xùn)練基模的意義,除了商業(yè)優(yōu)勢,就是為了那份 「一直以來的 AGI 夢想」。

      對階躍星辰來說,通往 AGI 的路徑不是靠賭一把大的,而是靠前瞻性的方法論,和對時代需求的精準(zhǔn)判斷。正如階躍星辰新任董事長印奇在采訪中所談到的,「做好基模、探索整個智能的上限是階躍的使命。」

      從 Step 1 到 Step 3.5,從多模態(tài)到語音,從云端到終端,AI 與物理空間的結(jié)合、與終端硬件的深度布局,都是階躍星辰走向最終 AGI 的必經(jīng)之路。


      當(dāng) AI 能力真正「飛入尋常百姓家」,技術(shù)競賽的終點(diǎn)也不再是算力軍備競賽,AI 開始更好地服務(wù)我們,每個人,中小企業(yè)、個人開發(fā)者、學(xué)生都能低成本,用得起頂級 Agent 能力,AGI 才不只是巨頭的游戲。

      以巧見大,快如閃電 。 這是 Step 3.5 Flash 給出的答案,也是階躍星辰對 AGI 使命的又一次靠近。

      那些堅(jiān)持夢想的人,終會走出自己的路。而這條路,已經(jīng)越來越清晰。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      不要輕易做手術(shù)!醫(yī)生提醒:62歲后,這5類手術(shù)可盡量避免

      不要輕易做手術(shù)!醫(yī)生提醒:62歲后,這5類手術(shù)可盡量避免

      今日養(yǎng)生之道
      2026-02-15 14:14:53
      火藥味拉滿!塔利班內(nèi)政部長放狠話:巴基斯坦或?qū)⒉粡?fù)存在

      火藥味拉滿!塔利班內(nèi)政部長放狠話:巴基斯坦或?qū)⒉粡?fù)存在

      老馬拉車莫少裝
      2026-02-23 18:53:33
      從33.27億跌到1.56億,我感慨:離開沈騰,馬麗也扛不起票房

      從33.27億跌到1.56億,我感慨:離開沈騰,馬麗也扛不起票房

      白公子探劇
      2026-02-21 23:34:43
      前中央政治局常委64歲主動請辭,臨終坦然:我死而無憾

      前中央政治局常委64歲主動請辭,臨終坦然:我死而無憾

      阿諢體育
      2026-02-13 04:28:34
      紫金礦業(yè)已經(jīng)殺眼紅了

      紫金礦業(yè)已經(jīng)殺眼紅了

      新浪財(cái)經(jīng)
      2026-02-23 19:57:50
      WTT戰(zhàn)報:早田3-2險勝,女單32強(qiáng)出爐,何卓佳下輪對手確定,穩(wěn)了

      WTT戰(zhàn)報:早田3-2險勝,女單32強(qiáng)出爐,何卓佳下輪對手確定,穩(wěn)了

      生活新鮮市
      2026-02-24 00:12:23
      代謝上去了,我瘦了20斤,總結(jié)出來的8個提升代謝的方法!

      代謝上去了,我瘦了20斤,總結(jié)出來的8個提升代謝的方法!

      運(yùn)動健身號
      2026-02-23 08:30:09
      判了,無期!斂財(cái)3.8億,偽裝了7年的勵志網(wǎng)紅,最終還是露餡了

      判了,無期!斂財(cái)3.8億,偽裝了7年的勵志網(wǎng)紅,最終還是露餡了

      蜉蝣說
      2025-10-21 09:19:12
      在質(zhì)疑聲中進(jìn)步 約克雷斯本賽季已進(jìn)15球 造阿森納8年新紀(jì)錄

      在質(zhì)疑聲中進(jìn)步 約克雷斯本賽季已進(jìn)15球 造阿森納8年新紀(jì)錄

      智道足球
      2026-02-23 17:49:53
      絕了!南京一學(xué)校突然通知明天(正月初八)開課!

      絕了!南京一學(xué)校突然通知明天(正月初八)開課!

      南京擇校
      2026-02-23 22:55:44
      84歲高明近況:喪子后在云南安享晚年,兒媳成依靠

      84歲高明近況:喪子后在云南安享晚年,兒媳成依靠

      秘密即將揭曉
      2026-02-24 04:00:36
      媽祖巡游事件的通報,有一個點(diǎn)很奇怪

      媽祖巡游事件的通報,有一個點(diǎn)很奇怪

      麥杰遜
      2026-02-23 13:07:38
      1只都不能抓!海南男子用籠子抓57只,連皮帶肉放冰箱

      1只都不能抓!海南男子用籠子抓57只,連皮帶肉放冰箱

      萬象硬核本尊
      2026-01-24 19:05:54
      奧特曼阿莫迪拒絕手拉手、純血中國機(jī)器狗被印度展示|AI八卦周刊

      奧特曼阿莫迪拒絕手拉手、純血中國機(jī)器狗被印度展示|AI八卦周刊

      字母榜
      2026-02-23 14:08:43
      高德和交警聯(lián)網(wǎng)了嗎?網(wǎng)友:高德敢聯(lián)網(wǎng),就會失去大量客戶

      高德和交警聯(lián)網(wǎng)了嗎?網(wǎng)友:高德敢聯(lián)網(wǎng),就會失去大量客戶

      夜深愛雜談
      2025-12-15 23:14:05
      菲斯競爭第三人先別急,多哈他已被阿卡打得釘在“恥辱榜”上!

      菲斯競爭第三人先別急,多哈他已被阿卡打得釘在“恥辱榜”上!

      網(wǎng)球之家
      2026-02-23 22:36:10
      艸,垃圾自媒體又帶節(jié)奏了!

      艸,垃圾自媒體又帶節(jié)奏了!

      林中木白
      2026-02-22 12:30:48
      央視直播24日新加坡大滿貫,王曼昱對鄭怡靜,王楚欽戰(zhàn)戶上隼輔

      央視直播24日新加坡大滿貫,王曼昱對鄭怡靜,王楚欽戰(zhàn)戶上隼輔

      乒乓球球
      2026-02-24 00:26:17
      美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

      美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

      悅心知足
      2026-02-21 23:03:46
      二流互聯(lián)網(wǎng)公司之殤

      二流互聯(lián)網(wǎng)公司之殤

      人人都是產(chǎn)品經(jīng)理社區(qū)
      2026-02-22 10:06:48
      2026-02-24 04:32:49
      AppSo incentive-icons
      AppSo
      讓智能手機(jī)更好用的秘密
      6121文章數(shù) 26774關(guān)注度
      往期回顧 全部

      科技要聞

      智譜、MiniMax合計(jì)蒸發(fā)近千億市值,為何?

      頭條要聞

      墨西哥最大毒梟被擊斃:喜歡殺人滅門 幾乎沒人看見過他

      頭條要聞

      墨西哥最大毒梟被擊斃:喜歡殺人滅門 幾乎沒人看見過他

      體育要聞

      哈登版騎士首敗:雷霆的冠軍課

      娛樂要聞

      那藝娜賬號被禁止關(guān)注,視頻已清空!

      財(cái)經(jīng)要聞

      美國海關(guān)將停止征收被裁定違法的關(guān)稅

      汽車要聞

      續(xù)航1810km!smart精靈#6 EHD超級電混2026年上市

      態(tài)度原創(chuàng)

      健康
      教育
      游戲
      時尚
      家居

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      教育要聞

      如何用好奇心與同齡人拉開差距?

      海盜PvE生存冒險《風(fēng)啟之旅》Steam愿望單破100萬

      今年春天一定要擁有的針織,這樣穿減齡又好看!

      家居要聞

      本真棲居 愛暖伴流年

      無障礙瀏覽 進(jìn)入關(guān)懷版