字節在過年前發了Seed2.0,準備加持豆包投入一場首次中國全民參與的AI場景。
我們認真閱讀了全英文的模型卡,Seed2.0: Towards Intelligence Frontier for Real-World Complexity。這份79頁的文件,可能是自DeepSeek V3/R1以來,中國AI實驗室最有意思的AI技術說明文獻。Seed2.0的全部意義,并不在簡體中文稿件里。
下面我們劃下重點。
1,Seed想擺脫它與中國的開源模型站隊,而是想定位為一家全球性的、一流的AI實驗室。
讀下這段:“Seed 模型并非輕量化對話模型,而是面向工作流的模型即服務(MaaS)基礎模型,其核心能力聚焦于多模態理解、長上下文推理、結構化生成與工具增強執行,以可靠地完成企業端到端任務。
在全球范圍內,這一技術路線與 OpenAI、Anthropic、Google Cloud 近期發布的企業人工智能報告方向一致,這些報告均將軟件工程、科研、分析、客戶支持與知識工作列為增長最快的企業人工智能應用領域。”
2,Seed公布了中國內地各行業和各應用場景的初步token用量,從中可以看出,中國的AI應用仍然由互聯網絕對主導,從應用場景上看,高經濟價值的應用占比非常小。
token消耗量
![]()
(來源:Seed2.0模型卡)
行業:從左圖可以看出,互聯網行業的流量(應該是token消耗量)占比超過75%,消費電子占比略超10%,其他所有行業如金融、新零售、商業服務、制造業、通信、汽車等,各自占比都不及1%。
應用場景:從右圖來自字節合作獎勵計劃中的數據分布,可以看到非結構化信息處理占了近40%,其余的教育和內容創作各自占比約12%左右,搜索和推薦占比超過10%,社交陪伴約占8%左右,其余企業服務部分(to B)如專業咨詢、消費服務和銷售、質量檢驗、編程、結構化信息處理等,各自都占5%以下的比重。
以上說明中國大模型的應用,與中國的互聯網行業高度同構,即絕大多數用于消費場景,而在企業服務方面發展較慢。
順便說一句,當字節開始定期宣布它的token消耗數量時,就很快與Gemini和OpenAI處于一個量級。未盡研究也領先從token統計分析進行token經濟研究:
(2024/05) (2025/07) (2025/10) (2025/12) (2026/02)
3,Seed建立了一個新型的評測基準體系,包括這次新推出的完全自研、基于外部基準優化 / 適配、和自研子集 / 衍生版本三類。
完全自研且新推的基準:主要集中在 長尾專業知識(LPFQA/Encyclo-K)、中文復雜場景(中文復雜指令基準)、端到端生產任務(NL2Repo-Bench/Trae In-House Bench)、價值導向場景(ToB 系列 / WorldTravel)和 模型診斷(自動化行為診斷基準),核心是填補現有外部基準的評估缺口(如中文適配、企業實用價值、Agent 長周期任務)。
非完全自研的基準:主要是對外部成熟基準的 適配優化 或 質量提純,目的是確保評估的客觀性(與國際前沿模型對比)和可靠性(剔除低質量用例),避免重復造輪子。
設計邏輯:Seed2.0 的基準策略是 “自研補缺口 + 外部做對比”—— 自研基準聚焦真實場景、中文需求、價值落地等外部基準覆蓋不足的領域,外部基準用于驗證核心能力與國際前沿的差距,兩者結合形成完整評估體系。
4,Seed在報告中披露,它在評測中采用了自己的token統計方式,與OpenAI的統計方式有所不同。
![]()
在長上下文多步推理基準(Graphwalks)中,Seed使用了內部自研的分詞流水線,這導致在token統計方式上與OpenAI官方Graphwalks的分詞和評分設置存在不一致,主要影響Graphwalks這類對token計數敏感的評測,但也會在一定程度上影響其他項目的結果。
在聲明評測差異的前提下,Seed2.0公布與其他模型的對比,是為了清晰展示自身能力的區間和獨特價值,這是行業內的一種慣例,客觀上也能淡化“跑分競賽”式的刷榜行為。
5,非常罕見,Seed2.0在中國的AI實驗室的官方報告中沒有隱瞞自己的差距。
“Seed2.0系列與國際前沿LLM相比仍存在差距。以SWE-Evo和NL2Repo為例,Seed2.0系列在編碼方面與Claude存在相當大的差距。以SuperGPQA和SimpleQA-Verified為例,Seed2.0系列在與用戶體驗密切相關的長尾知識方面與Gemini存在較為明顯的差距。”
SWE-bench 驗證結果:Seed得分 76.5%,Opus 得分 80.9%。在業內公認的編碼代理基準測試中,兩者相差 4.4 分。在 NL2Repo(根據規范構建完整代碼庫)測試中,Seed 得分 27.9,而 Opus 得分 43.2。差距懸殊。
在SimpleQA-Verified這一事實準確性基準測試中,Seed的得分為36.0,而Gemini的得分為72.1。這相差36個百分點。
6,吳永輝參與過谷歌DeepMind追趕OpenAI;領導Seed實驗室,正在追趕Gemini,OpenAI,還有Anthropic。
吳永輝2008年博士畢業后加入 Google,參與了谷歌最核心的搜索排名工程,在Google Brain推動深度學習改變翻譯領域、并提升搜索排名算法;2023,在DeepMind與Google Brain合并后,成為谷歌DeepMind 研究副總裁,參與了Gemini對GPT-4的追趕與翻盤 。
2025年2月初,吳永輝加入字節,擔任領導Seed實驗室的副總裁。當時DeepSeek震撼了中美,并把Seed甩下。吳永輝相當于又在中國參與了一場追趕與翻盤。這一次是在中國閉源打開源。
模型卡中沒有透露參數規模,據《晚點》報道,2.0是吳永輝接管Seed一年最核心的產出。它是一款類似Gemini的多模態模型,是Seed成立以來訓練的最大模型,達到了萬億參數。
吳永輝的工作方式和模型目標,都帶一定的谷歌DeepMind色彩,如多模態、長上下文,深度思考與分析能力,以及對科學智能的追求。他想把Seed做成一個研究品牌,同時具備很強的工程與產品能力,其中大量的經驗,來自DeepMind。同時,2.0又強調它是一個能完成實際工作的目標,在AI編程方面對標Anthropic。
7,既然Seed2.0大方地承認了它在一些方面的不足,那么其他更多方面的逼平或者超越世界一流的評測得分,它也就當仁不讓了。且看下表(字體加粗就是第一):
先看大型基礎語言模型。Seed2.0 Pro落后于GPT-5.2 High和Gemini-3-pro-High,但領先于Clause-Opus-4.5。
![]()
再看效率型的基礎語言模型,Seek2.0 Lite,落后于Gemini-3-Flash-High,和GPT-5-mini High
![]()
在視覺-語言的評測分數上,Seed2.0 Pro明顯領先。
![]()
在公共視頻理解方面,Seed2.0 Pro更是遙遙領先。
![]()
在大模型的基礎智能體能力中,Seed2.0明顯領先Gemini-3-pro-High,與GPT-5.2 High和Claude-Opus-4.5處于相當水平 。
![]()
在效率型的基礎智能體能力方面,Seed2.0 Lite比GPT-5-mini-High和Gemini-3-Flash-High顯示出一定優勢。
![]()
在大模型完成高經濟與科學價值的評測中,Seed2.0落后于GPT-5.2-High,與Gemini-3-pro-High處于相當水平 。
![]()
在效率基礎模型完成高經濟與科學價值的評測中,Seed2.0開始顯示出優勢,尤其是在真實世界的任務中。
![]()
8,總之,Seed2.0在多模態、智能體的實際工作能力等方面實現了趕超,尤其是在視頻理解方面,占據了明顯的優勢。在效率型模型的各方面能力上,開始顯示出優勢,這點表現與中國開源模型的比較優勢一致。總體來說,作為中國的一家閉源模型,它理應達到總體上更加接近世界頂流AI實驗室的水平——現在基本上實現了。但是,它還有一個巨大的優勢,在于價格:
下面是API token預填充/解碼(prefill/decode) 的價格比較(美元/百萬token),Seed2.0在各個量級上,都保持了低一個數量級的價位。但是,在與美國對手競爭之前,它首先面臨著中國開源模型更加激進低價的內卷。
![]()
Seed2.0的標志性意義在于,中國以開源模型軍團作戰、快速跟隨為特色的AI競爭力,現在補上了閉源模型這一塊,也有一家中國的實驗室,可以步步緊逼和局部超越國際頂流AI實驗室了。
One More Thing
與此同時,Seed還處于“技術補債”的過程當中,尤其是它的infra能否馬上滿足它的模型雄心,如它的視頻生成的時延,在普通用戶那里已經超過了一個小時;它的Seedance2.0視頻訓練數據引發了國際上的侵權譴責和調查;以及在發布和內部評測初期,在引起測評小圈子和自媒體尖叫的同時,一度違反了禁止deepfake、保護真人權益的國際AI慣例。
Seed2.0加持的豆包大模型,即將登場春晚,與參與地方電視春晚的其他模型一起,將共同形成第一個全國大型活動上的全民AI應用場景。Seedance2.0目前暫不支持輸入真人圖片或視頻作為主體參考,也不支持生成涉及迪士尼、熊出沒等IP形象的視頻內容。
參考:
Seed2.0模型卡:
https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/seed2/0214/Seed2.0%20Model%20Card.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.