網易首頁 > 網易號 > 正文申請入駐

關于豆包的Seed2.0，簡體中文沒有告訴你，這些非常要害和誠實的細節 | 以Agen為馬

2026-02-15 23:30:34　來源: 未盡研究

上海舉報

分享至

字節在過年前發了Seed2.0，準備加持豆包投入一場首次中國全民參與的AI場景。

我們認真閱讀了全英文的模型卡，Seed2.0: Towards Intelligence Frontier for Real-World Complexity。這份79頁的文件，可能是自DeepSeek V3/R1以來，中國AI實驗室最有意思的AI技術說明文獻。Seed2.0的全部意義，并不在簡體中文稿件里。

下面我們劃下重點。

1，Seed想擺脫它與中國的開源模型站隊，而是想定位為一家全球性的、一流的AI實驗室。

讀下這段：“Seed 模型并非輕量化對話模型，而是面向工作流的模型即服務（MaaS）基礎模型，其核心能力聚焦于多模態理解、長上下文推理、結構化生成與工具增強執行，以可靠地完成企業端到端任務。

在全球范圍內，這一技術路線與 OpenAI、Anthropic、Google Cloud 近期發布的企業人工智能報告方向一致，這些報告均將軟件工程、科研、分析、客戶支持與知識工作列為增長最快的企業人工智能應用領域。”

2，Seed公布了中國內地各行業和各應用場景的初步token用量，從中可以看出，中國的AI應用仍然由互聯網絕對主導，從應用場景上看，高經濟價值的應用占比非常小。

token消耗量

（來源：Seed2.0模型卡）

行業：從左圖可以看出，互聯網行業的流量（應該是token消耗量）占比超過75%，消費電子占比略超10%，其他所有行業如金融、新零售、商業服務、制造業、通信、汽車等，各自占比都不及1%。

應用場景：從右圖來自字節合作獎勵計劃中的數據分布，可以看到非結構化信息處理占了近40%，其余的教育和內容創作各自占比約12%左右，搜索和推薦占比超過10%，社交陪伴約占8%左右，其余企業服務部分（to B）如專業咨詢、消費服務和銷售、質量檢驗、編程、結構化信息處理等，各自都占5%以下的比重。

以上說明中國大模型的應用，與中國的互聯網行業高度同構，即絕大多數用于消費場景，而在企業服務方面發展較慢。

順便說一句，當字節開始定期宣布它的token消耗數量時，就很快與Gemini和OpenAI處于一個量級。未盡研究也領先從token統計分析進行token經濟研究：

（2024/05）（2025/07）（2025/10）（2025/12）（2026/02）

3，Seed建立了一個新型的評測基準體系，包括這次新推出的完全自研、基于外部基準優化 / 適配、和自研子集 / 衍生版本三類。

完全自研且新推的基準：主要集中在長尾專業知識（LPFQA/Encyclo-K）、中文復雜場景（中文復雜指令基準）、端到端生產任務（NL2Repo-Bench/Trae In-House Bench）、價值導向場景（ToB 系列 / WorldTravel）和模型診斷（自動化行為診斷基準），核心是填補現有外部基準的評估缺口（如中文適配、企業實用價值、Agent 長周期任務）。

非完全自研的基準：主要是對外部成熟基準的適配優化或質量提純，目的是確保評估的客觀性（與國際前沿模型對比）和可靠性（剔除低質量用例），避免重復造輪子。

設計邏輯：Seed2.0 的基準策略是 “自研補缺口 + 外部做對比”—— 自研基準聚焦真實場景、中文需求、價值落地等外部基準覆蓋不足的領域，外部基準用于驗證核心能力與國際前沿的差距，兩者結合形成完整評估體系。

4，Seed在報告中披露，它在評測中采用了自己的token統計方式，與OpenAI的統計方式有所不同。

在長上下文多步推理基準(Graphwalks)中，Seed使用了內部自研的分詞流水線，這導致在token統計方式上與OpenAI官方Graphwalks的分詞和評分設置存在不一致，主要影響Graphwalks這類對token計數敏感的評測，但也會在一定程度上影響其他項目的結果。

在聲明評測差異的前提下，Seed2.0公布與其他模型的對比，是為了清晰展示自身能力的區間和獨特價值，這是行業內的一種慣例，客觀上也能淡化“跑分競賽”式的刷榜行為。

5，非常罕見，Seed2.0在中國的AI實驗室的官方報告中沒有隱瞞自己的差距。

“Seed2.0系列與國際前沿LLM相比仍存在差距。以SWE-Evo和NL2Repo為例，Seed2.0系列在編碼方面與Claude存在相當大的差距。以SuperGPQA和SimpleQA-Verified為例，Seed2.0系列在與用戶體驗密切相關的長尾知識方面與Gemini存在較為明顯的差距。”

SWE-bench 驗證結果：Seed得分 76.5%，Opus 得分 80.9%。在業內公認的編碼代理基準測試中，兩者相差 4.4 分。在 NL2Repo（根據規范構建完整代碼庫）測試中，Seed 得分 27.9，而 Opus 得分 43.2。差距懸殊。

在SimpleQA-Verified這一事實準確性基準測試中，Seed的得分為36.0，而Gemini的得分為72.1。這相差36個百分點。

6，吳永輝參與過谷歌DeepMind追趕OpenAI；領導Seed實驗室，正在追趕Gemini，OpenAI，還有Anthropic。

吳永輝2008年博士畢業后加入 Google，參與了谷歌最核心的搜索排名工程，在Google Brain推動深度學習改變翻譯領域、并提升搜索排名算法；2023，在DeepMind與Google Brain合并后，成為谷歌DeepMind 研究副總裁，參與了Gemini對GPT-4的追趕與翻盤。

2025年2月初，吳永輝加入字節，擔任領導Seed實驗室的副總裁。當時DeepSeek震撼了中美，并把Seed甩下。吳永輝相當于又在中國參與了一場追趕與翻盤。這一次是在中國閉源打開源。

模型卡中沒有透露參數規模，據《晚點》報道，2.0是吳永輝接管Seed一年最核心的產出。它是一款類似Gemini的多模態模型，是Seed成立以來訓練的最大模型，達到了萬億參數。

吳永輝的工作方式和模型目標，都帶一定的谷歌DeepMind色彩，如多模態、長上下文，深度思考與分析能力，以及對科學智能的追求。他想把Seed做成一個研究品牌，同時具備很強的工程與產品能力，其中大量的經驗，來自DeepMind。同時，2.0又強調它是一個能完成實際工作的目標，在AI編程方面對標Anthropic。

7，既然Seed2.0大方地承認了它在一些方面的不足，那么其他更多方面的逼平或者超越世界一流的評測得分，它也就當仁不讓了。且看下表（字體加粗就是第一）：

先看大型基礎語言模型。Seed2.0 Pro落后于GPT-5.2 High和Gemini-3-pro-High,但領先于Clause-Opus-4.5。

再看效率型的基礎語言模型，Seek2.0 Lite，落后于Gemini-3-Flash-High，和GPT-5-mini High

在視覺-語言的評測分數上，Seed2.0 Pro明顯領先。

在公共視頻理解方面，Seed2.0 Pro更是遙遙領先。

在大模型的基礎智能體能力中，Seed2.0明顯領先Gemini-3-pro-High，與GPT-5.2 High和Claude-Opus-4.5處于相當水平。

在效率型的基礎智能體能力方面，Seed2.0 Lite比GPT-5-mini-High和Gemini-3-Flash-High顯示出一定優勢。

在大模型完成高經濟與科學價值的評測中，Seed2.0落后于GPT-5.2-High，與Gemini-3-pro-High處于相當水平。

在效率基礎模型完成高經濟與科學價值的評測中，Seed2.0開始顯示出優勢，尤其是在真實世界的任務中。

8，總之，Seed2.0在多模態、智能體的實際工作能力等方面實現了趕超，尤其是在視頻理解方面，占據了明顯的優勢。在效率型模型的各方面能力上，開始顯示出優勢，這點表現與中國開源模型的比較優勢一致。總體來說，作為中國的一家閉源模型，它理應達到總體上更加接近世界頂流AI實驗室的水平——現在基本上實現了。但是，它還有一個巨大的優勢，在于價格：

下面是API token預填充/解碼(prefill/decode) 的價格比較（美元/百萬token），Seed2.0在各個量級上，都保持了低一個數量級的價位。但是，在與美國對手競爭之前，它首先面臨著中國開源模型更加激進低價的內卷。

Seed2.0的標志性意義在于，中國以開源模型軍團作戰、快速跟隨為特色的AI競爭力，現在補上了閉源模型這一塊，也有一家中國的實驗室，可以步步緊逼和局部超越國際頂流AI實驗室了。

One More Thing

與此同時，Seed還處于“技術補債”的過程當中，尤其是它的infra能否馬上滿足它的模型雄心，如它的視頻生成的時延，在普通用戶那里已經超過了一個小時；它的Seedance2.0視頻訓練數據引發了國際上的侵權譴責和調查；以及在發布和內部評測初期，在引起測評小圈子和自媒體尖叫的同時，一度違反了禁止deepfake、保護真人權益的國際AI慣例。

Seed2.0加持的豆包大模型，即將登場春晚，與參與地方電視春晚的其他模型一起，將共同形成第一個全國大型活動上的全民AI應用場景。Seedance2.0目前暫不支持輸入真人圖片或視頻作為主體參考，也不支持生成涉及迪士尼、熊出沒等IP形象的視頻內容。

參考：

Seed2.0模型卡：

https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/seed2/0214/Seed2.0%20Model%20Card.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.