<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      關于豆包的Seed2.0,簡體中文沒有告訴你,這些非常要害和誠實的細節 | 以Agen為馬

      0
      分享至

      字節在過年前發了Seed2.0,準備加持豆包投入一場首次中國全民參與的AI場景。

      我們認真閱讀了全英文的模型卡,Seed2.0: Towards Intelligence Frontier for Real-World Complexity。這份79頁的文件,可能是自DeepSeek V3/R1以來,中國AI實驗室最有意思的AI技術說明文獻。Seed2.0的全部意義,并不在簡體中文稿件里。

      下面我們劃下重點。

      1,Seed想擺脫它與中國的開源模型站隊,而是想定位為一家全球性的、一流的AI實驗室。

      讀下這段:“Seed 模型并非輕量化對話模型,而是面向工作流的模型即服務(MaaS)基礎模型,其核心能力聚焦于多模態理解、長上下文推理、結構化生成與工具增強執行,以可靠地完成企業端到端任務。

      在全球范圍內,這一技術路線與 OpenAI、Anthropic、Google Cloud 近期發布的企業人工智能報告方向一致,這些報告均將軟件工程、科研、分析、客戶支持與知識工作列為增長最快的企業人工智能應用領域。”

      2,Seed公布了中國內地各行業和各應用場景的初步token用量,從中可以看出,中國的AI應用仍然由互聯網絕對主導,從應用場景上看,高經濟價值的應用占比非常小。

      token消耗量


      (來源:Seed2.0模型卡)

      行業:從左圖可以看出,互聯網行業的流量(應該是token消耗量)占比超過75%,消費電子占比略超10%,其他所有行業如金融、新零售、商業服務、制造業、通信、汽車等,各自占比都不及1%。

      應用場景:從右圖來自字節合作獎勵計劃中的數據分布,可以看到非結構化信息處理占了近40%,其余的教育和內容創作各自占比約12%左右,搜索和推薦占比超過10%,社交陪伴約占8%左右,其余企業服務部分(to B)如專業咨詢、消費服務和銷售、質量檢驗、編程、結構化信息處理等,各自都占5%以下的比重。

      以上說明中國大模型的應用,與中國的互聯網行業高度同構,即絕大多數用于消費場景,而在企業服務方面發展較慢。

      順便說一句,當字節開始定期宣布它的token消耗數量時,就很快與Gemini和OpenAI處于一個量級。未盡研究也領先從token統計分析進行token經濟研究:

      (2024/05) (2025/07) (2025/10) (2025/12) (2026/02)

      3,Seed建立了一個新型的評測基準體系,包括這次新推出的完全自研、基于外部基準優化 / 適配、和自研子集 / 衍生版本三類。

      完全自研且新推的基準:主要集中在 長尾專業知識(LPFQA/Encyclo-K)、中文復雜場景(中文復雜指令基準)、端到端生產任務(NL2Repo-Bench/Trae In-House Bench)、價值導向場景(ToB 系列 / WorldTravel)和 模型診斷(自動化行為診斷基準),核心是填補現有外部基準的評估缺口(如中文適配、企業實用價值、Agent 長周期任務)。

      非完全自研的基準:主要是對外部成熟基準的 適配優化 或 質量提純,目的是確保評估的客觀性(與國際前沿模型對比)和可靠性(剔除低質量用例),避免重復造輪子。

      設計邏輯:Seed2.0 的基準策略是 “自研補缺口 + 外部做對比”—— 自研基準聚焦真實場景、中文需求、價值落地等外部基準覆蓋不足的領域,外部基準用于驗證核心能力與國際前沿的差距,兩者結合形成完整評估體系。

      4,Seed在報告中披露,它在評測中采用了自己的token統計方式,與OpenAI的統計方式有所不同。


      在長上下文多步推理基準(Graphwalks)中,Seed使用了內部自研的分詞流水線,這導致在token統計方式上與OpenAI官方Graphwalks的分詞和評分設置存在不一致,主要影響Graphwalks這類對token計數敏感的評測,但也會在一定程度上影響其他項目的結果。

      在聲明評測差異的前提下,Seed2.0公布與其他模型的對比,是為了清晰展示自身能力的區間和獨特價值,這是行業內的一種慣例,客觀上也能淡化“跑分競賽”式的刷榜行為。

      5,非常罕見,Seed2.0在中國的AI實驗室的官方報告中沒有隱瞞自己的差距。

      “Seed2.0系列與國際前沿LLM相比仍存在差距。以SWE-Evo和NL2Repo為例,Seed2.0系列在編碼方面與Claude存在相當大的差距。以SuperGPQA和SimpleQA-Verified為例,Seed2.0系列在與用戶體驗密切相關的長尾知識方面與Gemini存在較為明顯的差距。”

      SWE-bench 驗證結果:Seed得分 76.5%,Opus 得分 80.9%。在業內公認的編碼代理基準測試中,兩者相差 4.4 分。在 NL2Repo(根據規范構建完整代碼庫)測試中,Seed 得分 27.9,而 Opus 得分 43.2。差距懸殊。

      在SimpleQA-Verified這一事實準確性基準測試中,Seed的得分為36.0,而Gemini的得分為72.1。這相差36個百分點。

      6,吳永輝參與過谷歌DeepMind追趕OpenAI;領導Seed實驗室,正在追趕Gemini,OpenAI,還有Anthropic。

      吳永輝2008年博士畢業后加入 Google,參與了谷歌最核心的搜索排名工程,在Google Brain推動深度學習改變翻譯領域、并提升搜索排名算法;2023,在DeepMind與Google Brain合并后,成為谷歌DeepMind 研究副總裁,參與了Gemini對GPT-4的追趕與翻盤 。

      2025年2月初,吳永輝加入字節,擔任領導Seed實驗室的副總裁。當時DeepSeek震撼了中美,并把Seed甩下。吳永輝相當于又在中國參與了一場追趕與翻盤。這一次是在中國閉源打開源。

      模型卡中沒有透露參數規模,據《晚點》報道,2.0是吳永輝接管Seed一年最核心的產出。它是一款類似Gemini的多模態模型,是Seed成立以來訓練的最大模型,達到了萬億參數。

      吳永輝的工作方式和模型目標,都帶一定的谷歌DeepMind色彩,如多模態、長上下文,深度思考與分析能力,以及對科學智能的追求。他想把Seed做成一個研究品牌,同時具備很強的工程與產品能力,其中大量的經驗,來自DeepMind。同時,2.0又強調它是一個能完成實際工作的目標,在AI編程方面對標Anthropic。

      7,既然Seed2.0大方地承認了它在一些方面的不足,那么其他更多方面的逼平或者超越世界一流的評測得分,它也就當仁不讓了。且看下表(字體加粗就是第一):

      先看大型基礎語言模型。Seed2.0 Pro落后于GPT-5.2 High和Gemini-3-pro-High,但領先于Clause-Opus-4.5。


      再看效率型的基礎語言模型,Seek2.0 Lite,落后于Gemini-3-Flash-High,和GPT-5-mini High


      在視覺-語言的評測分數上,Seed2.0 Pro明顯領先。


      在公共視頻理解方面,Seed2.0 Pro更是遙遙領先。


      在大模型的基礎智能體能力中,Seed2.0明顯領先Gemini-3-pro-High,與GPT-5.2 High和Claude-Opus-4.5處于相當水平 。


      在效率型的基礎智能體能力方面,Seed2.0 Lite比GPT-5-mini-High和Gemini-3-Flash-High顯示出一定優勢。


      在大模型完成高經濟與科學價值的評測中,Seed2.0落后于GPT-5.2-High,與Gemini-3-pro-High處于相當水平 。


      在效率基礎模型完成高經濟與科學價值的評測中,Seed2.0開始顯示出優勢,尤其是在真實世界的任務中。


      8,總之,Seed2.0在多模態、智能體的實際工作能力等方面實現了趕超,尤其是在視頻理解方面,占據了明顯的優勢。在效率型模型的各方面能力上,開始顯示出優勢,這點表現與中國開源模型的比較優勢一致。總體來說,作為中國的一家閉源模型,它理應達到總體上更加接近世界頂流AI實驗室的水平——現在基本上實現了。但是,它還有一個巨大的優勢,在于價格:

      下面是API token預填充/解碼(prefill/decode) 的價格比較(美元/百萬token),Seed2.0在各個量級上,都保持了低一個數量級的價位。但是,在與美國對手競爭之前,它首先面臨著中國開源模型更加激進低價的內卷。


      Seed2.0的標志性意義在于,中國以開源模型軍團作戰、快速跟隨為特色的AI競爭力,現在補上了閉源模型這一塊,也有一家中國的實驗室,可以步步緊逼和局部超越國際頂流AI實驗室了。

      One More Thing

      與此同時,Seed還處于“技術補債”的過程當中,尤其是它的infra能否馬上滿足它的模型雄心,如它的視頻生成的時延,在普通用戶那里已經超過了一個小時;它的Seedance2.0視頻訓練數據引發了國際上的侵權譴責和調查;以及在發布和內部評測初期,在引起測評小圈子和自媒體尖叫的同時,一度違反了禁止deepfake、保護真人權益的國際AI慣例。

      Seed2.0加持的豆包大模型,即將登場春晚,與參與地方電視春晚的其他模型一起,將共同形成第一個全國大型活動上的全民AI應用場景。Seedance2.0目前暫不支持輸入真人圖片或視頻作為主體參考,也不支持生成涉及迪士尼、熊出沒等IP形象的視頻內容。

      參考:

      Seed2.0模型卡:

      https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/seed2/0214/Seed2.0%20Model%20Card.pdf

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      新加坡住了一年才敢說:被吹上天的居者有其屋,其實是一地雞毛

      新加坡住了一年才敢說:被吹上天的居者有其屋,其實是一地雞毛

      天下霸奇
      2026-02-24 08:09:25
      美國防部將就針對伊朗的軍事行動召開新聞發布會

      美國防部將就針對伊朗的軍事行動召開新聞發布會

      界面新聞
      2026-03-02 10:30:00
      金價一夜變天!2026年3月3日黃金價格實時更新,國內黃金基礎價格一覽

      金價一夜變天!2026年3月3日黃金價格實時更新,國內黃金基礎價格一覽

      說故事的阿襲
      2026-03-03 12:28:21
      剛從印度回來,說點不中聽的:印度的真實面目,可能讓你很意外

      剛從印度回來,說點不中聽的:印度的真實面目,可能讓你很意外

      世界圈
      2026-02-26 19:15:06
      感謝陳凱歌當年不娶之恩,如今兒子是學霸,丈夫是絕世好男人

      感謝陳凱歌當年不娶之恩,如今兒子是學霸,丈夫是絕世好男人

      調侃國際觀點
      2026-03-03 04:07:43
      損失越來越大,美國要求和?伊朗果斷拒絕,特朗普的麻煩才剛開始

      損失越來越大,美國要求和?伊朗果斷拒絕,特朗普的麻煩才剛開始

      牛鍋巴小釩
      2026-03-03 15:18:43
      央視主持沙桐:離婚后妻子嘲諷二人多年沒性生活,前妻直言別扯淡

      央視主持沙桐:離婚后妻子嘲諷二人多年沒性生活,前妻直言別扯淡

      冷紫葉
      2026-02-25 15:28:41
      年賺334億卻被嚴查!攜程高管集體離場,外資控股下的資產外逃

      年賺334億卻被嚴查!攜程高管集體離場,外資控股下的資產外逃

      米果說識
      2026-03-03 10:24:25
      玻利維亞一架載有1700萬張鈔票的軍機墜毀,散落鈔票遭哄搶

      玻利維亞一架載有1700萬張鈔票的軍機墜毀,散落鈔票遭哄搶

      文匯報
      2026-03-03 16:31:23
      王楚欽擊敗林昀儒奪冠,賽后居然對王皓吐槽,說了三個字讓人心疼

      王楚欽擊敗林昀儒奪冠,賽后居然對王皓吐槽,說了三個字讓人心疼

      胡一舸南游y
      2026-03-02 19:15:45
      內塔尼亞胡:諸多跡象顯示哈梅內伊已“不在人世”

      內塔尼亞胡:諸多跡象顯示哈梅內伊已“不在人世”

      財聯社
      2026-03-01 03:39:04
      從國宴到夜宵攤:國產汽水如何從統治者淪為乞丐

      從國宴到夜宵攤:國產汽水如何從統治者淪為乞丐

      富貴說
      2026-02-27 16:40:22
      東契奇慶祝27歲生日!德約科維奇到場意義重大 他被盧卡稱為GOAT

      東契奇慶祝27歲生日!德約科維奇到場意義重大 他被盧卡稱為GOAT

      羅說NBA
      2026-03-03 06:52:20
      整天開會有啥必要啊?

      整天開會有啥必要啊?

      北京老付
      2026-01-20 10:59:33
      一只勵志的小黑豬:為了活命,拼命幫主人干活,最終獲得免死金牌

      一只勵志的小黑豬:為了活命,拼命幫主人干活,最終獲得免死金牌

      貍貓之一的動物圈
      2026-02-24 09:00:11
      回顧:孫子長相神似爺爺,婆婆懷疑兒媳12年,親子鑒定后全家愣住

      回顧:孫子長相神似爺爺,婆婆懷疑兒媳12年,親子鑒定后全家愣住

      談史論天地
      2026-02-28 14:55:57
      蔣介石最恨的人并非傅作義、陳明仁,而是他栽培二十年的黃埔嫡系

      蔣介石最恨的人并非傅作義、陳明仁,而是他栽培二十年的黃埔嫡系

      嘮叨說歷史
      2026-03-03 10:53:07
      美軍嚴重誤判,五角大樓認為不管咋轟炸中國,解放軍都不敢還手

      美軍嚴重誤判,五角大樓認為不管咋轟炸中國,解放軍都不敢還手

      空谷幽幽藍
      2026-02-20 21:47:25
      猶太財團又要開始賣國了,大規模資產轉移后,貝萊德:美國沒救了

      猶太財團又要開始賣國了,大規模資產轉移后,貝萊德:美國沒救了

      老范談史
      2026-01-13 20:15:38
      明星過年大型 “卸妝現場”!全員恢復出廠設置,最接地氣竟是他

      明星過年大型 “卸妝現場”!全員恢復出廠設置,最接地氣竟是他

      藝能八卦局
      2026-03-01 09:00:30
      2026-03-03 17:24:49
      未盡研究 incentive-icons
      未盡研究
      新能源、人工智能、合成生物、地緣X
      319文章數 62關注度
      往期回顧 全部

      科技要聞

      擁抱AI的"牛馬":邊提效邊自嘲"自費"上班

      頭條要聞

      53歲獨身女租客突發腦梗昏迷 得知其沒有親人多方犯難

      頭條要聞

      53歲獨身女租客突發腦梗昏迷 得知其沒有親人多方犯難

      體育要聞

      35輪后積分-7,他們遭遇史上最早的降級

      娛樂要聞

      謝娜霸氣護夫:喊話薛之謙給張杰道歉

      財經要聞

      特朗普“不惜一切”!全球股債齊崩

      汽車要聞

      長安汽車2月銷量151922輛 環比逆勢增長12.8%

      態度原創

      親子
      藝術
      本地
      游戲
      公開課

      親子要聞

      還得是這個,被逗得團團轉

      藝術要聞

      Nihad Aghazada:當代阿塞拜疆畫家

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      《三國殺:一將成名》閃閃節搞大事!“貓界”頂流宮百萬震撼加盟

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版