![]()
編輯|澤南、楊文
「2026 年或將成為人類歷史上最忙碌、也最具決定性的一年。」xAI 聯創 Jimmy Ba 在離職宣言中如是說。
![]()
這話并非夸張。1 月初,Anthropic 推出 Agent 工具 Claude Cowork,并發布 11 個配套插件;一周前,Anthropic 與 OpenAI 又幾乎同時推出新版本基礎大模型 Claude Opus 4.6 與 GPT-5.3-Codex。
這波密集發布直接「血洗華爾街」,甲骨文、Adobe、Salesforce、湯森路透、NEC 等知名公司股票遭拋售,近萬億刀市值蒸發。
國內的 AI 戰場火藥味更濃。
騰訊元寶直接撒錢,阿里千問請喝奶茶,而字節豆包早已官宣深度參與 2026 年春晚互動,期間將送出最高 8888 元的現金紅包,外加超 10 萬份科技禮包,涵蓋宇樹機器人、大疆無人機等 17 類前沿科技產品及智能家電。
這場春節 AI 大戰,打的是真金白銀。但第一個堪稱現象級的,是字節最新上線的視頻創作模型 ——Seedance 2.0。沒發紅包,甚至還在內測中,就火遍了全網。
Seedance 2.0 只是第一波「預熱」,字節的 AI 發力才剛剛開始。
2 月 14 日,火山引擎正式宣布豆包系列模型的全面升級,除了在海外社交媒體上刷屏的 Seedance 2.0,還包括豆包大模型 2.0圖像創作模型 Seedream 5.0 Lite
從基座模型、圖像到視頻生成,全是大版本更新,字節這次要在 AI 領域全面出擊。
豆包大模型 2.0:多模態 + Agent 躋身第一梯隊
先說這個豆包大模型 2.0(Doubao-Seed-2.0),它是字節跳動最新推出的多模態 Agent 模型,也是豆包大模型自 2024 年 5 月正式發布以來首次大版本的跨代升級。
作為此次升級的重頭戲,豆包 2.0 已在多模態理解、企業級 Agent 能力以及推理代碼能力三個維度上實現質的飛躍。
在技術報告中,字節表示,豆包 2.0 專為在大規模生產環境中提供最佳用戶體驗而設計,優先考慮了大規模在線部署環境下的用戶體驗。因此,模型針對最直接影響交互體驗的視覺和多模態查詢、推理延遲與復雜指令可靠性三個方面進行了著重加強:
- 增強了在幻覺壓力下的視覺推理能力,并改進文檔和圖形的結構化解析能力。
- 提供多種體量型號(Pro、Lite、Mini 三款通用 Agent 模型和 Code 模型),以應對不同部署場景下延遲與性能之間的權衡。
- 擁有可靠的復雜指令執行能力,可準確執行高度約束、多步驟任務。
數學與視覺推理方面,豆包 2.0 Pro 在 MathVista、MathVision、MathKangaroo、MathCanvas 等數學推理基準上達到業界最優水平,在科學領域的整體成績與 Gemini 3 Pro 和 GPT 5.2 相當。
![]()
在 VLMsAreBiased、VLMsAreBlind、BabyVision 等視覺感知能力基準中,豆包 2.0 取得了業界最高分。
![]()
推理和 Agent 能力評測中,豆包 2.0 Pro 在 IMO、CMO 數學奧賽和 ICPC 編程競賽中獲得金牌成績,也超越了 Gemini 3 Pro 在 Putnam Bench 上的表現。
![]()
![]()
HLE-text(人類的最后考試)上,豆包 2.0 Pro 取得最高分 54.2 分:
![]()
豆包 2.0 還重點強化了指令遵循能力。相關評測顯示,豆包 2.0 可保持較強的一致性與可控性,這為其作為 Agent 模型在長鏈路、多步驟任務中嚴格按約束條件執行奠定基礎。
目前,模型 API 已在火山引擎上線。
![]()
體驗鏈接:https://console.volcengine.com/
接下來讓我們上手實測一番。
多模態理解
在多模態理解方面,豆包 2.0 不僅能精準提取文字、深度理解圖表,更具備出色的空間感知、運動捕捉和長視頻解析能力。
豆瓣有個「史上寫字最爛小組」,一群寫字稀爛的人在這里展示著自己那飽受爭議的書法,只要字跡足夠潦草、丑陋,就能在組里封神。其中有個「燒腦毒體大合集」,里面全是從餐廳選購食材的本本上摘的爛字,甚至還有「通假字」。
![]()
我們選擇豆包 APP 的「專家」模式,讓豆包 2.0 辨認下。
這幾個龍飛鳳舞的字,豆包全都認對了。它不僅能識別常規字跡,還能結合后廚速記習慣,破譯「自然粉即孜然粉」等諧音簡寫。這說明它沒有停留在字符識別層面,還能根據業務場景進行語義推理。
![]()
再來試試表格理解和處理。
我們丟給它一個統計表,要求它先提取文字、計算每種飲料銷售額,并按銷售額從高到低排序。
豆包按需調用工具,文字提取絲毫不差,自主理解任務邏輯,準確應用銷售額計算公式,最終排完序以結構化表格呈現。
![]()
整個過程體現了 OCR 識別、數學運算、邏輯推理的深度融合,并提供可下載的實用化輸出。
我們又試了下圖片識別,讓豆包數圖中的卡通小狗,并介紹品種。
![]()
模型迅速響應,還標注每只小狗的空間方位,描述其外觀特征,如西施犬「頭頂紅色蝴蝶結」等細節。
回溯它的思考過程,我們發現它為了防止出錯,會進行反復驗證。
![]()
推理代碼能力和企業級 Agent 能力
豆包 2.0 的推理能力也大幅躍升,支持思考長度靈活調節,且各思考長度下 Token 效率全面提升,在代碼生成特別是前端開發領域表現尤為亮眼。
比如,我們在 TRAE 中調用豆包 2.0 Code,輸入 Prompt : write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate.(編寫一個 Python 代碼,可視化單行道中交通信號燈的工作情況,車輛以隨機速率駛入。)

每輛車被賦予不同色彩以增強視覺辨識度,交通信號燈在紅綠狀態間自動切換,車輛嚴格遵循「紅燈停、綠燈行」規則。
再比如,Prompt:Simulate a realistic water ripple effect on an HTML canvas. When the user clicks, ripples should spread outward and interact with each other.(在 HTML 畫布上模擬逼真的水波紋效果。當用戶點擊時,水波紋應向外擴散并相互影響。)

它能在點擊位置生成水波紋,以同心圓形式向外自然擴散并逐漸衰減,當波紋觸及畫布邊界時還會產生反彈效果,符合真實的水波物理特性。
再來生成個小游戲。
僅憑一句「生成一個精美的超級瑪麗小游戲」,豆包 2.0 就成功生成了功能完整、完全可玩的游戲。

畫面設計精美細致,模型完整實現游戲核心機制,左上角實時顯示分數和生命數,整個游戲從 UI 設計到交互邏輯都達到了可發布水平。
它生成的經典貪吃蛇小游戲,也實現了流暢的移動邏輯和碰撞檢測,還加入實時得分系統。

此外,在企業級應用場景中,模型能更好支持對 Skills 的理解和應用,Function Call 、多輪指令遵循、搜索和工具調用能力顯著增強,格式輸出更穩定,并能靈活管理上下文,輕松應對數據分析、智能客服等復雜、長程任務。
Seedance 2.0:內測即爆火
Seedance 2.0 的火爆程度無需多言,推特、B 站上網友整活已經鋪天蓋地。
人們普遍認為,它在視頻創作領域達到了改變業界走向的水平,其對復雜場景、多人互動和真實運動邏輯的把控能力讓人難辨真假。
國內外一片好評。有網友用 Seedance 2.0 模擬 1670 年的新阿姆斯特丹,效果驚艷,連馬斯克都在底下評論「It’s happening fast.」
![]()
賈樟柯公開表示將用該技術創作短片,成為首位宣布使用該模型的知名導演。
![]()
《黑神話:悟空》制作人馮驥則表示「AIGC 童年時代結束」,同時也提出對虛假內容泛濫的擔憂。
![]()
以前拍電影需要劇本、分鏡、拍攝、剪輯、特效,一堆人折騰好幾個月,現在一個人、一句提示詞,再加上幾次抽卡就能完成。
或許很多人還沒意識到這項技術的顛覆性,但已經有不少博主用它「導演」未來電影了。
有網友還發現 Seedance 2.0 可以將任意小說文本生成視頻,看樣子接下來會有一大批精美 AI 短劇來襲。
![]()
我們也上手試了下,讓它把世界上最短科幻小說《最后一個人》影視化。
這篇小說只有十七個單詞「The last man on earth sat alone in a room. There was a knock on the door....」(地球上最后一個人獨自坐在房間里,這時,忽然響起了敲門聲……)
僅憑以上提示詞,Seedance 2.0 就精準捕捉到末日氛圍與懸念設定,生成一段 10 秒高質量短片。
![]()
視頻以電影級的鏡頭語言展開敘事,開場畫面中孤獨的男子背對鏡頭坐在破敗房間里,隨著一陣敲門聲,鏡頭切換至男子驚恐的面部特寫,瞪大的雙眼和緊繃的表情比流量明星的演技還在線。
它還支持圖生視頻。基于宇樹機器人的參考圖,再加上提示詞,Seedance 2.0 完美呈現了所有關鍵要素,視頻在角色一致性、動作連貫性和氛圍渲染方面都表現得很出色。
![]()
圖生視頻。提示詞:視頻整體風格為賽博朋克風格,中景鏡頭,畫面中只有圖片 1 的機器人和數字調音臺。背景閃爍著酒吧里的霓虹燈光。圖片 1 里的機器人在賽博朋克風格的酒吧里做 DJ 打碟。圖片 1 里的機器人身穿夸張閃亮的服裝。
字節表示,Seedance 2.0 支持混合模態輸入,允許用戶同時輸入多達 9 張圖片、3 段視頻、3 段音頻以及自然語言指令,模型可參考輸入素材中的構圖、動作、運鏡、特效、聲音等元素。生成出來的視頻最多 15 秒,還有雙聲道的音頻。
在技術上,Seedance 2.0 依靠海量世界知識、稀疏架構的效能優勢,以及多模態聯合訓練涌現的強大泛化能力,實現了專業級的生成效果。其采用統一的多模態音視頻聯合生成架構,集成了目前業界最全面的多模態內容參考和編輯能力。相比 1.5 版本,Seedance 2.0 的生成質量大幅提升,在復雜交互和運動場景下的可用率更高,物理準確度、逼真度、可控性均顯著增強。
在評測表現上,Seedance 2.0 的視頻能力處于業內領先水平,該模型可精準呈現高張力大動作與精細的微表情,并支持專業級組合運鏡與敘事節奏控制。音頻維度上,Seedance 2.0 針對中文方言、戲曲及演唱場景,其指令響應準確度明顯提升。
![]()
Seedance 2.0 文字生成視頻能力評測。
在該模型出現后,我們終于可以肯定地說,視頻生成 AI 已經走到了生產力的門檻上。
Seedream 5.0 Lite:圖像創作跨入頂尖水平
在圖像創作領域,從 Seedream 4.0 開始,字節就與谷歌 Nano Banana Pro 展開正面競爭,并憑借出色的 P 圖質量在社交媒體火出圈。也就是說,在 AI 生成圖像這個競爭最激烈的賽道,字節也已位列領先梯隊。
此次 Seedream 5.0 Lite 則是通向統一多模態模型的全新探索,相比 4.5 版本,它在理解、推理和生成能力上實現了全面躍升。
模型采用多模態理解生成統一架構,能像人類設計師一樣洞察用戶意圖,即便面對簡短模糊的描述也能準確推測創作需求,在主體一致性和圖文對齊等方面表現顯著提升。
其內置的世界知識體系覆蓋科技與人文多個垂類領域,生成結果更符合物理規律,信息可視化能力大幅增強。
Seedream 5.0 Lite首次引入了實時檢索增強能力,可通過聯網獲取最新知識和資訊,精準響應時效性創作需求,在資訊海報等場景中表現尤為出色。
比如,Prompt:A low-resolution digital picture focuses on a woman in a thick winter coat holding a mug of hot cocoa, laughing. Festive lights and blurred market stalls with holiday decorations fill the background under a light snowfall.
![]()
Prompt:A low-light digital picture captures a group of friends laughing around a bonfire on a sandy beach at night. The firelight illuminates their faces while the ocean is dark in the background.
![]()
三個模型看過來,我們能發現,豆包的一系列新技術名副其實,都是大版本級別的提升。隨著豆包的發布,這個春節檔已經從「流量高峰」演變成了純純的「技術戰場」。
全模態的豆包,讓 AI 又上了一個臺階
字節的 AI 版圖還遠不止如此。
語音領域,字節發布豆包實時語音大模型。這是一款語音理解和生成一體化的模型,實現了端到端語音對話,在語音表現力、控制力、情緒承接方面表現驚艷,并具備低時延、對話中可隨時打斷等特性。
比如前段時間羅永浩跨年演講上和豆包斗嘴,隨時打斷、要求每句話后面加「OK」、實時調整情緒,豆包全都能即時響應。
![]()
具身智能領域,字節 Seed-Robotics 團隊最新推出 Seed GR-RL 強化學習框架,讓機器人在真實場景中穩定完成多步驟、高精度的操作任務。
至于AI for Science,字節已經耐心投入 5 年。Seed-AI for Science 團隊圍繞生物領域基礎模型、量子化學、分子動力學等方向,發布了 SeedFold、SeedProteo 等有影響力的學術成果。
這種全方位的技術儲備,正是字節敢于與 OpenAI、谷歌、Anthropic 等海外巨頭正面交鋒的底氣。
2026 年的春節,或許會成為 AI 應用爆發的分水嶺。
我們正在見證首個真?國民級 AI 入口的誕生。
文章視頻鏈接:https://mp.weixin.qq.com/s/ZRyuyS3bagk1UvwmUq8ZKw
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.