![]()
摘要:
字節進入AI賽道“勇攀高峰”階段。
鳳凰網科技 出品
作者|Dale、姜凡
編輯|董雨晴
2月14日,距離中國農歷春節僅三天,中國AI熱鬧非凡,火山引擎正式發布豆包大模型2.0,包含Pro、Lite、Mini三款通用Agent模型和Code模型,靈活適配各類業務場景。這是字節跳動自2024年5月推出豆包大模型家族后,首次對該系列核心模型進行跨代升級。
![]()
更早之前,豆包視頻生成模型Seedance 2.0、豆包圖像創作模型Seedream 5.0 Lite也已分別開啟內測。前者的驚艷效果,讓國內外開啟了熱烈的討論,更有人感嘆,這是又一個DeepSeek時刻顯現。
至此,三款模型在Agent能力、多模態理解與創作可控性上形成完整閉環,也標志著字節跳動在多模態AI領域的技術領跑與全鏈路布局正加速落地。
![]()
企業級Agent能力跨代升級,重構復雜長程任務處理范式
據火山引擎官方披露的信息,豆包大模型2.0的核心升級聚焦于企業級Agent能力的全面跨越,核心要解決能辦事的問題,尤其是在長鏈路復雜任務中可以有序推進。
為此,新版模型在多模態感知、高精度文字提取、圖表理解、空間與運動理解、長視頻理解等方面表現突出。
![]()
更為細致具體來看:
豆包2.0 Pro面向深度推理與長鏈路任務執行場景,全面對標GPT 5.2與Gemini 3 Pro;
2.0 Lite兼顧性能與成本,綜合能力超越上一代主力模型豆包1.8;
2.0 Mini面向低時延、高并發與成本敏感場景;
Code版(Doubao-Seed-2.0-Code)專為編程場景打造,與TRAE結合使用效果更佳。
同時,這一代模型Function Call、多輪指令遵循、搜索與工具調用能力顯著增強,格式輸出穩定性及上下文管理靈活性均有大幅提升。
這樣的能力組合拳,使得豆包大模型2.0能夠高效支撐數據分析和客服Agent等企業級復雜、長程任務。據官方披露,作為AI助手,Seed2.0 可以處理復雜視覺輸入,并完成實時交互和應用生成。無論是從圖像中提取結構化信息,還是通過視覺輸入生成交互式內容,Seed2.0 都能高效、穩定地完成任務。因此,其可以將復雜的圖表進行理解和還原,還可以成為實時互動的AI健身教練,甚至還能教你打臺球、滑雪。
豆包大模型的強大能力已有佐證。據火山引擎此前公布的“萬億Tokens俱樂部”客戶案例顯示,已有頭部金融、電商企業通過豆包大模型構建自動化業務流,大幅降低人工干預成本。隨著2.0版本對技能(Skills)的理解與多工具協同調用能力進一步強化,AI從“回答問題”向“獨立執行任務”的轉型步伐將明顯提速。
在推理與代碼維度,豆包大模型2.0支持思考長度可調節,各長度下Tokens效率均有優化。其代碼能力,特別是前端開發領域的能力提升,可通過集成式開發環境TRAE進行實測。據悉,TRAE已內置豆包大模型2.0Code版,開發者可在配置后直接體驗模型對復雜編程任務的規劃與生成能力。
![]()
Seedance 2.0殺瘋海外,馬斯克也說“發展太快”了
有了豆包大模型的打底,也就不難理解視頻生成模型Seedance 2.0實現的驚艷效果,其也代表了字節跳動在多模態輸入融合上的最新突破。
實際上,在2月7日晚間悄悄開啟內測后,已有不少人上手試用,使得這幾天社交媒體上出現了不少 “普通人演大片”“2歲寶寶跳街舞”等跨界作品。評論區則驚嘆于該模型對物理世界的高度還原性。
鳳凰網科技也在早先的體驗中發現,其最大的跨越就在于“可控”。
該模型支持圖像、視頻、音頻、文本四種模態同時或混合輸入,使其從一個僅能接收文本指令的“猜謎者”,進化成了一個能同時理解多種模態的“全能執行導演”。創作者可以上傳一張概念圖來定調、一段電影片段來指導運鏡、一首音樂來掌控節奏,從而實現過去需要復雜專業軟件和漫長流程才能達成的敘事效果。更關鍵的是,其“多鏡頭連貫生成”能力,使得AI能一次性創作出包含流暢轉場和景別切換的“故事段落”,而非孤立的幾秒碎片。
據官方披露,Seedance 2.0在多模態素材混序傳入、角色特征穩定保持、物理規律遵循等方面均有大幅提升。人物動作自然流暢,物體交互反饋真實,對動作、表情、運鏡、文字內容的指令抽卡成功率明顯優化,大幅降低了視頻創作中的反復調試成本。
![]()
“它能高保真地合成時序精密的復雜交互場景,也能在特寫鏡頭中展現出高度逼真的細節與嚴密的物理邏輯,宛如實拍。”字節官方如此介紹。
目前,該模型已在豆包、即夢、小云雀等產品中正式上線,并收獲了來自專業創作者的高度關注。
就在該模型亮相次日,知名視頻博主、影視颶風創始人Tim(潘天鴻)便發布了針對 Seedance2.0 的實測視頻。他在視頻中稱贊,這一模型在畫質、運鏡、剪輯銜接和音畫同步等方面的表現,足以“改變視頻行業”。
游戲科學CEO、《黑神話:悟空》制作人馮驥在深度體驗后,給出了毫不含糊的評價:“當前地表最強的視頻生成模型,沒有之一。”他斷言,這標志著“AIGC的童年時代,結束了”。
![]()
2月12日,Seedance2.0在海外的熱議還在升級,馬斯克在社交平臺轉發評論Seedance 2.0相關推文,并表示,“It's happening fast(發展速度太快)”。
另據字節官方披露,預計在2月中下旬,Seedance 2.0 的 API 服務將上線火山方舟,幫助企業客戶更好地落地創意。這意味著,其商業化應用的拐點也將到來。
此外,圖像創作模型Seedream 5.0 Lite表現一樣不俗,其是豆包在多模態統一架構方向的最新探索。相較4.0版本,該模型在多模態理解與生成上采用統一架構,顯著降低了對系統化精準Prompt的依賴。官方介紹稱,用戶通過簡短、模糊的文本甚至直接輸入圖像,模型即可主動推測創作意圖,并在主體一致性、圖文對齊等生成質量上實現躍升。
這意味著,其開始能像人類設計師一樣“理解”用戶指令背后的意圖,“看懂”不同畫面中的規律,并將世界知識應用于圖像與文本創作中。
尤為值得關注的是,Seedream 5.0 Lite首次引入實時檢索增強能力。模型可聯網獲取最新知識與資訊,突破靜態知識庫的時效性局限。這一特性在資訊海報生成、熱點事件視覺化等場景中具備極高實用價值。同時,模型內置的世界知識體系覆蓋科技、人文等多個垂類行業知識庫,生成結果更符合物理規律,信息可視化能力顯著增強。
目前,在綜合評測中,Seedream 5.0 Lite 的 Elo 評分超越 Seedream 4.5。
![]()
字節進入AI賽道“勇攀高峰”階段
豆包大模型2.0的發布,與Seedream 5.0 Lite、Seedance 2.0共同構成字節跳動在多模態理解、圖像創作、視頻生成三大核心賽道的完整拼圖。
三者共享底層技術積累,又在應用層面形成協同:豆包大模型2.0提供Agent大腦,Seedream負責靜態視覺創意,Seedance則承載動態敘事表達。
字節跳動董事長梁汝波在此前的全員會上曾提出2026年度關鍵詞——“勇攀高峰”。
何謂高峰?其解釋道,“回顧過去 50 年,IT 行業的主要高峰有:PC、Web、 Mobile。其中,PC 時代崛起的是微軟;Web 時代涌現了谷歌、亞馬遜、Meta;Mobile 時代則跑出了蘋果和谷歌。可以看出,高峰不常有,過去幾次均間隔約 15-20 年”。
對于字節乃至整個行業而言,AI就是這個時代必須攀登的高峰。
為此,字節已做出十足的準備,短期內,豆包/Dola 助手應用將是高峰的具象化表達。為此,字節仍在不遺余力探索這一系列模型、產品的能力天花板。豆包新一代大模型家族的亮相,也用實際表現詮釋了,大模型能力上限仍存在較大的探索空間。
![]()
當前整個AI行業都處在技術范式的轉移期,字節也依舊“在基礎研究和全棧工程上同時尋求突破”。豆包三大模型的跨代升級,也是對這一戰略在技術與產品層面的雙重落地。
從2024年5月豆包大模型首次亮相,到如今Agent能力、多模態創作能力雙雙邁入2.0時代,字節跳動僅用不到兩年時間便完成了從“可用”到“好用、可控、可落地”的關鍵躍遷。隨著2月14日火山引擎正式發布,企業級AI應用有望迎來新一輪效率重構。而隱藏在模型參數與基準成績背后的,是中國AI從追趕者向定義者角色轉變的清晰足跡。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.