大家好,我是冷逸。
今天,咱們接著奏樂接著肝。
前幾天,帶大家陸續(xù)體驗(yàn)了、、等模型。今天,我們來聊下豆包大模型2.0(Doubao-Seed-2.0)。
一句話介紹:豆包大模型2.0是一個多模態(tài)理解能力全面升級的基礎(chǔ)模型,提供了Pro、Lite、Mini三款多模態(tài)通用模型,和專門面向開發(fā)者的Code模型。
目前,Seed 2.0 Code 模型已經(jīng)可以在TRAE中使用。
![]()
這是豆包大模型2.0 Pro在公開測試集上的表現(xiàn)。
![]()
視覺理解方面,基本與Gemini 3 Pro不相上下。尤其是在空間理解、運(yùn)動理解、視頻理解和圖表理解上,表現(xiàn)不俗。
同時,還發(fā)布了79頁的Model Card。
![]()
Model Card:
https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/seed2/0214/Seed2.0%20Model%20Card.pdf
![]()
一手實(shí)測
這次,Doubao-Seed-2.0一共發(fā)了4個版本。
包括Pro、Lite、Mini三款通用Agent模型和一款Code模型。
![]()
Pro面向深度推理與長鏈路任務(wù)執(zhí)行場景,全面對標(biāo)GPT 5.2與Gemini 3 Pro;
Lite兼顧性能與成本,綜合能力超越豆包1.8;
Mini面向低時延、高并發(fā)與成本敏感場景,性能媲美豆包1.6 Pro;
Code則是專為編程場景打造,與Trae使用效果更佳。
Seed 2.0 Code,是基于2.0 Pro底座,專門針對編程場景進(jìn)行優(yōu)化的Coding模型,也是我們今天測試的主角。
測試平臺主要是在TRAE和Claude Code。
1)前端:視覺理解
隨便給了它張截圖,讓它復(fù)刻這個網(wǎng)頁,并實(shí)現(xiàn)眼珠隨鼠標(biāo)轉(zhuǎn)動的效果。
![]()
不一會兒,它就寫好了,高度還原截圖的背景色、卡片布局和大眼睛的UI,交互動畫也做出來了。
![]()
左邊是Trae窗口,右邊是網(wǎng)頁結(jié)果
再來一個,我喂給它一張Transformer架構(gòu)圖,讓它做一個動畫演示網(wǎng)頁,給大家科普Transformer架構(gòu)。
![]()
來看下結(jié)果。
![]()
對架構(gòu)圖的理解還挺準(zhǔn)確的,編碼器、解碼器都有,而且做了個SVG動畫里演示整個Transformer工作流程。
這個倒有點(diǎn)出乎我的意料,因?yàn)樗皇峭耆珡?fù)刻,而是要先理解架構(gòu)圖的邏輯,再來寫代碼演示整個過程。這對模型的推理要求,其實(shí)挺高的。
在官方demo中,我還看到了一個很有意思的case。
先給到幾張x-y-z坐標(biāo)的靜態(tài)數(shù)據(jù)圖,然后讓模型生成匹配的matplotib Python代碼。
![]()
Seed 2.0 Code直接生成了一個3D坐標(biāo)網(wǎng)頁,對圖表的理解和還原非常。
我感覺,今后用這個模型來做圖表轉(zhuǎn)代碼,非常方便。
2)3D:逆向魔方
逆向魔方這個Case,我做了很多測試了,目前能跑出來的模型,屈指可數(shù)。
包括豆包上一代模型Seed 1.8,都跑不出來。
提示詞:Create a single HTML file containing a fully functional 3D Rubik's Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself.
中文:創(chuàng)建一個HTML文件,其中使用Three.js(通過CDN方式引入)來實(shí)現(xiàn)一個功能完備的3D魔方模擬程序。該魔方必須能夠自動完成自己的“解謎”過程。但這次Seed 2.0 Code一次出。
![]()
打亂后,能夠100%還原。
能記住打亂過程的所有步驟,自動還原時會以相反的順序和相反的方向執(zhí)行這些步驟。
3)長任務(wù):AI廟會
下面這個Case(by官方),并非One short直出,而是迭代了幾次才出來。
這也符合我們真實(shí)的開發(fā)環(huán)境,沒有任何開發(fā)是一句話生成的,都需要與模型對話修改、調(diào)試,才能出真正能用的產(chǎn)品。
這是一個比較復(fù)雜的“AI春節(jié)廟會”web游戲,開發(fā)者通過TRAE+Seed 2.0 Code,通過幾輪提示詞調(diào)整,就做出來了。
在這個廟會中,每個AI小人都擁有環(huán)境感知、認(rèn)知推理和記憶系統(tǒng),能夠自主產(chǎn)生連貫行為、社交互動,并進(jìn)行真實(shí)的生活與任務(wù)流程。
像極了“中國新春版”的斯坦福小鎮(zhèn)。
4)Agentic任務(wù):文章轉(zhuǎn)視頻
這個Case的Prompt如下:
提煉這篇文章:https://mp.weixin.qq.com/s/8WfpTaQLOeilRRghEaiGTg,用Remotion Skills做一個視頻,向大家展示Doubao Seed 2.0
除了考驗(yàn)?zāi)P偷腃oding能力外,還考驗(yàn)它的Agentic和工具調(diào)用能力,它需要自己瀏覽文章并提煉內(nèi)容,然后調(diào)用Remotio Skills來制作視頻,并最終把視頻渲染出來。
![]()
我把這種視頻叫做“HTML式視頻”,最近對它愛不釋手。
這是Seed 2.0 Code花了10來分鐘,給我做的視頻(BGM是我自己加的)。
效果還不錯,就是UI這塊跟頂級旗艦?zāi)P瓦€有差距。
![]()
總結(jié)一下。
相較Seed 1.8,Seed 2.0在Coding上的表現(xiàn)超出我的預(yù)期。尤其是視覺理解和Agentic任務(wù)上,進(jìn)步非常明顯。
它不是簡單的視覺識別,而是帶推理的深度理解。有了視覺理解&Agentic的加持,可以讓模型的使用場景更寬、更深。
當(dāng)然,不足之處也有。譬如前端審美距離頂級模型還有差距,長鏈任務(wù)偶爾出現(xiàn)忘記需求的情況。這些,都是后期可以優(yōu)化的方向。
但,瑕不掩瑜。國內(nèi)能有這么強(qiáng)大的多模態(tài)模型,實(shí)屬難得。
對了,最后我還寫了一個新年煙花的網(wǎng)頁,所有人都可以玩。
![]()
體驗(yàn)地址:
https://www.doubao.com/share/code/0d429f942f9bb8c0
祝大家新年快樂,馬到功成!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.