
大伙兒有沒(méi)有發(fā)現(xiàn),現(xiàn)在不管哪家公司發(fā)新模型,底下提問(wèn)最常見(jiàn)的就一種類型:“這事兒到底能不能干?”好像跑分越高越強(qiáng)的思維,已經(jīng)過(guò)時(shí)了。
![]()
但我說(shuō)實(shí)話,這群 AI 和機(jī)器人公司全學(xué)壞了,就愛(ài)擱春節(jié)亮相,搞得世超和同事連春晚都看不進(jìn)去了。
這不,就在春節(jié)放假前,咱大伙最愛(ài)用的豆包,先是丟了一個(gè)王炸視頻模型 Seedance 2.0,接著又在春節(jié)來(lái)臨之際推出了豆包大模型 2.0(Doubao-Seed-2.0)系列。
![]()
你別說(shuō),這發(fā)得真是時(shí)候。。世超本來(lái)說(shuō)趕在節(jié)前水一篇稿子放假,結(jié)果一上手,發(fā)現(xiàn)稿子寫不完了。
因?yàn)檫@小子,干起活來(lái)還真有點(diǎn)東西。。能干的活,兩三天根本研究不明白,于是整個(gè)春節(jié)假期,我基本全耗在研究怎么壓榨它的勞動(dòng)力上了。
現(xiàn)在,這套“壓榨流程”總算完工了,今天就來(lái)給大伙兒交個(gè)作業(yè)。咱們不整虛的,一切全從哥們的實(shí)際需求出發(fā)。
當(dāng)然了,例行公事的成績(jī)單咱還是得掃一眼。
這次字節(jié)的“Seed”家族更新得還蠻全面,除了核心的豆包 Seed 2.0,還有主攻視頻生成的 Seedance 2.0,以及搞定圖像的 Seedream 5.0 Lite,在火山引擎上都能試用,而且Seed 2.0系列的API已全部上線。
![]()
就拿核心的 2.0 Pro 來(lái)說(shuō),空間理解、運(yùn)動(dòng)感知和視頻理解這幾個(gè)科目,直接跑贏了 Gemini 3 Pro。
![]()
數(shù)學(xué)和推理分?jǐn)?shù)拿下了 IMO 等硬核競(jìng)賽的金牌水平,全球最高,信息搜索和工具調(diào)用能力也拉升了一大截,只輸一手 GPT 5.2。
![]()
![]()
但說(shuō)句實(shí)話,跑分這東西就跟簡(jiǎn)歷一樣。紙面上看著好看,真坐到工位上頂不頂用,那是另外一碼事。那咱不說(shuō)廢話,接下來(lái)直接上強(qiáng)度,看看它到底能做些啥。
首先,這玩意的 Agent 能力非常強(qiáng),也就是抄家伙干活的能力。
眾所周知,差評(píng)編輯部是一個(gè)多模態(tài)的團(tuán)伙,文字,圖片,視頻,樣樣精通。。所以我們每次用 AI 都挺麻煩的,各種 AI 工具擅長(zhǎng)的東西都不一樣,有的作圖強(qiáng),有的視頻強(qiáng),我們需要把窗口切來(lái)切去,文件傳來(lái)傳去,很影響效率。
![]()
但在春節(jié)假期期間,我用seed-2.0-pro 再配合 seedance、seedream,搭建了一個(gè)多模態(tài)的 AI 助手,并把它連接到了飛書。
現(xiàn)在,我只需要把任何格式的東西用飛書發(fā)給它,再給它提要求,它就能按要求和文件類型,處理我發(fā)過(guò)去的文件。
具體實(shí)現(xiàn)方法,簡(jiǎn)單來(lái)說(shuō),就是本地部署一個(gè) OpenClaw,然后給它接上火山引擎上 Seed-2.0-Pro 的 API,再在飛書開(kāi)發(fā)者后臺(tái)創(chuàng)建一個(gè)機(jī)器人,接入我們的 OpenClaw,最后再在飛書給它發(fā)消息,讓它自己配置個(gè) Skill ,用 Skill能自行調(diào)用圖片、視頻生成能力即可。
只要機(jī)器人配置好,咱什么東西都能在里面搓了。比如,你們剛剛看到的切屏表情包,就是我用這個(gè)神秘妙妙工具做的。
![]()
或者,咱可以對(duì)已生成的圖片進(jìn)行修改,也就一句話的事兒。比如我可以給它一張過(guò)年期間的全家福,讓它改得喜慶一點(diǎn)。
![]()
結(jié)果。。不對(duì),居然翻車了??不能說(shuō)是一模一樣,只能說(shuō)是毫無(wú)血緣關(guān)系。
![]()
按說(shuō)豆包的 seedream 4.5,是很強(qiáng)的生圖模型了,難道其中還有什么玄機(jī)。。于是我打算盤問(wèn)一下它的工作流程。
![]()
然后它告訴我沒(méi)把原圖傳過(guò)去,原因是“圖生圖傳base64太大了調(diào)用失敗”。這我哪聽(tīng)得懂?直接讓它自己幫我解決。
結(jié)果,它一通操作,檢查問(wèn)題-提出方案-解決問(wèn)題,一套流程下來(lái),還真給我調(diào)試好了。。
![]()
這番交互下來(lái),我還是挺滿意的。因?yàn)橐粋€(gè)模型犯錯(cuò)其實(shí)是不可避免的,這和用戶的提示詞、當(dāng)前的上下文都脫不開(kāi)關(guān)系,而真正重要的是它知錯(cuò)就改的能力,在你需求描述越來(lái)越精確后,它能精準(zhǔn)捕捉需求,并快速解決錯(cuò)誤。
當(dāng)然除了圖片,視頻也是可以在同一個(gè)對(duì)話框生成的。比如我可以發(fā)個(gè)圖片過(guò)去,讓它轉(zhuǎn)成視頻。
![]()
這是成品:
如果你需要,還可以一鍵轉(zhuǎn)成 GIF,它自己調(diào)用工具生成:
![]()
所以這個(gè)機(jī)器人,現(xiàn)在不僅能改文案,還能幫美編作圖,給后期配素材,還能給編輯配 GIF 圖,只能說(shuō)爽飛了啊,誰(shuí)還分得清機(jī)器人和同事啊?

好了,那如果你需求沒(méi)那么垂直,只想體驗(yàn)跟 Seed 2.0 對(duì)話怎么辦?很簡(jiǎn)單,直接上火山引擎,在模型廣場(chǎng)里找到 Doubao-Seed-2.0 全系列,點(diǎn)擊立即體驗(yàn)就能用。
![]()
對(duì)了,剛咱跑分里提到一個(gè) BrowseComp,就是考察大模型搜索犄角旮旯里信息的能力的。剛好世超也蠻需要這個(gè)功能的,咱再來(lái)試試。
剛好世超最近在研究數(shù)學(xué),發(fā)現(xiàn)一個(gè)很神奇的問(wèn)題,為什么圓周率π(約 3.14)的平方和g(重力加速度,約 9.8)的值那么近似?我研究了很大篇幅的資料,也沒(méi)找到令我滿意的答案。
于是我把我自己的想法(約 3000 字)一股腦發(fā)給了它,讓它通過(guò)手里的知識(shí)庫(kù)和互聯(lián)網(wǎng)工具一一解答。
![]()
答案真是夯爆了啊,不僅解答了我的疑問(wèn),還補(bǔ)充了說(shuō)明了彩蛋和冷知識(shí),其實(shí)就是人類定義的問(wèn)題,完全不是什么巧合。
![]()
有意思的是,我讓同樣擅長(zhǎng)搜索的 Claude Opus 4.6 做了一遍這個(gè)題,然后把Seed 2.0 pro答案發(fā)了過(guò)去,它直接自愧不如了。
![]()
對(duì)了,不僅能處理文本,Seed 2.0 的多模態(tài)能力也是一等一的強(qiáng)。比方說(shuō),視頻理解這一項(xiàng),昔日王者是 Gemini 3 pro,現(xiàn)在 Seed 2.0 pro 也能打一打了。
比如我直接傳了一個(gè)往日最佳視頻過(guò)去,讓 AI 進(jìn)行笑點(diǎn)解析。
說(shuō)的確實(shí)不賴,每個(gè)動(dòng)作它都看清了,還能看懂烏鴉的神態(tài)。甚至能預(yù)測(cè)接下來(lái)的劇情走向。
![]()
這是 Gemini 的回答,感覺(jué)也大差不差了。
![]()
而世超覺(jué)得這個(gè)是真實(shí)用。現(xiàn)在視頻的缺點(diǎn),就是你第一眼不知道它的重點(diǎn)是啥,是夯還是拉你得看完才知道,而現(xiàn)在你能直接下載視頻發(fā)給豆包,如果視頻又臭又長(zhǎng),你也不用浪費(fèi)你寶貴的時(shí)間了。
那,還有其他硬核項(xiàng)目嗎,比如,寫代碼?
這次,字節(jié)跟 OpenAI 想到一塊兒去了,端出了專精編程的 Doubao-Seed-2.0-Code 模型。 可能他們也統(tǒng)一思路了,想讓 AI 成為真正的生產(chǎn)力,就必須專門出一個(gè)垂直模型,死磕寫代碼。
我這不會(huì)寫代碼的也試了試,我拿它擼了個(gè)手勢(shì)控制的飛機(jī)小游戲,我只需要在對(duì)話框里輸入幾句大白話需求,Seed 2.0 Code 就像接管了我的鍵盤一樣,唰唰把復(fù)雜的攝像頭捕捉和運(yùn)動(dòng)計(jì)算邏輯全寫完了。
![]()
現(xiàn)在我只要坐在屏幕前,對(duì)著攝像頭揮揮手,就能直接操縱游戲里的飛機(jī)閃轉(zhuǎn)騰挪。一個(gè)零基礎(chǔ)的人在五分鐘內(nèi)搞定這種交互,只能說(shuō)非常好用了。
看到這里,你可能以為,它也就搞搞自媒體、寫點(diǎn)小游戲了,還有別的活嗎?
![]()
有的,這模型現(xiàn)在連畫復(fù)雜的 CAD 圖紙,都能硬啃下來(lái)。而且,它干這活兒的方式,也強(qiáng)到離譜。
比如操作 FreeCAD 建模,它不是給你丟一堆代碼給你,而是直接奪舍你的鼠標(biāo),自己在屏幕上去找菜單、點(diǎn)圖標(biāo)。
最神的是,中間它操作太快沒(méi)點(diǎn)準(zhǔn),不小心點(diǎn)錯(cuò)工具彈了個(gè)報(bào)錯(cuò)框。
結(jié)果這貨在后臺(tái)觸發(fā)了一段“自我反思”:“我的,點(diǎn)錯(cuò)了,不小心點(diǎn)到了 Pocket 工具,等我關(guān)了重來(lái)。。”
![]()
這一大圈折騰下來(lái),世超最大的感受就是:豆包這次是真的在往“六邊形戰(zhàn)士”的方向死磕。
放在以前,大伙兒一聊起多模態(tài)體驗(yàn)最牛的,第一反應(yīng)就只有 Gemini,綜合能力強(qiáng)到斷層,你放眼望去,甚至連個(gè)能稍微抗衡一下的老二都找不出來(lái)。
但今天再看豆包,不管是文字、圖片還是視頻全都能接得住,理解能力也直逼第一梯隊(duì)。那肉眼可見(jiàn)的差距,正在被進(jìn)化的速度慢慢填平。
而且最關(guān)鍵的是,它是真會(huì)自己動(dòng)手啊。遇到盲區(qū)會(huì)搜資料,需要工具會(huì)抄家伙,甚至連 CAD 都能硬啃。這就導(dǎo)致在跟它一來(lái)一回的拉扯中,你會(huì)感覺(jué)它越來(lái)越像一個(gè)坐在你隔壁工位、隨叫隨到的同事了。
回過(guò)頭來(lái)看看這波 AI 浪潮,從最開(kāi)始只會(huì)陪人聊天的文字窗口,到后來(lái)能看圖、能聽(tīng)聲音,再到現(xiàn)在直接能長(zhǎng)出了手和腳,這種從“對(duì)話工具”向“干活幫手”的跨越,意味著硅基生命替碳基生命打黑工的齒輪,已經(jīng)徹徹底底轉(zhuǎn)動(dòng)起來(lái)了。
往后看,各家搞軍備競(jìng)賽,光靠在 PPT 上吹參數(shù)已經(jīng)唬不住人了。大家真正在意的,到底是誰(shuí)能替大伙兒扛下那些讓人頭禿的臟活累活。
所以咱能做的,也只有多配合它踏踏實(shí)實(shí)干活,繼續(xù)等它進(jìn)化完全的那天吧。
撰文:不咕
編輯:江江
美編:素描
圖片、資料來(lái)源:
火山引擎,視頻來(lái)源小紅書@貓本momo
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.