網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

查資料做視頻寫代碼甚至畫 CAD，豆包這動(dòng)手能力真有點(diǎn)離譜了。。

2026-02-21 00:08:13　來(lái)源: 差評(píng)XPIN

浙江舉報(bào)

分享至

大伙兒有沒(méi)有發(fā)現(xiàn)，現(xiàn)在不管哪家公司發(fā)新模型，底下提問(wèn)最常見(jiàn)的就一種類型：“這事兒到底能不能干？”好像跑分越高越強(qiáng)的思維，已經(jīng)過(guò)時(shí)了。

但我說(shuō)實(shí)話，這群 AI 和機(jī)器人公司全學(xué)壞了，就愛(ài)擱春節(jié)亮相，搞得世超和同事連春晚都看不進(jìn)去了。

這不，就在春節(jié)放假前，咱大伙最愛(ài)用的豆包，先是丟了一個(gè)王炸視頻模型 Seedance 2.0，接著又在春節(jié)來(lái)臨之際推出了豆包大模型 2.0（Doubao-Seed-2.0）系列。

你別說(shuō)，這發(fā)得真是時(shí)候。。世超本來(lái)說(shuō)趕在節(jié)前水一篇稿子放假，結(jié)果一上手，發(fā)現(xiàn)稿子寫不完了。

因?yàn)檫@小子，干起活來(lái)還真有點(diǎn)東西。。能干的活，兩三天根本研究不明白，于是整個(gè)春節(jié)假期，我基本全耗在研究怎么壓榨它的勞動(dòng)力上了。

現(xiàn)在，這套“壓榨流程”總算完工了，今天就來(lái)給大伙兒交個(gè)作業(yè)。咱們不整虛的，一切全從哥們的實(shí)際需求出發(fā)。

當(dāng)然了，例行公事的成績(jī)單咱還是得掃一眼。

這次字節(jié)的“Seed”家族更新得還蠻全面，除了核心的豆包 Seed 2.0，還有主攻視頻生成的 Seedance 2.0，以及搞定圖像的 Seedream 5.0 Lite，在火山引擎上都能試用，而且Seed 2.0系列的API已全部上線。

就拿核心的 2.0 Pro 來(lái)說(shuō)，空間理解、運(yùn)動(dòng)感知和視頻理解這幾個(gè)科目，直接跑贏了 Gemini 3 Pro。

數(shù)學(xué)和推理分?jǐn)?shù)拿下了 IMO 等硬核競(jìng)賽的金牌水平，全球最高，信息搜索和工具調(diào)用能力也拉升了一大截，只輸一手 GPT 5.2。

但說(shuō)句實(shí)話，跑分這東西就跟簡(jiǎn)歷一樣。紙面上看著好看，真坐到工位上頂不頂用，那是另外一碼事。那咱不說(shuō)廢話，接下來(lái)直接上強(qiáng)度，看看它到底能做些啥。

首先，這玩意的 Agent 能力非常強(qiáng)，也就是抄家伙干活的能力。

眾所周知，差評(píng)編輯部是一個(gè)多模態(tài)的團(tuán)伙，文字，圖片，視頻，樣樣精通。。所以我們每次用 AI 都挺麻煩的，各種 AI 工具擅長(zhǎng)的東西都不一樣，有的作圖強(qiáng)，有的視頻強(qiáng)，我們需要把窗口切來(lái)切去，文件傳來(lái)傳去，很影響效率。

但在春節(jié)假期期間，我用seed-2.0-pro 再配合 seedance、seedream，搭建了一個(gè)多模態(tài)的 AI 助手，并把它連接到了飛書。

現(xiàn)在，我只需要把任何格式的東西用飛書發(fā)給它，再給它提要求，它就能按要求和文件類型，處理我發(fā)過(guò)去的文件。

具體實(shí)現(xiàn)方法，簡(jiǎn)單來(lái)說(shuō)，就是本地部署一個(gè) OpenClaw，然后給它接上火山引擎上 Seed-2.0-Pro 的 API，再在飛書開(kāi)發(fā)者后臺(tái)創(chuàng)建一個(gè)機(jī)器人，接入我們的 OpenClaw，最后再在飛書給它發(fā)消息，讓它自己配置個(gè) Skill ，用 Skill能自行調(diào)用圖片、視頻生成能力即可。

只要機(jī)器人配置好，咱什么東西都能在里面搓了。比如，你們剛剛看到的切屏表情包，就是我用這個(gè)神秘妙妙工具做的。

或者，咱可以對(duì)已生成的圖片進(jìn)行修改，也就一句話的事兒。比如我可以給它一張過(guò)年期間的全家福，讓它改得喜慶一點(diǎn)。

結(jié)果。。不對(duì)，居然翻車了？？不能說(shuō)是一模一樣，只能說(shuō)是毫無(wú)血緣關(guān)系。

按說(shuō)豆包的 seedream 4.5，是很強(qiáng)的生圖模型了，難道其中還有什么玄機(jī)。。于是我打算盤問(wèn)一下它的工作流程。

然后它告訴我沒(méi)把原圖傳過(guò)去，原因是“圖生圖傳base64太大了調(diào)用失敗”。這我哪聽(tīng)得懂？直接讓它自己幫我解決。

結(jié)果，它一通操作，檢查問(wèn)題-提出方案-解決問(wèn)題，一套流程下來(lái)，還真給我調(diào)試好了。。

這番交互下來(lái)，我還是挺滿意的。因?yàn)橐粋€(gè)模型犯錯(cuò)其實(shí)是不可避免的，這和用戶的提示詞、當(dāng)前的上下文都脫不開(kāi)關(guān)系，而真正重要的是它知錯(cuò)就改的能力，在你需求描述越來(lái)越精確后，它能精準(zhǔn)捕捉需求，并快速解決錯(cuò)誤。

當(dāng)然除了圖片，視頻也是可以在同一個(gè)對(duì)話框生成的。比如我可以發(fā)個(gè)圖片過(guò)去，讓它轉(zhuǎn)成視頻。

這是成品：

如果你需要，還可以一鍵轉(zhuǎn)成 GIF，它自己調(diào)用工具生成：

所以這個(gè)機(jī)器人，現(xiàn)在不僅能改文案，還能幫美編作圖，給后期配素材，還能給編輯配 GIF 圖，只能說(shuō)爽飛了啊，誰(shuí)還分得清機(jī)器人和同事啊？

好了，那如果你需求沒(méi)那么垂直，只想體驗(yàn)跟 Seed 2.0 對(duì)話怎么辦？很簡(jiǎn)單，直接上火山引擎，在模型廣場(chǎng)里找到 Doubao-Seed-2.0 全系列，點(diǎn)擊立即體驗(yàn)就能用。

對(duì)了，剛咱跑分里提到一個(gè) BrowseComp，就是考察大模型搜索犄角旮旯里信息的能力的。剛好世超也蠻需要這個(gè)功能的，咱再來(lái)試試。

剛好世超最近在研究數(shù)學(xué)，發(fā)現(xiàn)一個(gè)很神奇的問(wèn)題，為什么圓周率π（約 3.14）的平方和g（重力加速度，約 9.8）的值那么近似？我研究了很大篇幅的資料，也沒(méi)找到令我滿意的答案。

于是我把我自己的想法（約 3000 字）一股腦發(fā)給了它，讓它通過(guò)手里的知識(shí)庫(kù)和互聯(lián)網(wǎng)工具一一解答。

答案真是夯爆了啊，不僅解答了我的疑問(wèn)，還補(bǔ)充了說(shuō)明了彩蛋和冷知識(shí)，其實(shí)就是人類定義的問(wèn)題，完全不是什么巧合。

有意思的是，我讓同樣擅長(zhǎng)搜索的 Claude Opus 4.6 做了一遍這個(gè)題，然后把Seed 2.0 pro答案發(fā)了過(guò)去，它直接自愧不如了。

對(duì)了，不僅能處理文本，Seed 2.0 的多模態(tài)能力也是一等一的強(qiáng)。比方說(shuō)，視頻理解這一項(xiàng)，昔日王者是 Gemini 3 pro，現(xiàn)在 Seed 2.0 pro 也能打一打了。

比如我直接傳了一個(gè)往日最佳視頻過(guò)去，讓 AI 進(jìn)行笑點(diǎn)解析。

說(shuō)的確實(shí)不賴，每個(gè)動(dòng)作它都看清了，還能看懂烏鴉的神態(tài)。甚至能預(yù)測(cè)接下來(lái)的劇情走向。

這是 Gemini 的回答，感覺(jué)也大差不差了。

而世超覺(jué)得這個(gè)是真實(shí)用。現(xiàn)在視頻的缺點(diǎn)，就是你第一眼不知道它的重點(diǎn)是啥，是夯還是拉你得看完才知道，而現(xiàn)在你能直接下載視頻發(fā)給豆包，如果視頻又臭又長(zhǎng)，你也不用浪費(fèi)你寶貴的時(shí)間了。

那，還有其他硬核項(xiàng)目嗎，比如，寫代碼？

這次，字節(jié)跟 OpenAI 想到一塊兒去了，端出了專精編程的 Doubao-Seed-2.0-Code 模型。可能他們也統(tǒng)一思路了，想讓 AI 成為真正的生產(chǎn)力，就必須專門出一個(gè)垂直模型，死磕寫代碼。

我這不會(huì)寫代碼的也試了試，我拿它擼了個(gè)手勢(shì)控制的飛機(jī)小游戲，我只需要在對(duì)話框里輸入幾句大白話需求，Seed 2.0 Code 就像接管了我的鍵盤一樣，唰唰把復(fù)雜的攝像頭捕捉和運(yùn)動(dòng)計(jì)算邏輯全寫完了。

現(xiàn)在我只要坐在屏幕前，對(duì)著攝像頭揮揮手，就能直接操縱游戲里的飛機(jī)閃轉(zhuǎn)騰挪。一個(gè)零基礎(chǔ)的人在五分鐘內(nèi)搞定這種交互，只能說(shuō)非常好用了。

看到這里，你可能以為，它也就搞搞自媒體、寫點(diǎn)小游戲了，還有別的活嗎？

有的，這模型現(xiàn)在連畫復(fù)雜的 CAD 圖紙，都能硬啃下來(lái)。而且，它干這活兒的方式，也強(qiáng)到離譜。

比如操作 FreeCAD 建模，它不是給你丟一堆代碼給你，而是直接奪舍你的鼠標(biāo)，自己在屏幕上去找菜單、點(diǎn)圖標(biāo)。

最神的是，中間它操作太快沒(méi)點(diǎn)準(zhǔn)，不小心點(diǎn)錯(cuò)工具彈了個(gè)報(bào)錯(cuò)框。

結(jié)果這貨在后臺(tái)觸發(fā)了一段“自我反思”：“我的，點(diǎn)錯(cuò)了，不小心點(diǎn)到了 Pocket 工具，等我關(guān)了重來(lái)。。”

這一大圈折騰下來(lái)，世超最大的感受就是：豆包這次是真的在往“六邊形戰(zhàn)士”的方向死磕。

放在以前，大伙兒一聊起多模態(tài)體驗(yàn)最牛的，第一反應(yīng)就只有 Gemini，綜合能力強(qiáng)到斷層，你放眼望去，甚至連個(gè)能稍微抗衡一下的老二都找不出來(lái)。

但今天再看豆包，不管是文字、圖片還是視頻全都能接得住，理解能力也直逼第一梯隊(duì)。那肉眼可見(jiàn)的差距，正在被進(jìn)化的速度慢慢填平。

而且最關(guān)鍵的是，它是真會(huì)自己動(dòng)手啊。遇到盲區(qū)會(huì)搜資料，需要工具會(huì)抄家伙，甚至連 CAD 都能硬啃。這就導(dǎo)致在跟它一來(lái)一回的拉扯中，你會(huì)感覺(jué)它越來(lái)越像一個(gè)坐在你隔壁工位、隨叫隨到的同事了。

回過(guò)頭來(lái)看看這波 AI 浪潮，從最開(kāi)始只會(huì)陪人聊天的文字窗口，到后來(lái)能看圖、能聽(tīng)聲音，再到現(xiàn)在直接能長(zhǎng)出了手和腳，這種從“對(duì)話工具”向“干活幫手”的跨越，意味著硅基生命替碳基生命打黑工的齒輪，已經(jīng)徹徹底底轉(zhuǎn)動(dòng)起來(lái)了。

往后看，各家搞軍備競(jìng)賽，光靠在 PPT 上吹參數(shù)已經(jīng)唬不住人了。大家真正在意的，到底是誰(shuí)能替大伙兒扛下那些讓人頭禿的臟活累活。

所以咱能做的，也只有多配合它踏踏實(shí)實(shí)干活，繼續(xù)等它進(jìn)化完全的那天吧。

撰文：不咕

編輯：江江

美編：素描

圖片、資料來(lái)源：

火山引擎，視頻來(lái)源小紅書@貓本momo

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.