在月初小試了一把“豆包手機(jī)”,在真實(shí)場(chǎng)景展示智能體潛力后,字節(jié)跳動(dòng)真正的底牌才剛剛亮出。今日,其旗艦豆包大模型升級(jí)至Seed-1.8,直指“通用現(xiàn)實(shí)世界智能體”。這個(gè)專為多模態(tài)智能體場(chǎng)景定向優(yōu)化的模型,將字節(jié)跳動(dòng)日均token消耗提升到50萬(wàn)億量級(jí),加入與谷歌、OpenAI爭(zhēng)奪全球token經(jīng)濟(jì)頭部位置的競(jìng)爭(zhēng)。
所謂豆包手機(jī),是Seed-1.8在現(xiàn)實(shí)世界的典型應(yīng)用。它以系統(tǒng)級(jí)智能體的形式封裝在中興努比亞M153的底層,能夠理解復(fù)雜的手機(jī)界面,并跨應(yīng)用完成連續(xù)操作。但當(dāng)智能體行為被壓縮進(jìn)短短數(shù)秒時(shí),人們往往只看到結(jié)果,卻難以判斷其背后究竟調(diào)用了哪些能力,又經(jīng)歷了多少步推理與決策。Seed-1.8 的模型卡,正是理解這一切的起點(diǎn)。
在字節(jié)跳動(dòng)的模型體系中,Seed-1.8承擔(dān)的是旗艦角色,是一款多模態(tài)深度思考模型。在今天的FORCE原動(dòng)力大會(huì)上,與其一同亮相的,還有最新的視頻生成模型 Seedance 1.5 Pro。此外,該模型家族還包括語(yǔ)音語(yǔ)義模型與圖像生成模型等,與阿里巴巴的通義家族一樣,覆蓋全模態(tài)與全尺寸。
但這一次,Seed-1.8明確錨定的對(duì)手,是同為旗艦?zāi)P偷墓雀?Gemini-3-Pro,野心不言自明。后者發(fā)布僅一個(gè)月,是行業(yè)頂流,擁有最先進(jìn)的推理能力,領(lǐng)先的多模態(tài)理解能力,帶來(lái)了全新的智能體編碼體驗(yàn);一經(jīng)發(fā)布,炸裂了籠罩硅谷的陰霾。事實(shí)上,字節(jié)跳動(dòng)與谷歌的正面競(jìng)爭(zhēng)早已開(kāi)始。年中,字節(jié)跳動(dòng)的Seedance 1.0就對(duì)標(biāo)了谷歌的Veo 3,開(kāi)啟了AI短視頻大戰(zhàn)。這次算是進(jìn)一步將戰(zhàn)火燒到了旗艦?zāi)P偷淖钋把亍6遥诙囗?xiàng)基準(zhǔn)測(cè)試中,Seed-1.8并不落下風(fēng),甚至在視頻理解領(lǐng)域全面壓制了Gemini-3-Pro。
(2025/6/20) 閱讀全文>
與其證明模型有多強(qiáng),不如檢驗(yàn)它是否真正有用。字節(jié)跳動(dòng)的模型創(chuàng)新路徑相當(dāng)務(wù)實(shí),主打在現(xiàn)實(shí)世界的高性價(jià)比地落地。除了基礎(chǔ)推理能力之外,該模型更被設(shè)計(jì)為能夠支撐統(tǒng)一的智能體交互、多步驟執(zhí)行,以及對(duì)延遲與成本具備感知能力的推理系統(tǒng),并據(jù)此接受更貼近應(yīng)用場(chǎng)景的評(píng)估。在字節(jié)跳動(dòng)看來(lái),隨著行業(yè)步入“AI的下半場(chǎng)”,基準(zhǔn)測(cè)試的三大原則,應(yīng)為優(yōu)先考慮用戶體驗(yàn)、向?qū)嶋H場(chǎng)景過(guò)渡、以及推動(dòng)智能前沿的發(fā)展。
若以編程、數(shù)學(xué)、STEM等基礎(chǔ)知識(shí)作為衡量標(biāo)準(zhǔn),Seed-1.8相較 Gemini-3-Pro仍處于次優(yōu)水平;但當(dāng)評(píng)價(jià)重心轉(zhuǎn)向真實(shí)世界中的高經(jīng)濟(jì)價(jià)值任務(wù)時(shí),兩者已難分高下。需要強(qiáng)調(diào)的是,這類任務(wù)并非來(lái)自通用公共基準(zhǔn),而是字節(jié)跳動(dòng)圍繞實(shí)際應(yīng)用場(chǎng)景所構(gòu)建的內(nèi)部評(píng)估體系。
![]()
在多模態(tài)的視覺(jué)語(yǔ)言相關(guān)基準(zhǔn)測(cè)試上,尤其是針對(duì)更細(xì)分的視頻理解能力,字節(jié)跳動(dòng)的旗艦?zāi)P褪芤嬗谒诙兑?TikTok上的積累。Seed-1.8幾乎全面壓倒了谷歌的Gemini-3-Pro,在23項(xiàng)基準(zhǔn)測(cè)試中取得了12項(xiàng)領(lǐng)先。
Seed-1.8非常擅長(zhǎng)視頻的思維鏈推理(VCR-Bench),它還是視頻推理界的“福爾摩斯”,能出色地根據(jù)視頻線索推斷隱藏事實(shí)(VideoHolmes)。此外,它在運(yùn)動(dòng)與感知理解方面也非常突出,尤其擅長(zhǎng)運(yùn)動(dòng)模式建模(TOMATO)、第一人稱視角理解(EgoTempo)、細(xì)粒度動(dòng)作識(shí)別(MotionBench)以及動(dòng)態(tài)計(jì)數(shù)(Countix)等任務(wù)。
雖然谷歌在長(zhǎng)視頻理解上仍占據(jù)優(yōu)勢(shì),但字節(jié)跳動(dòng)在流媒體視頻理解方面實(shí)現(xiàn)了超越,尤其在逐幀實(shí)時(shí)主動(dòng)響應(yīng)與交互能力上表現(xiàn)優(yōu)異(StreamingBench / OmniMMI)。
![]()
字節(jié)跳動(dòng)團(tuán)隊(duì)讓 Seed-1.8 從一場(chǎng)足球比賽中提取高光片段,模型成功捕捉到 5 個(gè)進(jìn)球的精彩瞬間,并輸出每個(gè)片段的起止時(shí)間及選取理由。借助視頻工具(VideoCut),模型還能提升相關(guān)片段的幀率并進(jìn)行回放,最終生成精準(zhǔn)的技巧總結(jié)。或許在明年的世界杯期間,抖音上將充斥由 AI 自動(dòng)剪輯與解說(shuō)的足球精彩片段。
此外,Seed-1.8還提升了智能體能力,包括通用智能體搜索與視覺(jué)搜索,智能體編程、寫作與工具使用等。這些都與在實(shí)際工作流中完成任務(wù)息息相關(guān)。豆包手機(jī)要幫助用戶在多個(gè)平臺(tái)間搜尋分散的信息,同時(shí)兼顧時(shí)間、預(yù)算和個(gè)人偏好等高度耦合的約束條件。
該模型的另一項(xiàng)突出能力則是用戶圖形界面操作,它在OSWorld、Realbench、Online-Mind2web和 AndroidWorld這四個(gè)關(guān)鍵的公共基準(zhǔn)測(cè)試中,均達(dá)到了峰值性能,三項(xiàng)第一,一項(xiàng)第二。
![]()
多模態(tài)+智能體,是塑造“豆包手機(jī)”AI體驗(yàn)的關(guān)鍵能力。字節(jié)跳動(dòng)的模型團(tuán)隊(duì)輸入任務(wù)指令:“我有一個(gè)40×40厘米的裸缸,想養(yǎng)一條烏鱧魚,請(qǐng)幫我從各大購(gòu)物App中挑選最具性價(jià)比的過(guò)濾器、防跳網(wǎng)和加熱棒。”Seed-1.8就用到了Mobile Use等功能,先后打開(kāi)了三個(gè)不同的電子商務(wù)平臺(tái)(淘寶、京東、拼多多),查找并比較特定商品的價(jià)格。從接受指令到輸出結(jié)果,智能體一共執(zhí)行了122個(gè)連續(xù)步驟。
這一過(guò)程充分考驗(yàn)了模型在長(zhǎng)期任務(wù)分解、多站點(diǎn)導(dǎo)航以及整合來(lái)自不同來(lái)源信息的準(zhǔn)確性和穩(wěn)定性,也凸顯了當(dāng)前智能體向現(xiàn)實(shí)世界任務(wù)落地所必需的能力。
![]()
多模態(tài)與智能體能力在現(xiàn)實(shí)世界的落地,無(wú)疑將帶來(lái)更大規(guī)模的token消耗。單位時(shí)間內(nèi)的token消耗數(shù)量,是算力相對(duì)標(biāo)準(zhǔn)化的計(jì)量方式,也是更靠近應(yīng)用側(cè)的token經(jīng)濟(jì)的統(tǒng)計(jì)指標(biāo)。
目前,全球只有字節(jié)跳動(dòng)與谷歌,有絕對(duì)的信心不定期披露自己的token消耗數(shù)據(jù)。此外,OpenAI也曾披露過(guò)一次API分鐘調(diào)用token消耗。正是在這一指標(biāo)上,字節(jié)跳動(dòng)自稱在全球競(jìng)爭(zhēng)中位列“中國(guó)第一、全球第三”。
![]()
這三家AI巨頭的月均token消耗都已突破千萬(wàn)億(Quadrillion)的量級(jí)。截至10月,谷歌每月消耗1300萬(wàn)億tokens。同月,OpenAI每分鐘API調(diào)用了60億tokens,按企業(yè)業(yè)務(wù)占公司收入25%折算,整個(gè)公司也達(dá)到了每月消耗1080萬(wàn)億tokens水平。這次,字節(jié)跳動(dòng)披露截至今年12月,豆包大模型日均token使用量已突破50萬(wàn)億(相當(dāng)于1500萬(wàn)億每月)。
與此同時(shí),在相近的時(shí)間段內(nèi),谷歌、字節(jié)跳動(dòng)與OpenAI,各自擁有超過(guò)150家、100家與30家客戶,累計(jì)消耗了萬(wàn)億tokens。
當(dāng)然,字節(jié)跳動(dòng)也在盡可能降低不必要的算力開(kāi)銷。當(dāng)任務(wù)輪次過(guò)長(zhǎng)時(shí),模型會(huì)根據(jù)策略智能清除低價(jià)值的歷史工具調(diào)用信息,以確保多步驟任務(wù)的穩(wěn)定完成;同時(shí),其視頻生成模型支持先輸出“預(yù)覽即所得”的低分辨率版本,從而減少約60% 的無(wú)效創(chuàng)作成本。
旗艦?zāi)P蚐eed-1.8的發(fā)布,標(biāo)志著字節(jié)跳動(dòng)正持續(xù)逼近前沿封閉模型的能力邊界。伴隨海外業(yè)務(wù)擴(kuò)張、AI 體驗(yàn)加速滲透,以及“推理代工服務(wù)”推動(dòng)智能體在千行百業(yè)落地,字節(jié)跳動(dòng)正在成為中國(guó)開(kāi)源模型體系之外,少數(shù)具備全球 token經(jīng)濟(jì)競(jìng)爭(zhēng)資格的關(guān)鍵玩家之一。
模型卡:
https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/research/Seed-1.8-Modelcard.pdf
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.