哈嘍,大家好,今天小墨這篇科技解析,主要帶大家看懂豆包大模型1.8發(fā)布背后的行業(yè)信號,通用 Agent 已成為 AI 下半場的核心敘事。
2025年的AI行業(yè)競爭,從年初DeepSeek R1和Manus開啟的Agent熱潮,到年底多款旗艦?zāi)P兔芗l(fā)布,最終清晰地回歸到核心基座模型的能力比拼。
12月18日,火山引擎在上海FORCE原動(dòng)力大會(huì)發(fā)布的豆包大模型1.8,正是這一行業(yè)趨勢的典型印證,其以多模態(tài)Agent能力為核心的升級方向,以及同步推出的全新評估體系,為AI“下半場”的競爭劃定了新賽道。
![]()
![]()
多模態(tài)Agent能力重構(gòu)AI交互邏輯
豆包1.8的核心升級聚焦于通用Agent能力的系統(tǒng)性增強(qiáng),其中最具顛覆性的是OS Agent場景的落地,讓AI不僅能“思考”和“表達(dá)”,更能“看見”并直接操作數(shù)字世界。
這一突破的底層支撐,是模型從預(yù)訓(xùn)練階段就采用的端到端多模態(tài)訓(xùn)練方案。
![]()
官方數(shù)據(jù)顯示,其在ZeroBench視覺推理測試中斬獲11.0的最高分,超越Gemini 3 Pro的10.0;在VLMsAreBiased基準(zhǔn)測試中得分62.0,大幅領(lǐng)先同類模型。
這種原生多模態(tài)能力讓OS Agent具備了全場景操作能力。在電腦、網(wǎng)頁、移動(dòng)端三大環(huán)境中,能精準(zhǔn)執(zhí)行GUI界面操作,在全球權(quán)威的BrowserComp-en測評中得分高達(dá)67.6,超越Gemini-3-Pro等頂級模型。
![]()
更重要的是,其突破了傳統(tǒng)Agent對API接口的依賴,能直接通過視覺識別操作銀行ERP、企業(yè)內(nèi)網(wǎng)等無API系統(tǒng),或繞過嚴(yán)格的API限制實(shí)現(xiàn)跨平臺數(shù)據(jù)搬運(yùn),為企業(yè)自動(dòng)化場景開辟了新可能。
在工具調(diào)用與思考能力上,豆包1.8進(jìn)一步夯實(shí)了行業(yè)標(biāo)配。
更關(guān)鍵的是其實(shí)現(xiàn)了思考模式下的工具調(diào)用,能在保留推理狀態(tài)的同時(shí)完成多輪工具調(diào)用,利用歷史思考內(nèi)容提升長鏈路任務(wù)的完成質(zhì)量,這一功能已在電商客服等場景落地,可自動(dòng)調(diào)度商品庫、計(jì)算器等工具,甚至通過高情商交互推動(dòng)用戶轉(zhuǎn)化。
![]()
![]()
新評估體系定義AI“下半場”標(biāo)準(zhǔn)
隨著行業(yè)競爭焦點(diǎn)轉(zhuǎn)移,傳統(tǒng)評測集的局限性日益凸顯。
轉(zhuǎn)向高經(jīng)濟(jì)價(jià)值的真實(shí)場景任務(wù),擺脫合成任務(wù)的局限。在保障實(shí)用性的同時(shí)推進(jìn)通用智能,設(shè)計(jì)高級推理、編碼等新基準(zhǔn)。
![]()
這一評估體系的落地,直指AI行業(yè)“定義問題比解決問題更重要,evaluation比training更重要”的核心趨勢。
火山引擎技術(shù)人員透露,客服場景是其重點(diǎn)評測方向之一,這一場景因SOP獲取難、驗(yàn)證復(fù)雜、準(zhǔn)確性要求高而被低估,卻能精準(zhǔn)檢驗(yàn)?zāi)P偷默F(xiàn)實(shí)適配能力。
當(dāng)模型能高質(zhì)量完成客服任務(wù)時(shí),不僅能實(shí)現(xiàn)7×24小時(shí)高效響應(yīng),更能解鎖“客服變銷售”的增值價(jià)值,杭州銀行基于豆包打造的“百業(yè)云”智能客服就已實(shí)現(xiàn)這一突破。
豆包1.8的發(fā)布也推動(dòng)行業(yè)競爭進(jìn)入“模型—平臺—生態(tài)”的系統(tǒng)化階段。
![]()
火山引擎同步推出AgentKit開發(fā)平臺、HiAgent智能體工作站,以及最高可節(jié)省47%成本的“AI節(jié)省計(jì)劃”,大幅降低企業(yè)Agent應(yīng)用的開發(fā)門檻。
目前,其已在多行業(yè)落地標(biāo)桿案例:近八成主流車企選擇豆包升級智能座艙,浙江大學(xué)基于其打造的“浙大先生”智能體平臺服務(wù)5萬余名師生,教育機(jī)構(gòu)利用其視頻理解能力將課程審核效率提升83%。
截至12月,豆包大模型日均token使用量突破50萬億,超100家企業(yè)客戶累計(jì)token使用量破萬億,印證了其生態(tài)號召力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.