![]()
豆包手機才發布半個多月,字節就發布了通用agent模型豆包 1.8。這是一個能在真實世界中“做事”的多模態大模型。
豆包 1.8可以直接操作你的手機、電腦和瀏覽器。它能看懂屏幕上的按鈕和界面,然后像人一樣點擊、滑動,幫你完成各種任務。
這是字節一次非常大膽的嘗試。要知道,在12月1號的時候,字節才發布了豆包手機。通用agent大模型的推出,讓豆包的領地從手機一下就擴張到了PC端,再加上智能硬件以及未來可以預期的智能座艙,豆包算是把互聯網從入口層面“一網打盡”了。
此前,曾因為豆包手機,字節已然成為了移動互聯網的敵人,微信、淘寶等超級流量APP明確表示拒絕豆包調用。
而現在,隨著豆包 1.8的發布,字節的敵人只增不減。
A
先來說說豆包 1.8的評分,更直觀的感受它作為agent是否合格。
![]()
在多模態理解方面,豆包 1.8的表現具有競爭力。模型能夠處理圖像和視頻內容,單次視頻理解的幀數從前代的640幀提升至1280幀。該項提升并非僅體現在數值層面,在實際應用場景中,模型能夠以低幀率理解長視頻的整體內容,在遇到關鍵片段時調用工具進行高幀率分析。
比如官方演示中,豆包 1.8就對籃球視頻進行分析,最終濃縮出正常比賽的內容。
![]()
在公開評測中,豆包 1.8在ZeroBench主集上獲得了11.0分,超越Gemini-3-Pro的10.0分,位居業界首位。ZeroBench是極限視覺推理基準測試中的核心部分,評分越高,代表模型越能理解復雜的視頻。
在視覺推理任務上,模型在MathVista得分87.7,MathVision得分81.3,LogicVista得分78.3,雖然整體略遜于Gemini-3-Pro,但是仍處于第一梯隊。
視頻理解方面,模型在VideoHolmes測試中得分65.5,EgoTempo得分67.0,MotionBench得分70.6,在長視頻和流式視頻處理上同樣保持了競爭力。
![]()
更為關鍵的是模型的agent能力。
豆包 1.8能夠執行代碼、操作圖形界面、使用各類工具,這些能力使其能夠完成多步驟的復雜任務。在BrowserComp-en搜索任務基準測試中,模型得分為67.6,在智能編程和經濟價值領域的相關測試中也表現穩定。
字節在技術報告中提及,模型支持search、code execution、GUI interaction三種核心交互方式,這些能力通過統一的agentic接口實現。
在基礎能力方面,豆包 1.8在數學推理、代碼能力、復雜指令遵循、知識覆蓋等維度均保持了主流水平。在AIME-25測試中得分94.3,BeyondAIME得分77.0,AMO-Bench得分60.0,LiveCodeBench得分79.5。
這些數據表明豆包 1.8的底層能力扎實,字節并未因agent能力而忽視基礎建設。
![]()
字節專門構建了一些內部評測基準,覆蓋教育、客服問答、復雜工作流等高價值場景。
在教育場景的測試中,豆包 1.8得分60.8,在客服問答中得分69.0,均為參與測試模型中的最高分。該結果驗證了模型在實際業務場景中的表現。
豆包 1.8提供了四種thinking模式:no_think、think-low、think-medium、think-high。
該設計旨在平衡延遲、計算成本和解決方案質量之間的關系。用戶可根據任務的復雜程度選擇不同的模式,在需要快速響應的場景使用低算力模式,處理復雜任務時切換至高算力模式。
而且豆包 1.8在視覺編碼上進行了優化,減少了圖像和視頻輸入的token消耗。在長上下文處理方面,模型支持256K的上下文長度,并提供了原生API級別的上下文管理。
直白來說,字節已經提前規劃好了豆包 1.8有哪些實際用途,以及部署上該如何優化。
B
有意思的是,豆包 1.8的能力范圍不限于手機助手,瀏覽器以及PC端都可以使用。也就是說,字節正在用AI包圓整個互聯網。
其實這兩年瀏覽器市場的變化是非常顯著的。傳統瀏覽器,比如谷歌的Chrome和微軟的Edge,都在加入AI能力。也誕生了許多基于大模型的AI瀏覽器。
Atlas是OpenAI在2025年10月推出的產品,本質上是Chrome與ChatGPT的結合,將對話助手嵌入傳統瀏覽器。Disco是Google Labs的實驗項目,擁有名為GenTabs的機制,能夠將用戶瀏覽的標簽頁直接生成可交互的Web應用。
AI瀏覽器是一個非常大的市場。Market.us數據顯示,2024年全球AI瀏覽器市場規模約45億美元,預計2034年將達到768億美元,年復合增長率達32.8%。
![]()
然而豆包 1.8其實可以讓設備擁有更神奇的玩法。
該模型的云端架構使其能夠實現跨設備協同,也就是說,理論上用戶可在手機上向豆包 1.8下達命令,由電腦上的瀏覽器執行。
比如在手機上瀏覽抖音時發現感興趣的內容,想要切換至大屏觀看。那么就可以向豆包 1.8發出“在網頁上打開該頁面”的指令,電腦瀏覽器便能打開手機上的視頻。
這種跨平臺能力是傳統瀏覽器AI化難以實現的,也是Atlas、Disco等獨立瀏覽器產品目前尚未擁有類似的能力。
實際上,字節也在效仿微軟。微軟曾在Ignite 2025大會上宣布Windows正在成為“AI agent操作系統”。
然而字節的想法和微軟是不相同的。
微軟需要從底層改造Windows系統架構,將agent能力深度集成到內核和API層面。而豆包 1.8的做法更輕量,它是一個系統外部的代行者,就像是外骨骼一樣簡化用戶的操作。
為了實現這個目標,首先就是要理解文字和圖表。豆包1.8在這個領域有專門優化。
它不僅能閱讀文字,還能理解復雜的學術圖表、數據可視化、技術文檔中的示意圖。在處理包含大量公式、圖表和專業符號的學術論文時,模型能夠提取關鍵信息、理解圖表含義、建立文字與圖示之間的對應關系。
而且PC端的任務往往比移動端要復雜。于是豆包1.8在復雜推理任務中,加入了并行思考機制。通過分配額外的計算資源,它可以同時探索多個解決方案路徑,評估不同方案的可行性,最終選擇最優解。
實際應用測試顯示,豆包能夠處理綜合性的規劃任務。在旅行規劃場景中,它可以同時處理多模態信息,從地圖、圖片、文字描述中收集信息,綜合考慮預算、時間、偏好等約束條件,生成詳細可行的行程安排。
C
字節想要把AI的蛋糕做大,但是豆包手機已然讓字節成為眾矢之的,繼續升級agent,只會為自己引來更多的敵人。
互聯網行業當前的商業邏輯是,用戶在應用中停留的時間越長,觀看的廣告越多,平臺獲得的收益越高。應用開發商投入大量精力優化界面、設計轉化路徑、增加用戶黏性,目的是讓用戶盡可能多地接觸商業化內容。在該邏輯下,應用是流量的關口,掌握應用即掌握用戶。
agent模型的出現,對該邏輯形成了顛覆。在字節的演示中,豆包 1.8能夠調用十余個工具完成電商平臺的全網比價和下單。
用戶無需打開淘寶、京東、拼多多,無需在各應用之間切換,只需告訴大模型“購買性價比最高的某產品”,agent便會自動搜索、比價、篩選、下單。在整個過程中,用戶完全不接觸應用界面,自然也無法看到任何廣告。
![]()
實測顯示,豆包 1.8可通過playwright MCP工具,按指令在淘寶篩選500-1000元區間銷量第一的半入耳式藍牙耳機,再到唯品會、京東比價并完成加購。
該能力對用戶而言是效率的提升,但對應用開發商而言則構成威脅。
廣告展示失去了核心場景,原有的流量價值被大幅壓縮。更為關鍵的是,用戶對應用的認知可能發生改變。
過去用戶的認知是“購物使用淘寶,打車使用滴滴”,現在轉變為“向agent說明需求,由其決定使用何種服務”。應用從流量的關口轉變為agent可選的工具,互聯網的統治權從應用層轉向模型層。
豆包手機遭遇的封禁和限制,本質上是應用開發商的防御反應。但該防御能夠持續的時間,取決于用戶的選擇。
但是,規矩是人定的。如果足夠多的用戶認為agent的使用體驗明顯優于傳統的應用操作,APP開發商將不得不調整策略。
開發商可能開放API接口使agent更好地調用,也可能在agent調用時保留部分廣告展示,或者改變商業模式,從流量變現轉向服務收費。
況且,AI agent的玩家越來越多。
12月9日,智譜就宣布開源其核心AI agent模型AutoGLM。與豆包手機助手的能力相似,AutoGLM能夠穩定完成外賣點單、機票預訂等長達數十步的復雜操作流程,并且已支持微信、淘寶、抖音、美團等超過50個高頻中文應用。
質譜開源的AutoGLM-Phone-9B總共只需要36GB的空間,就可以完全在手機本地運行。且開源采用MIT和Apache-2.0雙許可證,意味著任何人都可以免費下載并用于商業用途。
在移動互聯網時代,谷歌憑借開源的Android系統建立了龐大的生態,智譜顯然想要在AI操作系統時代復制這一路徑。
而且從豆包和智譜的技術實現來看,這個領域的核心壁壘和大模型是完全相同的,騰訊、阿里等等互聯網大廠,手里都握著門票。
不過從行業競爭的角度觀察,誰能讓agent與現有APP生態共存的一方,誰才能占據優勢。
字節既擁有模型能力,也擁有應用生態。抖音、今日頭條等產品本身即為流量大戶,字節能夠先在自身應用中測試agent能力,積累經驗后再向外擴展。
且字節的云端架構使其能夠快速迭代,豆包手機上線半月即推出多次更新,該迭代速度是傳統硬件廠商難以達成的。
不可否認的是,豆包1.8是字節的探索性嘗試。
它們展示了一種可能性,但距離成熟的產品形態仍有距離。至于最終能夠走多遠,取決于字節在技術、生態、商業模式上能夠實現多少突破。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.