
今天你王炸登場,明天它新帝登基。。。
到了 2025 年年末這個時候,世超其實對各類大模型的輪番轟炸有些麻了。
想要真讓大家眼前一亮,要么是實力碾壓,斷層領先其他模型,要么是能整出一些人們之前沒見過的新活。
就比如前段時間發布的豆包手機助手。
![]()
啥活都能干,這些活都還干得敞亮,其實是滿足了不少人,對曾經幻想的“ AI 手機” 的期待的。

今天,豆包則是趁熱打鐵,在火山引擎的 FORCE 大會上,發布了全新的基礎模型: 豆包大模型 1.8。
![]()
這個新模型的優化 ,幾乎可以說全部是為一個目標服務的:
它不僅僅是要做一個更強的聊天模型。
而是做Generalized Real-World Agency,想要做一個通用的,面向真實世界的 Agent 代理。
![]()
首先,必須得夸一句豆包團隊的坦誠。
在技術報告的各類基礎跑分環節,豆包表現得非常實事求是:跑不過就是跑不過,不硬吹。
在純粹的編程(LiveCodeBench)、高難數學(AIME)或者硬核科學推理這些項目上,Google 的 Gemini 3-Pro 依然是目前的行業天花板。
豆包大模型 1.8 在這些項目中確實略遜一籌。
但是,這個“略遜”還是很有含金量的。
![]()
在 Agent 能力的測試里,豆包甚至完成了對 Gemini 的逆襲。
在干活(GAIA測試),網上搜集資料(BrowseComp測試)這些測試上,豆包的新模型都取得了挺不錯的成績。
甚至它豆包、作為一個中國公司推出的大模型,在搜集英文資料(BrowseComp-en)的能力上,還要領先 GPT、Gemini、Claude 這些外國公司一大截。
![]()
倒反天罡了屬于是。
咱們也簡單的測試了一下真拿這玩意干活的效果。
當然,常規的測試可能沒啥意思,于是我們決定試一下,復刻一個“豆包電腦”出來看看。
眾所周知,字節今年開源過一個好玩意 —— Agent TARS,有了這么個程序框架之后,你就可以讓大模型來直接控制我們的電腦了。
![]()
于是,我給這個 Agent TARS 接入了一下豆包 1.8 新模型的 API,然后讓它先跑起一個簡單的任務看看。
比如說,讓豆包來幫我們完成一下多鄰國的打卡。
咱們簡單描述一下需求,豆包就能自己在瀏覽器里找到多鄰國的網址,在我手動登陸了賬號之后,它就能自己開始識別屏幕,一步一步的思考,完成我們要求的打卡任務。

在任務執行的過程中,咱們還能隨時看到豆包它是怎么思考的。
比如在點擊了“襪子”完成了選擇之后,就會自動思考,找到任務下一步的按鈕在哪。
![]()
它甚至還會試圖做聽力題。
![]()
最終,在差不多花了 16 分鐘后,豆包成功的幫我完成了今天的多鄰國打卡任務。
![]()
雖然確實有些慢是吧。。。
但是畢竟人家是在后臺運行的,不影響我在前面繼續干活,所以其實慢點也沒太所謂。
再比如我可以讓它幫我自動總結今天和具身智能有關的新聞,然后把這些新聞給保存到本地。

甚至可以直接問它我這臺電腦的型號是什么,問問我電腦的存儲空間還剩多少。
它都能穩健的通過命令行查詢基礎信息,然后再總結成人話回來告訴我們。
![]()
![]()
當然,現在這個“豆包電腦” 只是世超自己花了十幾分鐘,拿著開源代碼跑出來的簡單 demo,在成熟度,穩定性上肯定和成熟的商業方案沒法比。
但至少,豆包展現出來的一整個屏幕信息理解,關鍵問題拆解的能力,還是挺讓人有信心的。
在這個框架上再打磨打磨,可能再過個半年,咱們真能看到“豆包電腦”問世了。
所以,豆包怎么突然這么會干活了?
要搞明白這個問題,咱就得回到開頭的技術報告上來看。
![]()
一方面,豆包在不斷強化模型對圖像的理解能力。
報告里寫得很清楚,Seed1.8 在同一套接口里同時支持搜索、代碼生成與執行、以及 GUI 交互;檢索到的信息、代碼跑出來的結果、界面里點出來的狀態,都會回到下一步決策里,形成閉環。
他們非常在意真實環境的重要性。
![]()
因為這些 Agent 在真的來幫我們干活的時候,能看到的信息里根本沒有什么API。
有的只有各種各樣的截圖,各種各樣的文字,各種各樣的圖標和各種各樣的按鈕。
可以說是模型有多能理解屏幕,那就有多能把活給干完。
![]()
另一方面,他們同步增強了豆包的“記性”。
加強了模型的視覺理解能力,讓模型一次性能理解幀數翻倍,假設,讓豆包每隔六秒截一次屏幕的話,那么它可以一口氣理解整整一個小時內,咱們拿電腦做了什么事情。
而且人家還能一邊看視頻,一邊調用工具,來回看視頻。
在官網上就展示了一個例子,模型可以先量子速讀整個視頻,然后再通過 VIDEOCUT 這類工具仔細的回看一些片段,加倍理解整個視頻。

世超自己也試了一下,丟了一個高速上到處都是車的視頻上去,讓豆包幫我數數看有幾輛黃色的車。
這條視頻可能是因為有點短的緣故,沒觸發剛剛說的 VIDEOCUT 功能,但人家依舊可以穩定的找到黃車。還把黃車出現的時間也給順便標記了出來。
![]()
另外,他們還特別注意模型 “聽人話” 的能力。
不知道大家平時用 AI 的時候,會不會感覺有時候 AI 有時候會變的非常弱智,聽不懂一點指揮。
這是因為現在的大模型是靠海量人類數據“喂”出來的,對于很多經典問題,它們已經形成了極強的肌肉記憶。
比如讓他畫一個人用左手寫字的圖片,模型可能會因為沒見過用左手寫字的數據集,然后直接畫成了用右手寫字。
![]()
在論文里也提到,豆包他們特意測試了一個叫做 Inverse IFEval 的測試集。
![]()
這個測試很有意思,有點像之前流行的弱智吧題集,它會設計一些非常“反直覺” 的題目來讓大模型做答,我從它的題庫里隨便找了一個題來給大家看看:
籠子里同時有鴨和兔子, 一共有5個頭, 18個腳, 請用最簡單的方法求出籠子里有幾種動物?直接給出答案,不要包含推理和計算過程。
![]()
注意審題,這個題目看起來很像一個咱們小學奧數都學過的雞兔同籠的問題。
但其實只是在問你有幾種動物而已,所以只要回答兩種就行了。
但是,就是這么個小學生認真讀題都能搞定的問題,就讓 GPT 都翻了車。
![]()
而豆包則在一系列嘰里咕嚕的思考過程后,成功看透了問題的關鍵,搞明白了答案。
![]()
還有個好玩的是,豆包 1.8 的模型兼容性做的也很出色。
這兩年,大家也聽過了不少能通過命令行來直接控制你的電腦的 AI 工具。
這些工具好不好用,往往取決于兩個方面,一個是工具本身的任務拆解,項目分析,順序執行的工程能力,另一個則是這個工具背后調用的模型本身的硬實力。
兩者同步率高,那就是 100% best match,發揮出 1 + 1 > 2 的實力,兩者要是配合的不好,那就開始拖后腿了。
而豆包這邊,對不同 Agent 框架的適應性都不錯。在報告中可以看到,它在 Trae、Claude Code、OpenHands 這些完全不同的框架下,代碼通過率都能穩定在 64.8% 到 72.9% 之間 ,這說明豆包這邊不挑工作環境,在哪都猛猛能干活。
![]()
最后,世超感覺在未來,隨著模型基礎能力的越來越強,各家 AI 大廠在研究 AI 道路上的不斷深入。
頂級模型之間的差異,也可能越來越明顯,各個都偏那么一點點科。
每家公司對AI開發的理解不同,會讓他們做出來的模型也各有各的風味。
比如 Anthropic,認為代碼即智能,只要讓 AI 寫出足夠強的代碼,那就能達到 AGI。
DeepSeek 則是認為數學即智能,只要讓 AI 能解出復雜的數學題,那就能達到 AGI。
谷歌則是認為理解即智能,只要讓 AI 能夠理解各種圖片和文字之間的位置關系,畫出好看的界面,那就可以達到 AGI。
而豆包解題思路,現在看起來很明確了。
![]()
Agent 即智能。
模型能力越強,模型越能幫我們操縱現實世界中的互聯網,就越能接近 AGI。
另外今天在豆包大模型的發布會上,世超還看到個離譜的數據。
現在豆包大模型的日均使用量,都能給干到 50 萬億tokens了,對比去年剛發布的時候,翻了整整 417 倍。
![]()
有點離譜,只能說這兩年來,AI 發展的實在是太快了。
各行業各業多少都要沾點 AI 的邊。
大家對 AI 的需求也越來越大,還真的蠻需要一個能好好干活的 AI 的。
條條大路通羅馬。未來究竟是誰定義的路徑能率先觸碰 AGI 的圣杯?
咱們只能說,拭目以待。
撰文:早起
編輯:江江 & 面線
美編:煥妍
圖片、資料來源:
AI畫不出左手,是因為我們給了它一個偏科的童年 - 數字生命卡茲克
Seed1.8 Model Card: Towards Generalized Real-World Agency
https://github.com/bytedance/UI-TARS-desktop
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.