<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      豆包的新模型,想給“豆包電腦”打個樣?

      0
      分享至


      今天你王炸登場,明天它新帝登基。。。

      到了 2025 年年末這個時候,世超其實對各類大模型的輪番轟炸有些麻了。

      想要真讓大家眼前一亮,要么是實力碾壓,斷層領先其他模型,要么是能整出一些人們之前沒見過的新活。

      就比如前段時間發布的豆包手機助手。


      啥活都能干,這些活都還干得敞亮,其實是滿足了不少人,對曾經幻想的“ AI 手機” 的期待的。


      今天,豆包則是趁熱打鐵,在火山引擎的 FORCE 大會上,發布了全新的基礎模型: 豆包大模型 1.8。


      這個新模型的優化 ,幾乎可以說全部是為一個目標服務的:

      它不僅僅是要做一個更強的聊天模型。

      而是做Generalized Real-World Agency,想要做一個通用的,面向真實世界的 Agent 代理。


      首先,必須得夸一句豆包團隊的坦誠。

      在技術報告的各類基礎跑分環節,豆包表現得非常實事求是:跑不過就是跑不過,不硬吹。

      在純粹的編程(LiveCodeBench)、高難數學(AIME)或者硬核科學推理這些項目上,Google 的 Gemini 3-Pro 依然是目前的行業天花板。

      豆包大模型 1.8 在這些項目中確實略遜一籌。

      但是,這個“略遜”還是很有含金量的。


      在 Agent 能力的測試里,豆包甚至完成了對 Gemini 的逆襲。

      在干活(GAIA測試),網上搜集資料(BrowseComp測試)這些測試上,豆包的新模型都取得了挺不錯的成績。

      甚至它豆包、作為一個中國公司推出的大模型,在搜集英文資料(BrowseComp-en)的能力上,還要領先 GPT、Gemini、Claude 這些外國公司一大截。


      倒反天罡了屬于是。

      咱們也簡單的測試了一下真拿這玩意干活的效果。

      當然,常規的測試可能沒啥意思,于是我們決定試一下,復刻一個“豆包電腦”出來看看。

      眾所周知,字節今年開源過一個好玩意 —— Agent TARS,有了這么個程序框架之后,你就可以讓大模型來直接控制我們的電腦了。


      于是,我給這個 Agent TARS 接入了一下豆包 1.8 新模型的 API,然后讓它先跑起一個簡單的任務看看。

      比如說,讓豆包來幫我們完成一下多鄰國的打卡。

      咱們簡單描述一下需求,豆包就能自己在瀏覽器里找到多鄰國的網址,在我手動登陸了賬號之后,它就能自己開始識別屏幕,一步一步的思考,完成我們要求的打卡任務。


      在任務執行的過程中,咱們還能隨時看到豆包它是怎么思考的。

      比如在點擊了“襪子”完成了選擇之后,就會自動思考,找到任務下一步的按鈕在哪。


      它甚至還會試圖做聽力題。


      最終,在差不多花了 16 分鐘后,豆包成功的幫我完成了今天的多鄰國打卡任務。


      雖然確實有些慢是吧。。。

      但是畢竟人家是在后臺運行的,不影響我在前面繼續干活,所以其實慢點也沒太所謂。

      再比如我可以讓它幫我自動總結今天和具身智能有關的新聞,然后把這些新聞給保存到本地。


      甚至可以直接問它我這臺電腦的型號是什么,問問我電腦的存儲空間還剩多少。

      它都能穩健的通過命令行查詢基礎信息,然后再總結成人話回來告訴我們。



      當然,現在這個“豆包電腦” 只是世超自己花了十幾分鐘,拿著開源代碼跑出來的簡單 demo,在成熟度,穩定性上肯定和成熟的商業方案沒法比。

      但至少,豆包展現出來的一整個屏幕信息理解,關鍵問題拆解的能力,還是挺讓人有信心的。

      在這個框架上再打磨打磨,可能再過個半年,咱們真能看到“豆包電腦”問世了。

      所以,豆包怎么突然這么會干活了?

      要搞明白這個問題,咱就得回到開頭的技術報告上來看。


      一方面,豆包在不斷強化模型對圖像的理解能力。

      報告里寫得很清楚,Seed1.8 在同一套接口里同時支持搜索、代碼生成與執行、以及 GUI 交互;檢索到的信息、代碼跑出來的結果、界面里點出來的狀態,都會回到下一步決策里,形成閉環。

      他們非常在意真實環境的重要性。


      因為這些 Agent 在真的來幫我們干活的時候,能看到的信息里根本沒有什么API

      有的只有各種各樣的截圖,各種各樣的文字,各種各樣的圖標和各種各樣的按鈕。

      可以說是模型有多能理解屏幕,那就有多能把活給干完。


      另一方面,他們同步增強了豆包的“記性”。

      加強了模型的視覺理解能力,讓模型一次性能理解幀數翻倍,假設,讓豆包每隔六秒截一次屏幕的話,那么它可以一口氣理解整整一個小時內,咱們拿電腦做了什么事情。

      而且人家還能一邊看視頻,一邊調用工具,來回看視頻。

      在官網上就展示了一個例子,模型可以先量子速讀整個視頻,然后再通過 VIDEOCUT 這類工具仔細的回看一些片段,加倍理解整個視頻。


      世超自己也試了一下,丟了一個高速上到處都是車的視頻上去,讓豆包幫我數數看有幾輛黃色的車。

      這條視頻可能是因為有點短的緣故,沒觸發剛剛說的 VIDEOCUT 功能,但人家依舊可以穩定的找到黃車。還把黃車出現的時間也給順便標記了出來。


      另外,他們還特別注意模型 “聽人話” 的能力。

      不知道大家平時用 AI 的時候,會不會感覺有時候 AI 有時候會變的非常弱智,聽不懂一點指揮。

      這是因為現在的大模型是靠海量人類數據“喂”出來的,對于很多經典問題,它們已經形成了極強的肌肉記憶。

      比如讓他畫一個人用左手寫字的圖片,模型可能會因為沒見過用左手寫字的數據集,然后直接畫成了用右手寫字。


      在論文里也提到,豆包他們特意測試了一個叫做 Inverse IFEval 的測試集。


      這個測試很有意思,有點像之前流行的弱智吧題集,它會設計一些非常“反直覺” 的題目來讓大模型做答,我從它的題庫里隨便找了一個題來給大家看看:

      籠子里同時有鴨和兔子, 一共有5個頭, 18個腳, 請用最簡單的方法求出籠子里有幾種動物?直接給出答案,不要包含推理和計算過程。


      注意審題,這個題目看起來很像一個咱們小學奧數都學過的雞兔同籠的問題。

      但其實只是在問你有幾種動物而已,所以只要回答兩種就行了。

      但是,就是這么個小學生認真讀題都能搞定的問題,就讓 GPT 都翻了車。


      而豆包則在一系列嘰里咕嚕的思考過程后,成功看透了問題的關鍵,搞明白了答案。


      還有個好玩的是,豆包 1.8 的模型兼容性做的也很出色。

      這兩年,大家也聽過了不少能通過命令行來直接控制你的電腦的 AI 工具。

      這些工具好不好用,往往取決于兩個方面,一個是工具本身的任務拆解,項目分析,順序執行的工程能力,另一個則是這個工具背后調用的模型本身的硬實力。

      兩者同步率高,那就是 100% best match,發揮出 1 + 1 > 2 的實力,兩者要是配合的不好,那就開始拖后腿了。

      而豆包這邊,對不同 Agent 框架的適應性都不錯。在報告中可以看到,它在 Trae、Claude Code、OpenHands 這些完全不同的框架下,代碼通過率都能穩定在 64.8% 到 72.9% 之間 ,這說明豆包這邊不挑工作環境,在哪都猛猛能干活。


      最后,世超感覺在未來,隨著模型基礎能力的越來越強,各家 AI 大廠在研究 AI 道路上的不斷深入。

      頂級模型之間的差異,也可能越來越明顯,各個都偏那么一點點科。

      每家公司對AI開發的理解不同,會讓他們做出來的模型也各有各的風味。

      比如 Anthropic,認為代碼即智能,只要讓 AI 寫出足夠強的代碼,那就能達到 AGI。

      DeepSeek 則是認為數學即智能,只要讓 AI 能解出復雜的數學題,那就能達到 AGI。

      谷歌則是認為理解即智能,只要讓 AI 能夠理解各種圖片和文字之間的位置關系,畫出好看的界面,那就可以達到 AGI。

      而豆包解題思路,現在看起來很明確了。


      Agent 即智能。

      模型能力越強,模型越能幫我們操縱現實世界中的互聯網,就越能接近 AGI。

      另外今天在豆包大模型的發布會上,世超還看到個離譜的數據。

      現在豆包大模型的日均使用量,都能給干到 50 萬億tokens了,對比去年剛發布的時候,翻了整整 417 倍。


      有點離譜,只能說這兩年來,AI 發展的實在是太快了。

      各行業各業多少都要沾點 AI 的邊。

      大家對 AI 的需求也越來越大,還真的蠻需要一個能好好干活的 AI 的。

      條條大路通羅馬。未來究竟是誰定義的路徑能率先觸碰 AGI 的圣杯?

      咱們只能說,拭目以待。

      撰文:早起

      編輯:江江 & 面線

      美編:煥妍

      圖片、資料來源

      AI畫不出左手,是因為我們給了它一個偏科的童年 - 數字生命卡茲克

      Seed1.8 Model Card: Towards Generalized Real-World Agency

      https://github.com/bytedance/UI-TARS-desktop



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      鴻蒙系統居然不讓買甲流用藥!用戶憤怒吐槽后,華為客服光速道歉

      鴻蒙系統居然不讓買甲流用藥!用戶憤怒吐槽后,華為客服光速道歉

      回旋鏢
      2025-12-18 19:18:42
      網易號平臺每日辟謠公告(十二月十七日)

      網易號平臺每日辟謠公告(十二月十七日)

      網易號官方平臺
      2025-12-17 18:00:12
      海南封關背后,真正的意圖!

      海南封關背后,真正的意圖!

      子木聊房
      2025-12-18 16:23:54
      游客大理租車當晚車身被惡意劃傷,賠償600元后監控曝光:竟是租車行員工所為!警方:行拘

      游客大理租車當晚車身被惡意劃傷,賠償600元后監控曝光:竟是租車行員工所為!警方:行拘

      封面新聞
      2025-12-18 19:17:32
      烏克蘭大規模攻擊羅斯托夫港!摧毀俄軍船只與油庫

      烏克蘭大規模攻擊羅斯托夫港!摧毀俄軍船只與油庫

      項鵬飛
      2025-12-18 17:27:26
      海南封關首日,居民排長隊購首批榴蓮,超市:每斤78元至98元,價格低于平時的一半

      海南封關首日,居民排長隊購首批榴蓮,超市:每斤78元至98元,價格低于平時的一半

      上觀新聞
      2025-12-19 07:16:04
      柬埔寨GDP的40%—60%來源電詐 幕后以華人資本集團為主

      柬埔寨GDP的40%—60%來源電詐 幕后以華人資本集團為主

      原某報記者
      2025-12-18 10:17:38
      600多元天津飛北京,中轉30多個小時“特種兵”游成都,無錫飛常州中轉重慶跨年省錢近一半,“回旋鏢”機票火出圈

      600多元天津飛北京,中轉30多個小時“特種兵”游成都,無錫飛常州中轉重慶跨年省錢近一半,“回旋鏢”機票火出圈

      極目新聞
      2025-12-19 07:21:26
      全網瘋傳的江門大瓜,年度最復雜的家庭倫理關系

      全網瘋傳的江門大瓜,年度最復雜的家庭倫理關系

      杭城村叔
      2025-12-17 21:01:23
      本田將暫停在華工廠生產

      本田將暫停在華工廠生產

      第一財經資訊
      2025-12-18 13:51:09
      絲芭傳媒再發文:要求鞠婧祎方立刻停止侵權抹黑,將就其和關聯人涂某某等涉嫌嚴重經濟犯罪行為,向相關監管機構實名舉報

      絲芭傳媒再發文:要求鞠婧祎方立刻停止侵權抹黑,將就其和關聯人涂某某等涉嫌嚴重經濟犯罪行為,向相關監管機構實名舉報

      極目新聞
      2025-12-18 11:17:51
      深圳一女子“驅魔”后死亡:自稱被 “魔鬼” 附體,兩名親人因過失致其死亡獲刑

      深圳一女子“驅魔”后死亡:自稱被 “魔鬼” 附體,兩名親人因過失致其死亡獲刑

      澎湃新聞
      2025-12-18 18:24:27
      被撞員工已確認死亡,撞人的小米新車司機恐承擔刑責

      被撞員工已確認死亡,撞人的小米新車司機恐承擔刑責

      映射生活的身影
      2025-12-18 22:56:32
      30歲健美冠軍王昆意外猝死,深扒死因發現,他生前有3個致命習慣

      30歲健美冠軍王昆意外猝死,深扒死因發現,他生前有3個致命習慣

      法老不說教
      2025-12-18 19:20:30
      外交部部長助理劉彬同烏克蘭第一副外長基斯利察舉行中烏外交部政治磋商

      外交部部長助理劉彬同烏克蘭第一副外長基斯利察舉行中烏外交部政治磋商

      界面新聞
      2025-12-18 23:28:57
      A股開盤:三大指數集體高開,可控核聚變、超導、CPO等概念走強

      A股開盤:三大指數集體高開,可控核聚變、超導、CPO等概念走強

      界面新聞
      2025-12-19 09:27:20
      明朝的一首詞,抵得過千萬首唐詩宋詞,因為這首詞全篇都是名句

      明朝的一首詞,抵得過千萬首唐詩宋詞,因為這首詞全篇都是名句

      長風文史
      2025-12-18 15:00:28
      蘋果宣布:大幅降低日本“蘋果稅”,iPhone開放第三方應用商店和支付!專家:中國被區別對待,抽成比例高于美歐日韓

      蘋果宣布:大幅降低日本“蘋果稅”,iPhone開放第三方應用商店和支付!專家:中國被區別對待,抽成比例高于美歐日韓

      每日經濟新聞
      2025-12-18 22:26:26
      張雨綺換臉成功!說不出來哪里變了,好像又都變了

      張雨綺換臉成功!說不出來哪里變了,好像又都變了

      爆角追蹤
      2025-12-18 16:05:56
      索尼將退出中國,3萬員工一夜失業,一代人的青春落幕

      索尼將退出中國,3萬員工一夜失業,一代人的青春落幕

      胡嚴亂語
      2025-12-18 14:25:25
      2025-12-19 09:43:00
      差評XPIN incentive-icons
      差評XPIN
      用知識和觀點Debug the world!
      10007文章數 489323關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽總決賽收官

      頭條要聞

      媒體:南博受贈名畫被鑒偽后撥給文物店 以6800元售出

      頭條要聞

      媒體:南博受贈名畫被鑒偽后撥給文物店 以6800元售出

      體育要聞

      紐約尼克斯,板正的球隊

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      親子
      家居
      手機
      數碼
      房產

      親子要聞

      駝奶粉品牌排名,2025駱駝奶粉終極評測品牌排行榜,覆蓋多種人群需求

      家居要聞

      高端私宅 理想隱居圣地

      手機要聞

      消息稱蘋果折疊屏iPhone Fold或2027年才能順利大規模出貨

      數碼要聞

      主板BIOS漏洞威脅《無畏契約》安全,玩家需緊急更新

      房產要聞

      搶藏瘋潮!封關時代,海口頂奢王炸壓軸,傳世資產即刻登場!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚州精品熟女在线| 久久婷婷大香萑太香蕉AV人| 青青久草| 人人操网| 亚洲欧美一区二区成人片| 破了亲妺妺的处免费视频国产| 丁香六月婷婷| 国产欧美日韩精品丝袜高跟鞋| 酒泉市| 色婷婷五月综合亚洲小说| 亚洲日韩国产中文其他| 国产成人免费一区二区三区| ****亚洲成a人片第1集| 玛沁县| 美女裸体十八禁免费网站| 午夜免费男女aaaa片| 久久天堂无码av网站| 青久草视频| 九九国产视频| 商水县| 4455亚洲| 亚洲欲妇| 国产高清一区二区三区视频| 乱人伦精品视频在线观看| 人人爽人人爽人人片av东京热| AV在线影院| 俺来也www久久婷婷| 亚洲一区二区三区av无码| 亚洲av网一区天堂福利| 国产熟女网站| www.国产在线| 人妻 日韩 欧美 综合 制服| 人妻无码| 寻乌县| 丰满爆乳一区二区三区| 人妻放荡乱h文| 亚洲国产制服丝袜 | 人妻社区| 色人妻综合| 人妻内射一区二区在线视频| 99精品高清在线播放|