網易首頁 > 網易號 > 正文申請入駐

搶先實測豆包1.8模型，多模態Agent超強！

2025-12-18 14:14:49　來源: 蒼何

湖北舉報

分享至

這是蒼何的第 463 篇原創！

大家好，我是人在火山大會的蒼何。

說實話，我現在就在火山引擎 FORCE 原動力大會的現場，人太多了，多到要擠著才能進來。

這一年也見證了豆包大模型的快速成長，今天豆包大模型 1.8 也正式發布。

這次模型的更新帶來了更強的 Agent 能力和多模態理解能力，在公開測試集中的表現相對于豆包 1.6有了很大的提升。

不少能力都可以和其他全球頂尖模型一爭高下，在不同場景維度下的測試集表現也很出色。

豆包大模型 1.8 大幅增強工具調用（Tool Use）能力，長文和多輪指令遵循大幅度增強，Coding能力也顯著增強。

具備 OS Agent 落地能力，支持 Agent 完成屏幕操作任務。模型格式輸出更穩定，執行規劃能力和復雜流程理解再提升，更適合復雜多步多分支的企業級 Agent 任務。

同時視覺理解基礎能力大幅躍升，圖片理解Tokens消耗更少，理解精度更高，單次視頻理解幀數從640幀提升至1280幀，（在1秒1幀的情況下，可支持20分鐘長視頻理解）。

同時火山方舟應用實驗室還支持Video Cup Tool體驗：新增低幀率(如每5s一幀)查看完整視頻后，聚焦某個與問題強相關的視頻片段，正常或高幀率（如每1s一幀或5幀）具體理解并回答問題。

模型推理能力更出色，支持思考長度可調節，各模式下思考更加精簡，Tokens更節省。

關于模型信息更新信息給大家介紹完畢，接下來是帶來一手實測，其實前些天就拿到了內測資格，這次測試我更聚焦于實際 Agent復雜場景，而非簡單case測試。

先是來一個自動寫公眾號圖文并發布的場景，要求根據主題搜索相關圖文信息，并寫文章，同時發布到公眾號后臺。

我是在 Trae 中調用豆包大模型 1.8 的 API，然后自定義的智能體。

智能體的提示詞是這樣子的：

你是專業的內容編輯，擅長做公眾號文章的創作，你能根據指定的主題創作一篇公眾號文章，并寫入到文件中，文件名以標題.md來命名，你需要先調用Chrome DevTools 工具去瀏覽器搜索查找相關信息（注意這一步是必須的，你必須調用工具自行百度搜索，
搜索內容是用戶輸入的主題，請嚴格將用戶主題放入搜索而非其他多余元素），然后調用MiniMax MCP工具來生成文章配圖，
放在image文件夾下，并引入到到文章中。最后幫我到公眾號后臺發布。公眾號標題你自行選擇爆款標題。

同時配置了 Chrome DevTools MCP 和 MiniMax MCP。

可以看到豆包大模型 1.8 會根據任務自動調用瀏覽器搜索內容，然后生成文字和配圖，最后發布。

整個長時任務，可以看到豆包大模型 1.8 完成的很不錯。

另外看一個更復雜的實測，扮演一個CTO 助手審核郵件匹配出合適的投資項目。

為了測試它到底有多硬核，我給它設置了一個極具挑戰性的 Case：模擬一個 CTO 助手，完成一整套 AI 項目的立項審批。

背景：模擬一家奶茶公司，茶小鮮，要投資 AI 項目的，由各個分公司提報項目到指定郵件。CTO再結合公司的情況進行審查出合適的投資項目。

先給大家看下最終的效果：

整個任務足夠復雜，從郵件中提取附件并解析附件，然后去調用眾多的公司文件解析，最終生層決策報告。

你可以看下我給的提示詞：

作為 CTO 助手，請按照以下詳細流程完成 AI 項目審批工作：
1. 郵件篩選與提取：
● 使用 Chrome DevTools 工具登錄 163 郵箱
● 精確篩選滿足以下條件的郵件：
 ○ 主題包含"立項申請"的郵件
 ○ 主題包含"2026年戰略重點"的郵件
● 確保完整獲上述取郵件正文內容和所有附件
1. 附件下載與存儲：
● 將所有符合條件的郵件附件下載至指定路徑：/Users/Downloads/*.pdf
2. 內容解析與整合：
● 調用 mcp-email-service 中的專用解析工具
● 對每份PDF附件進行結構化解析
● 將解析結果與對應郵件正文內容進行智能整合
3. 戰略契合度評估：
● 以公司最新發布的 郵件 2026年戰略重點 的正文和附件內容 為評估基準
● 為每個項目生成量化評分和詳細評估意見
4. HTML匯報頁面制作：
● 創建專業的企業級HTML靜態頁面，包含：
 ○ 項目概覽儀表盤
 ○ 戰略契合度雷達圖
 ○ 預算分配餅圖
 ○ ROI預測折線圖
● 確保所有數據展示均標注明確來源：
 ○ 直接引用原始PDF文件關鍵頁截圖
 ○ 標注具體引用位置（頁碼/段落）
● 實現交互功能：
 ○ 點擊數據可跳轉至對應PDF原文
 ○ 支持篩選和排序功能
5. 自動交付：
● 生成完成后自動在默認瀏覽器中打開HTML頁面
質量要求：
1. 數據準確性：所有引用數據必須與原始文件100%一致
2. 視覺規范：符合公司VI標準，使用官方配色方案
3. 安全要求：處理過程中不得存儲任何敏感郵件內容

可以看到它直接調用 Chrome DevTools MCP，像真人一樣登錄郵箱、精準篩選、自動下載附件到指定路徑。這種 OS Agent 的落地感，真的非常絲滑。

它沒有上來就盲目操作，而是先在后臺給自己拆解了 10 個任務步驟：

1、登錄163郵箱并篩選包含"立項申請"的郵件
2、下載符合條件郵件的所有PDF附件到/Downloads/
3、調用mcp-email-service解析所有PDF附件和郵件正文
4、以指定基準文件評估項目戰略契合度，選出最合適的投資項目
5、創建企業級HTML靜態匯報頁面，包含儀表盤、圖表和交互功能
6、在默認瀏覽器中打開生成的HTML頁面完成交付
7、解析新增補充文檔：中國茶飲AI應用白皮書、投資回報分析報告、預算制度、人力資源檔案
8、結合補充文檔重新評估項目投資價值，確定最終最優項目
9、更新HTML評估報告，整合新的評估維度
10、重新打開更新后的HTML報告完成最終交付

大概總結一下

登錄與篩選：搞定 163 郵箱。登錄這個步驟需要人工掃描參與

收集數據（郵件的正文和郵件的附件）

調用MCP工具 mcp-email-service 提取結構化數據這里包含了需要結合的本地文件。

每一個 PDF的文件都至少有十幾頁，字數非常多，這人要一個個看沒個把小時很難看完。

此時整個任務需要加載5+5 =10份PDF的解析任務，每份文檔大小不低于500kb

最后是戰略契合度評估環節，這一點最難，它需要理解 256K 窗口里的那堆復雜戰略。

我中途丟給它《中國茶飲 AI 白皮書》和預算制度，它能迅速合并維度，重新修正投資價值。

最終自動在瀏覽器打開一個帶交互功能的 HTML 儀表盤。

最后得到評估報告：

在測試過程中，我有幾個非常深刻的體會：

1、工具調用（ToolUse）極其穩定

以前的 Agent 經常會在多步調用中斷片，但豆包 1.8 的輸出格式非常穩定。即使是面對 mcp_mcp-email-service_parse_pdf 這種復雜的自定義工具，它也能精準傳參，報錯率低得驚人。

2、思考長度可調節

它支持思考過程的精簡或深入。在處理“戰略契合度評分”時，我能感覺到它在進行深度邏輯推理；而在處理下載附件這種確定性任務時，它又非常節省 Tokens，這才是成熟模型該有的樣子。

3、視覺與多模態的精準度

在 HTML 報告里，它能直接引用 PDF 原始文件的關鍵頁截圖，并標注頁碼。這種對多模態內容的“索引”能力，避免了 AI 常見的胡說八道。

最后統計了下大概的 token 消耗情況：

在企業級復雜的業務場景中，豆包大模型 1.8 更適合處理復雜的 Agent 任務。

看完豆包 1.8 的表現，我一直在想，現在的工具真的太多了，開發者和職場人的切換成本越來越高。

我覺得工具不應該讓人去適應它，而應該主動融入我們的工作流。

豆包這次把 Agent、超長上下文和多模態打通，其實是給了每個人一個“一站式”的數字辦公室。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.