<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Claude Opus 4.6 發布,全線碾壓 GPT-5.2,一文詳解

      0
      分享至

      剛剛,Anthropic 發布 Claude Opus 4.6


      BenchMark

      在知識工作評測 GDPval-AA 上,Opus 4.6 贏 GPT-5.2 約 144 Elo,贏自家前代 Opus 4.5 約 190 Elo
      翻譯成人話,就是十局贏七局

      同時拿下 Terminal-Bench 2.0(Agent 編碼)、Humanity's Last Exam(多學科推理)、BrowseComp(Agent 搜索)的最高分

      這是 Opus 級模型第一次支持 1M token 上下文窗口(beta),輸出上限拉到 128K token

      模型之外,Anthropic 這次把產品線也一起更新了。Claude Code 加了 agent teams,Excel 升級,PowerPoint 新出了 research preview,API 加了 adaptive thinking 和 context compaction

      官方介紹視頻 跑分

      先看總表


      Benchmark 總表,Opus 4.6 vs 各家模型

      分項來看

      知識工作(GDPval-AA)

      這個評測由 Artificial Analysis 獨立運營,測的是金融、法律等專業領域的實際工作能力。Opus 4.6 在各個子領域都排在前面


      GDPval-AA 各領域得分

      Agent 搜索(DeepSearchQA / BrowseComp)

      BrowseComp 測的是模型在網上找難找的信息的能力。Opus 4.6 單 Agent 跑分就已經領先,加上多 Agent 框架之后分數到了 86.8%


      DeepSearchQA 跑分對比

      Agent 編碼(Terminal-Bench 2.0 / SWE-bench Verified)

      Terminal-Bench 2.0 拿了最高分。SWE-bench Verified 平均跑了 25 輪,調整 prompt 后最高到了 81.42%


      Terminal-Bench 2.0 跑分

      多學科推理(Humanity's Last Exam / ARC AGI 2)

      Humanity's Last Exam 跑的時候帶了 web search、code execution、context compaction(50K token 觸發,最大 3M token),用了 max effort + adaptive thinking

      ARC AGI 2 用了 max effort 和 120K thinking budget


      多學科推理跑分 長上下文

      1M 上下文不新鮮,但 Opus 級模型一直沒給

      之前的問題是 context rot,上下文一長,模型表現就往下掉。Opus 4.6 在 MRCR v2 八針 1M 測試里拿了 76%,同一個測試 Sonnet 4.5 只有 18.5%

      這特么...足足四倍

      Anthropic 說 Opus 4.6 在大量文檔中檢索信息的能力也有明顯提升,能在幾十萬 token 的上下文里追蹤信息,抓住 Opus 4.5 會漏掉的細節


      長上下文檢索,提升很明顯 長上下文推理能力對比 其他領域的 benchmark

      除了上面幾個主要方向,Opus 4.6 還跑了軟件工程、多語言編碼、長期連貫性、網絡安全、生命科學幾個方向

      根因分析(OpenRCA)

      測的是模型診斷復雜軟件故障的能力。每個 case 如果所有生成的根因要素都和 ground truth 匹配就得 1 分,否則 0 分


      OpenRCA,診斷復雜軟件故障

      多語言編碼


      多語言編碼跑分

      長期連貫性(MCP Atlas)

      Opus 4.6 用 max effort 跑出最高分。用 high effort 的時候也到了 62.7%,同樣領先


      MCP Atlas,長期連貫性

      網絡安全(CyberGym)

      跑的時候沒開 thinking,用默認 effort、temperature 和 top_p,給了一個 think tool 做多輪評測的交叉思考


      CyberGym,網絡安全能力

      生命科學


      生命科學跑分 Anthropic 內部怎么用的

      Anthropic 自己用 Claude 造 Claude。工程師每天用 Claude Code 寫代碼,每個新模型都先在內部跑

      他們對 Opus 4.6 的觀察:模型會自動把精力集中在任務最難的部分,簡單的地方快速通過,處理模糊問題時判斷更好,長時間工作保持穩定

      但也有個問題,Opus 4.6 有時候會「想太多」。簡單任務上會增加成本和延遲,Anthropic 建議這種場景把 effort 從默認的 high 調到 medium

      Early Access 合作伙伴的反饋集中在三點:能自主工作不需要手把手帶,之前模型搞不定的任務能搞定了,改變了團隊協作的方式

      產品更新

      Claude Code:agent teams

      可以同時起多個 Agent,讓它們并行工作、自主協調。適合能拆成獨立子任務的場景,比如大規模 code review

      你可以用 Shift+Up/Down 或者 tmux 隨時接管任意一個子 Agent。目前是 research preview

      Claude in Excel

      能處理更長、更復雜的任務了。可以先規劃再執行,能自動識別非結構化數據并推斷出合理的表結構,支持條件格式和數據驗證,多步操作一次完成

      Claude in Excel 演示視頻(1 分 27 秒)

      Claude in PowerPoint

      這個東西目前,research preview 階段,Max、Team、Enterprise 可用

      Claude 會讀你的版式、字體、母版,保持品牌一致性。可以從模板出發,也可以從一段描述直接生成整套 deck

      一個實用的組合:先用 Claude in Excel 處理和結構化數據,再用 Claude in PowerPoint 做可視化呈現

      Cowork

      在 Cowork 里,Opus 4.6 可以自主執行多任務。跑分析、做研究、處理文檔、表格、演示文稿,都可以自動跑

      API 更新

      Adaptive thinking
      以前 extended thinking 只有開和關兩個選項。現在 Claude 可以自己判斷什么時候需要深度推理,什么時候快速過。默認 effort 是 high,這個檔位下模型會在需要的時候自動啟用深度推理

      Effort 控制
      四檔可選:low、medium、high(默認)、max。開發者可以根據任務調

      Context compaction(beta)
      長對話或 Agent 任務快撞到上下文窗口的時候,自動把舊的上下文壓縮成摘要替換掉,觸發閾值可配置

      1M 上下文(beta)
      超過 200K token 的輸入,價格從 漲 到 10/百萬 token,輸出從 漲 到 37.50。200K 以內價格不變

      128K 輸出
      大輸出任務不用拆成多次請求了

      US-only inference
      需要數據留在美國境內的,可以選 US-only inference,價格 1.1 倍

      安全

      Anthropic 說這是他們做過最全面的安全評估,很多測試是第一次用

      自動行為審計里,Opus 4.6 的對齊偏差率(欺騙、諂媚、配合濫用等)和 Opus 4.5 持平。over-refusal 率(該回答卻拒絕)是近期 Claude 模型里最低的


      安全評估,各代 Claude 對齊偏差率對比

      新增了用戶福祉評測、更復雜的拒絕危險請求測試、模型是否會偷偷執行有害操作的升級版測試

      因為 Opus 4.6 的網絡安全能力提升明顯,Anthropic 額外開發了 6 個新的網絡安全探針來追蹤潛在濫用。同時也在用這個模型幫開源軟件找漏洞和打補丁

      一個細節:system card 里提到他們首次用可解釋性(interpretability)技術去理解模型行為的底層原因,試圖抓住標準測試可能漏掉的問題

      詳細的能力和安全評估在 system card 里:https://www.anthropic.com/claude-opus-4-6-system-card


      定價

      今天起在 claude.ai、Claude API、AWS、GCP、Azure 可用

      模型 API 標識:claude-opus-4-6

      定價: 25 每百萬 token(200K 以內), 37.50 每百萬 token(200K 以上)


      完整定價:https://claude.com/pricing

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      1-3爆大冷!日本一哥慘敗出局,無緣對陣王楚欽,三線潰敗太自私

      1-3爆大冷!日本一哥慘敗出局,無緣對陣王楚欽,三線潰敗太自私

      體育就你秀
      2026-02-26 14:56:01
      《鄉村愛情18》關系戶輪番出場,導演給自己加戲,星二代變成主角

      《鄉村愛情18》關系戶輪番出場,導演給自己加戲,星二代變成主角

      水中燒烤的娛
      2026-02-26 15:44:13
      青島市最新人事任免

      青島市最新人事任免

      濱州日報
      2026-02-26 09:13:04
      中方高規格招待,默茨接過鮮花,走進人民大會堂前,他喊出9個字

      中方高規格招待,默茨接過鮮花,走進人民大會堂前,他喊出9個字

      東極妙嚴
      2026-02-26 10:48:31
      失落的保時捷:從“栓條狗都能賣出去”,到陷入降價旋渦

      失落的保時捷:從“栓條狗都能賣出去”,到陷入降價旋渦

      知危
      2026-02-25 18:56:28
      周建群除夕前離世,享年61歲,5天前還在開會!他曾是兩大浙商得力干將,38歲就進入核心管理層

      周建群除夕前離世,享年61歲,5天前還在開會!他曾是兩大浙商得力干將,38歲就進入核心管理層

      每日經濟新聞
      2026-02-25 19:28:52
      沉默整整9天,毛寧一錘定音,中美戰機已交手,美方要見中國代表

      沉默整整9天,毛寧一錘定音,中美戰機已交手,美方要見中國代表

      聚焦真實瞬間
      2026-02-26 10:09:37
      門喬被殺只是開始!毒販向墨西哥政府宣戰:這屆世界杯,別想看!

      門喬被殺只是開始!毒販向墨西哥政府宣戰:這屆世界杯,別想看!

      瓜哥的動物日記
      2026-02-25 15:33:17
      日本隊太囂張,宣布重要決定,中國男籃被動收好消息,贏球穩了

      日本隊太囂張,宣布重要決定,中國男籃被動收好消息,贏球穩了

      宗介說體育
      2026-02-26 09:31:08
      遭多國退貨,演習不敵殲10C,實戰被擊落,中國的蘇35還有啥用?

      遭多國退貨,演習不敵殲10C,實戰被擊落,中國的蘇35還有啥用?

      書紀文譚
      2026-02-25 20:51:08
      佛山順德一4A景區灰塑被人拿下,官方通報

      佛山順德一4A景區灰塑被人拿下,官方通報

      南方都市報
      2026-02-26 12:58:14
      離婚后首個春節,楊子一個人陪母親回河北,眾人向他下跪磕頭拜年

      離婚后首個春節,楊子一個人陪母親回河北,眾人向他下跪磕頭拜年

      卷史
      2026-02-26 10:13:32
      75歲張藝謀再掀桌:比748萬罰款更狠的,是陳婷留的這一手!

      75歲張藝謀再掀桌:比748萬罰款更狠的,是陳婷留的這一手!

      笑飲孤鴻非
      2026-02-24 16:59:29
      我在越南看明白了:老外為啥不愿來東大生活圖片

      我在越南看明白了:老外為啥不愿來東大生活圖片

      霹靂炮
      2026-02-25 20:47:30
      三星Galaxy S26系列正式發布,國內起售5499元

      三星Galaxy S26系列正式發布,國內起售5499元

      ZAEKE知客
      2026-02-26 11:16:03
      俄烏戰爭四周年,為什么開始強調援助烏克蘭?

      俄烏戰爭四周年,為什么開始強調援助烏克蘭?

      作家加野
      2026-02-26 10:21:34
      75歲劉曉慶與小30歲男演員吻戲引轟動

      75歲劉曉慶與小30歲男演員吻戲引轟動

      暫停白晝
      2026-02-26 09:39:19
      戰場大反轉!烏軍2月打出意外戰果,默茨直言:抵抗遠超外界想象

      戰場大反轉!烏軍2月打出意外戰果,默茨直言:抵抗遠超外界想象

      老馬拉車莫少裝
      2026-02-25 22:29:53
      李亞鵬年初六到陳光標家做客!為陳光標兒子送行,陳太太罕見露臉

      李亞鵬年初六到陳光標家做客!為陳光標兒子送行,陳太太罕見露臉

      洲洲影視娛評
      2026-02-25 15:25:18
      雷軍帶火蕉內滑雪服:客服表示299元優惠已結束,當前為629元

      雷軍帶火蕉內滑雪服:客服表示299元優惠已結束,當前為629元

      PChome電腦之家
      2026-02-24 17:02:37
      2026-02-26 18:40:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      302文章數 44關注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      頭條要聞

      金與正"轉正"了 戴著黑白色發箍坐在候補委員的第一位

      頭條要聞

      金與正"轉正"了 戴著黑白色發箍坐在候補委員的第一位

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      尼格買提撒貝寧滑雪被偶遇 17年老友情

      財經要聞

      人民幣離岸價升破6.83 什么原因?

      汽車要聞

      40歲的吉利,不惑于內外

      態度原創

      藝術
      房產
      旅游
      手機
      健康

      藝術要聞

      趙孟頫珍藏的一部《金剛經》,曾是南宋皇家至寶,這才叫“最美中國字”!

      房產要聞

      2.2萬/m2起!三亞主城性價比標桿 海墾·桃花源實景現房春節被瘋搶

      旅游要聞

      節后部分酒店房價回落九成,潮汕旅游“冰火兩重天”帶來哪些啟示?

      手機要聞

      OPPO Find X9 Ultra四月見:首發史上最強10倍光變 機圈望遠鏡

      轉頭就暈的耳石癥,能開車上班嗎?

      無障礙瀏覽 進入關懷版