網易首頁 > 網易號 > 正文申請入駐

Claude Opus 4.6 發布，全線碾壓 GPT-5.2，一文詳解

2026-02-06 02:21:23　來源: 賽博禪心

北京舉報

分享至

剛剛，Anthropic 發布 Claude Opus 4.6

BenchMark

在知識工作評測 GDPval-AA 上，Opus 4.6 贏 GPT-5.2 約 144 Elo，贏自家前代 Opus 4.5 約 190 Elo
翻譯成人話，就是十局贏七局

同時拿下 Terminal-Bench 2.0（Agent 編碼）、Humanity's Last Exam（多學科推理）、BrowseComp（Agent 搜索）的最高分

這是 Opus 級模型第一次支持 1M token 上下文窗口（beta），輸出上限拉到 128K token

模型之外，Anthropic 這次把產品線也一起更新了。Claude Code 加了 agent teams，Excel 升級，PowerPoint 新出了 research preview，API 加了 adaptive thinking 和 context compaction

官方介紹視頻跑分

先看總表

Benchmark 總表，Opus 4.6 vs 各家模型

分項來看

知識工作（GDPval-AA）

這個評測由 Artificial Analysis 獨立運營，測的是金融、法律等專業領域的實際工作能力。Opus 4.6 在各個子領域都排在前面

GDPval-AA 各領域得分

Agent 搜索（DeepSearchQA / BrowseComp）

BrowseComp 測的是模型在網上找難找的信息的能力。Opus 4.6 單 Agent 跑分就已經領先，加上多 Agent 框架之后分數到了 86.8%

DeepSearchQA 跑分對比

Agent 編碼（Terminal-Bench 2.0 / SWE-bench Verified）

Terminal-Bench 2.0 拿了最高分。SWE-bench Verified 平均跑了 25 輪，調整 prompt 后最高到了 81.42%

Terminal-Bench 2.0 跑分

多學科推理（Humanity's Last Exam / ARC AGI 2）

Humanity's Last Exam 跑的時候帶了 web search、code execution、context compaction（50K token 觸發，最大 3M token），用了 max effort + adaptive thinking

ARC AGI 2 用了 max effort 和 120K thinking budget

多學科推理跑分長上下文

1M 上下文不新鮮，但 Opus 級模型一直沒給

之前的問題是 context rot，上下文一長，模型表現就往下掉。Opus 4.6 在 MRCR v2 八針 1M 測試里拿了 76%，同一個測試 Sonnet 4.5 只有 18.5%

這特么...足足四倍

Anthropic 說 Opus 4.6 在大量文檔中檢索信息的能力也有明顯提升，能在幾十萬 token 的上下文里追蹤信息，抓住 Opus 4.5 會漏掉的細節

長上下文檢索，提升很明顯長上下文推理能力對比其他領域的 benchmark

除了上面幾個主要方向，Opus 4.6 還跑了軟件工程、多語言編碼、長期連貫性、網絡安全、生命科學幾個方向

根因分析（OpenRCA）

測的是模型診斷復雜軟件故障的能力。每個 case 如果所有生成的根因要素都和 ground truth 匹配就得 1 分，否則 0 分

OpenRCA，診斷復雜軟件故障

多語言編碼

多語言編碼跑分

長期連貫性（MCP Atlas）

Opus 4.6 用 max effort 跑出最高分。用 high effort 的時候也到了 62.7%，同樣領先

MCP Atlas，長期連貫性

網絡安全（CyberGym）

跑的時候沒開 thinking，用默認 effort、temperature 和 top_p，給了一個 think tool 做多輪評測的交叉思考

CyberGym，網絡安全能力

生命科學

生命科學跑分 Anthropic 內部怎么用的

Anthropic 自己用 Claude 造 Claude。工程師每天用 Claude Code 寫代碼，每個新模型都先在內部跑

他們對 Opus 4.6 的觀察：模型會自動把精力集中在任務最難的部分，簡單的地方快速通過，處理模糊問題時判斷更好，長時間工作保持穩定

但也有個問題，Opus 4.6 有時候會「想太多」。簡單任務上會增加成本和延遲，Anthropic 建議這種場景把 effort 從默認的 high 調到 medium

Early Access 合作伙伴的反饋集中在三點：能自主工作不需要手把手帶，之前模型搞不定的任務能搞定了，改變了團隊協作的方式

產品更新

Claude Code：agent teams

可以同時起多個 Agent，讓它們并行工作、自主協調。適合能拆成獨立子任務的場景，比如大規模 code review

你可以用 Shift+Up/Down 或者 tmux 隨時接管任意一個子 Agent。目前是 research preview

Claude in Excel

能處理更長、更復雜的任務了。可以先規劃再執行，能自動識別非結構化數據并推斷出合理的表結構，支持條件格式和數據驗證，多步操作一次完成

Claude in Excel 演示視頻（1 分 27 秒）

Claude in PowerPoint

這個東西目前，research preview 階段，Max、Team、Enterprise 可用

Claude 會讀你的版式、字體、母版，保持品牌一致性。可以從模板出發，也可以從一段描述直接生成整套 deck

一個實用的組合：先用 Claude in Excel 處理和結構化數據，再用 Claude in PowerPoint 做可視化呈現

Cowork

在 Cowork 里，Opus 4.6 可以自主執行多任務。跑分析、做研究、處理文檔、表格、演示文稿，都可以自動跑

API 更新

Adaptive thinking
以前 extended thinking 只有開和關兩個選項。現在 Claude 可以自己判斷什么時候需要深度推理，什么時候快速過。默認 effort 是 high，這個檔位下模型會在需要的時候自動啟用深度推理

Effort 控制
四檔可選：low、medium、high（默認）、max。開發者可以根據任務調

Context compaction（beta）
長對話或 Agent 任務快撞到上下文窗口的時候，自動把舊的上下文壓縮成摘要替換掉，觸發閾值可配置

1M 上下文（beta）
超過 200K token 的輸入，價格從漲到 10/百萬 token，輸出從漲到 37.50。200K 以內價格不變

128K 輸出
大輸出任務不用拆成多次請求了

US-only inference
需要數據留在美國境內的，可以選 US-only inference，價格 1.1 倍

安全

Anthropic 說這是他們做過最全面的安全評估，很多測試是第一次用

自動行為審計里，Opus 4.6 的對齊偏差率（欺騙、諂媚、配合濫用等）和 Opus 4.5 持平。over-refusal 率（該回答卻拒絕）是近期 Claude 模型里最低的

安全評估，各代 Claude 對齊偏差率對比

新增了用戶福祉評測、更復雜的拒絕危險請求測試、模型是否會偷偷執行有害操作的升級版測試

因為 Opus 4.6 的網絡安全能力提升明顯，Anthropic 額外開發了 6 個新的網絡安全探針來追蹤潛在濫用。同時也在用這個模型幫開源軟件找漏洞和打補丁

一個細節：system card 里提到他們首次用可解釋性（interpretability）技術去理解模型行為的底層原因，試圖抓住標準測試可能漏掉的問題

詳細的能力和安全評估在 system card 里：https://www.anthropic.com/claude-opus-4-6-system-card

定價

今天起在 claude.ai、Claude API、AWS、GCP、Azure 可用

模型 API 標識：claude-opus-4-6

定價： 25 每百萬 token（200K 以內）， 37.50 每百萬 token（200K 以上）

完整定價：https://claude.com/pricing

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

默茨：中方要訂120架空客飛機這一趟來得值

澎湃新聞 2026-02-26 14:38:56
73 跟貼 73
中國駐符拉迪沃斯托克總領館：18-65歲在俄長期居留男性須同意在俄軍事單位等至少服役1年

閃電新聞 2026-02-26 12:56:09
16175 跟貼 16175

“太恐怖，iPhone半夜自己給陌生人打47分鐘電話！”

都市快報橙柿互動 2026-02-25 11:28:41
23770 跟貼 23770

上海樓市“新七條”落地當天：兩類群體咨詢升溫，有房東重新掛牌

澎湃新聞 2026-02-25 22:22:28
1964 跟貼 1964
中華人民共和國和德意志聯邦共和國聯合新聞聲明

新華社 2026-02-25 21:46:25
692 跟貼 692

300多只東北虎“輕斷食”？景區：每天斷食1個園，司機會帶游客找可投喂區

封面新聞 2026-02-23 16:29:03
1660 跟貼 1660

360元一斤草莓企業稱用800斤牛奶兌水灌溉專家：噱頭

封面新聞 2026-02-26 01:37:14
1274 跟貼 1274
放出1000輛，“中年人的一代神車”直降10萬元！

每日經濟新聞 2026-02-26 00:48:36
401 跟貼 401

李嘉誠又賣了！長和系三家公司發布聯合公告，宣布出售英國電網業務，套現逾1100億港元

每日經濟新聞 2026-02-26 09:53:05
88 跟貼 88
美媒：美國年輕人迷上中國文化這次跟日韓潮流不一樣

澎湃新聞 2026-02-26 14:38:56
10 跟貼 10
醫生因未完成創收指標被待崗官方通報

北京日報 2026-02-26 05:34:52
404 跟貼 404
日經225指數漲幅擴大至超1%，首次站上59000點

每日經濟新聞 2026-02-26 08:17:04
37 跟貼 37
極氪公布春節十大獵裝旅行路線，揭秘深度自駕游版圖

魯中晨報 2026-02-26 12:29:41
14286 跟貼 14286
攜程聯合創始人范敏、季琦辭任董事職務

界面新聞 2026-02-26 10:54:06
270 跟貼 270
英國女婿瘋狂愛上貴州砂糖橘，春節期間幾乎一日三餐當飯吃，一個月后把自己吃成“小黃人”

觀威海 2026-02-26 10:26:04
0 跟貼 0
甘肅一中學回應“不住校就去其他學校就讀”：表述方式不當

界面新聞 2026-02-26 15:37:28
229 跟貼 229
“別吱聲，我跟趙車長打好招呼了”，K692次列車被指安排“人情座”，女子在擁擠車廂內打電話請人安排座位，鐵路部門：目前正在調查

揚子晚報 2026-02-26 11:28:40
1 跟貼 1
中國對日出口管制商務部：完全正當、合理、合法

界面新聞 2026-02-26 15:15:43
17 跟貼 17
首博回應“違規處理觀眾留言紙”視頻：嚴肅處理相關責任人

南方都市報 2026-02-26 14:37:46
102 跟貼 102
日本2025年新生兒數量再創新低，僅70.58萬，已連續10年下降

上觀新聞 2026-02-26 16:34:30
1 跟貼 1
警惕！人回老家過年，東莞家中卻突然起火，只因做錯這件事

東莞紀實 2026-02-26 18:30:57
0 跟貼 0
五角場廣場一電動扶梯踏板斷開，回應：未造成人員傷亡，系電梯加熱管損壞，連夜停運排查剩余16部

縱相新聞 2026-02-26 18:33:07
0 跟貼 0
一男子突然推倒一女子后對其拳腳相加，旁邊還掉落了一根甩棍！事發南寧街頭！

廣西活動 2026-02-26 18:39:16
0 跟貼 0
泗洪男子在老宅翻出11發子彈！

泗洪風情 2026-02-26 18:36:19
0 跟貼 0
向華強回應遺產問題：和向太達成一致都交給郭碧婷來管一分錢不留給兒子

閃電新聞 2026-02-26 11:56:07
0 跟貼 0
河南項城15歲女孩離家失聯16天被找到，已不幸遇難，其母親稱孩子平時成績優秀，性格開朗

極目新聞 2026-02-26 18:32:28
0 跟貼 0

賽博禪心

拜AI古佛，修賽博禪心

302文章數 44關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

房產

旅游

手機

健康

手機 / 數碼

房產 / 家居

Claude Opus 4.6 發布，全線碾壓 GPT-5.2，一文詳解

單季營收681億凈利429億！英偉達再次炸裂

金與正"轉正"了 戴著黑白色發箍坐在候補委員的第一位

金與正"轉正"了 戴著黑白色發箍坐在候補委員的第一位

從排球少女到冰壺女神，她在米蘭冬奧練出6塊腹肌

尼格買提撒貝寧滑雪被偶遇 17年老友情

人民幣離岸價升破6.83 什么原因？

40歲的吉利，不惑于內外

態度原創

趙孟頫珍藏的一部《金剛經》，曾是南宋皇家至寶，這才叫“最美中國字”！

2.2萬/m2起！三亞主城性價比標桿 海墾·桃花源實景現房春節被瘋搶

節后部分酒店房價回落九成，潮汕旅游“冰火兩重天”帶來哪些啟示？

OPPO Find X9 Ultra四月見：首發史上最強10倍光變 機圈望遠鏡

轉頭就暈的耳石癥，能開車上班嗎？

金與正"轉正"了戴著黑白色發箍坐在候補委員的第一位

金與正"轉正"了戴著黑白色發箍坐在候補委員的第一位

2.2萬/m2起！三亞主城性價比標桿海墾·桃花源實景現房春節被瘋搶

OPPO Find X9 Ultra四月見：首發史上最強10倍光變機圈望遠鏡