編程測試碾壓人類！Claude Opus 4.5 深夜突襲，AI 編程進(jìn)入「超人時代」

2025-11-25 06:43:11　來源: AppSo

廣東舉報

分享至

最近這段時間，大模型發(fā)布就跟下餃子似的，一個接一個往外冒。

前腳 Gemini 3 Pro 剛搶了兩周風(fēng)頭，后腳 Claude Opus 4.5 剛剛就正式發(fā)布，還是主打編程，還是那個熟悉的味道。

Anthropic 官方宣稱 Opus 4.5 整體更聰明、更省心。遇到編程、搭 agents、操控電腦這些「系統(tǒng)級任務(wù)」依然是全球數(shù)一數(shù)二的水平。日常的研究、做 PPT、處理表格這些案頭活，也都明顯變強了。

今天起，Opus 4.5 已經(jīng)全面開放，可以通過應(yīng)用、API，還有三大主流云平臺用起來。開發(fā)者只要在 Claude API 里調(diào)用 claude-opus-4-5-20251101 就行。

隨發(fā)布而來的，是一整個工具鏈升級。開發(fā)者平臺、Claude Code、Chrome 插件、Excel、桌面端改造，還有「長對話不卡頓」。從應(yīng)用到 API，再到云平臺，這次是真的全線鋪開。

大模型集體「上新季」，Opus 4.5 強勢壓軸

從官方和測試者的反饋看，Claude Opus 4.5 對「模糊需求」的理解力得到了明顯提升，復(fù)雜 bug 自行定位也更穩(wěn)，不少提前試用的客戶覺得 Opus 4.5 是真的能「理解」他們想要啥。

在真實場景的軟件工程測試 SWE-Bench Verified 里，它是頭一個拿到 80% 以上分?jǐn)?shù)的模型。

Opus 4.5 的代碼質(zhì)量全面升級，在 SWE-bench Multilingual 涵蓋的八種編程語言里，它在其中七種都拔得頭籌，表現(xiàn)相當(dāng)亮眼。

向左滑動查看更多基準(zhǔn)測試

而舉例而言，Anthropic 團(tuán)隊把 Opus 4.5 扔進(jìn)了公司招性能工程師時用的高難度測試題里，結(jié)果在規(guī)定的兩小時內(nèi)，Claude Opus 4.5 的得分超過了所有人類候選人。

雖然編程測試只能衡量技術(shù)能力和時間壓力下的判斷力，那些多年經(jīng)驗積累出來的直覺、溝通協(xié)作能力，這些同樣重要的素質(zhì)并不在考察范圍內(nèi)。

除卻軟件工程，Claude Opus 4.5 的整體能力也迎來了全面開花，在視覺、推理和數(shù)學(xué)方面都比前代模型強，并且在多個重要領(lǐng)域都達(dá)到了業(yè)界領(lǐng)先水平：

更關(guān)鍵的是，模型的能力甚至開始超越現(xiàn)有的一些評測標(biāo)準(zhǔn)了。

在智能體能力測試 τ2-bench 里就出現(xiàn)了這么個場景：測試設(shè)定模型扮演航空公司客服，幫一位焦慮的乘客。

按照規(guī)則，基礎(chǔ)經(jīng)濟(jì)艙機票是不能改的，所以測試預(yù)期模型會拒絕乘客的請求。結(jié)果 Opus 4.5 想出了一個巧妙方案：先把艙位從基礎(chǔ)經(jīng)濟(jì)艙升級到普通經(jīng)濟(jì)艙，然后再改航班。

這辦法完全符合航空公司政策，卻不在測試的預(yù)期答案范圍內(nèi)。從技術(shù)角度說，這算是測試失敗了，但這種創(chuàng)造性解決問題的方式，恰恰展現(xiàn)了 Opus 4.5 的獨特之處。

當(dāng)然了，在另一些場景下，這種「鉆規(guī)則空子」的行為可能就不那么受歡迎了。如何防止模型以非預(yù)期方式偏離目標(biāo)，這是 Anthropic 安全測試重點關(guān)注的方向。

Claude 無處不在，桌面、瀏覽器、Excel 全接入

隨著 Opus 4.5 的推出，Claude Code 獲得了兩項重大更新。

計劃模式（Plan Mode）現(xiàn)在能生成更精確的執(zhí)行計劃了，Claude 會在操作前主動提澄清性問題，然后生成一個用戶可編輯的 plan.md 文件，再根據(jù)這計劃執(zhí)行任務(wù)。

此外，Claude Code 現(xiàn)在已經(jīng)登陸桌面應(yīng)用了。你可以同時跑多個本地或遠(yuǎn)程會話，比如一個智能體負(fù)責(zé)修代碼錯誤，另一個負(fù)責(zé)在 GitHub 上檢索資料，第三個就更新項目文檔。

對于 Claude 應(yīng)用用戶來說，長對話不會再被打斷了。Claude 會在需要的時候自動總結(jié)早期上下文，讓對話持續(xù)下去。

Anthropic 研究產(chǎn)品管理負(fù)責(zé)人 Dianne Na Penn 在接受采訪時表示：

「我們在 Opus 4.5 的訓(xùn)練過程中提升了對長上下文的整體處理能力，但光有更長的上下文窗口是不夠的。知道哪些信息值得記住，同樣非常關(guān)鍵。」

這些改進(jìn)也實現(xiàn)了 Claude 用戶長期呼吁的一項功能：「無盡對話」。這功能能夠讓付費用戶在對話超過上下文窗口限制時也不會中斷，模型會自動壓縮上下文記憶，而不用提醒用戶。

Claude for Chrome 也已經(jīng)向所有 Max 用戶開放了，可以讓 Claude 直接在瀏覽器多個標(biāo)簽頁之間執(zhí)行任務(wù)。

Claude for Excel 的 Beta 測試范圍已經(jīng)擴(kuò)展到 Max、Team 和 Enterprise 用戶了。

對于能使用 Opus 4.5 的 Claude 和 Claude Code 用戶，Anthropic 已經(jīng)取消了和 Opus 相關(guān)的使用上限。

對于 Max 用戶和 Team Premium 用戶，Anthropic 也提高了整體使用限額，用戶可使用的 Opus token 數(shù)量與之前使用 Sonnet 時大致相同。隨著未來更強模型的出現(xiàn)，配額也會根據(jù)情況相應(yīng)更新。

讓模型「更聰明也更省」，Opus 4.5 迎來底層大升級

隨著模型變得更聰明，它們能用更少的步驟解決問題：減少反復(fù)試錯、降低冗余推理、縮短思考過程。

Claude Opus 4.5 和前代模型比，在實現(xiàn)相同甚至更優(yōu)結(jié)果的情況下，用的 tokens 數(shù)量明顯少了。

當(dāng)然了，不同任務(wù)需要不同的平衡。

有時開發(fā)者希望模型能持續(xù)深入思考，有時又需要更快速靈活的響應(yīng)。

所以，API 里新加了一個叫 effort 的參數(shù)，讓你可以根據(jù)需求選：要么優(yōu)先省時間和成本，要么最大化模型能力。任君選擇。

當(dāng)設(shè)置為中等 effort 等級時，Opus 4.5 在 SWE-bench Verified 測試中和 Sonnet 4.5 的最佳成績持平，但輸出 tokens 數(shù)減少了 76%。

而在最高 effort 等級下，Opus 4.5 的表現(xiàn)比 Sonnet 4.5 高出 4.3 個百分點，同時還減少了 48% 的輸出量。

憑借 effort 控制、上下文壓縮（context compaction）和高級工具調(diào)用能力，Claude Opus 4.5 能跑更久、完成更多任務(wù)，而且需要的人工干預(yù)更少了。

此外，真正的 AI 智能體需要在成百上千種工具之間無縫協(xié)作。

想象一個 IDE 助手集成了 Git、文件管理、測試框架和部署流程，或者一個運營智能體同時連著 Slack、GitHub、Google Drive、Jira 和幾十個 MCP 服務(wù)器。

問題在于，傳統(tǒng)方式會把所有工具定義一次性塞進(jìn)上下文。拿連接五個服務(wù)器的系統(tǒng)來說，GitHub 需要 26K tokens，Slack 需要 21K tokens，Sentry、Grafana、Splunk 加起來又是 8K tokens。

對話還沒開始呢，就已經(jīng)占了 55K tokens 了。要是再加上 Jira，輕松突破 100K tokens。更麻煩的是，當(dāng)工具名字相似時，模型容易選錯工具或者傳錯參數(shù)。

Anthropic 推出了三項新功能來解決這些問題。

Tool Search Tool 讓 Claude 按需動態(tài)發(fā)現(xiàn)工具，只加載當(dāng)前任務(wù)需要的部分，token 使用量能減少約 85%。

Programmatic Tool Calling 讓 Claude 在代碼里直接調(diào)用工具，避免每次調(diào)用都要完整推理一遍。

Tool Use Examples 則提供統(tǒng)一標(biāo)準(zhǔn)，通過示例而不是 JSON schemas 來展示工具的正確用法。

內(nèi)部測試顯示，啟用 Tool Search Tool 后，Opus 4 在 MCP 測試中的準(zhǔn)確度從 49% 提升到 74%，Opus 4.5 從 79.5% 提升到 88.1%。

Claude for Excel 就是利用 Programmatic Tool Calling 來處理幾千行數(shù)據(jù)，而不會讓上下文窗口過載。

Anthropic 的上下文管理和記憶能力明顯提升了模型在智能體（agent）任務(wù)中的表現(xiàn)。

Opus 4.5 還能高效管理多個子智能體（subagents），從而搭建復(fù)雜且協(xié)調(diào)良好的多智能體系統(tǒng)。在測試中，結(jié)合這些技術(shù)后，Opus 4.5 在深度研究類評估中的表現(xiàn)提升了將近 15 個百分點。

開發(fā)者平臺（Developer Platform）也在持續(xù)變得更具可組合性，希望提供靈活的「模塊化構(gòu)建」能力，讓你能根據(jù)具體需求自由控制模型的效率、工具使用和上下文管理，搭建出理想的智能系統(tǒng)。

雖然這次 Opus 4.5 的升級足夠亮眼，但一個越來越清晰的趨勢是：不同模型的「性格」差異正在被放大。

從 Claude 過往的產(chǎn)品線來看，Opus 這類「超大杯」依舊最擅長編程、系統(tǒng)級操作、結(jié)構(gòu)化推理；但如果是文案工作，Sonnet 的表現(xiàn)和性價比往往更對路。

這次發(fā)布，也再次印證了這一點。

未來選模型，不光要看跑分榜，還得看它的「做事」方式是不是跟你合拍。換句話說，選擇模型，倒是越來越像挑同事了。

附上官方博客地址：

https://www.anthropic.com/news/claude-opus-4-5

歡迎加入 APPSO AI 社群，一起暢聊 AI 產(chǎn)品，獲取，解鎖更多 AI 新知

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標(biāo)題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關(guān)鏈接）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

IPO前夕，智譜上線旗艦大模型GLM4.7

華爾街見聞官方 2025-12-23 11:43:21
0 跟貼 0
浙大提出ContextGen，實現(xiàn)布局錨定多實例生成新SOTA

機器之心Pro 2025-12-23 15:30:26
0 跟貼 0

AI Coding新王登場！MiniMax M2.1拿下多語言編程SOTA

量子位 2025-12-24 09:15:24
13 跟貼 13

英偉達(dá)巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
21 跟貼 21
架構(gòu)解耦是統(tǒng)一多模態(tài)模型所必須的嗎？全新AIA損失：No

機器之心Pro 2025-12-02 14:25:38
0 跟貼 0

北航提出大模型Scaling Laws：編程語言差異與多語言最優(yōu)配比策略

機器之心Pro 2025-12-24 18:00:01
1 跟貼 1

用編程大模型登頂開源第一后，智譜GLM團(tuán)隊被拷問了3小時

量子位 2025-12-25 10:29:42
3 跟貼 3
老板監(jiān)視員工微信只需300元

每日經(jīng)濟(jì)新聞 2025-12-24 20:24:06
1625 跟貼 1625

微軟定目標(biāo)：2030年，徹底刪除C、C++代碼，換成Rust

機器之心Pro 2025-12-25 10:16:20
20 跟貼 20
為什么程序員喜歡在代碼里面寫臟話？

beebee 2025-08-12 11:11:07
0 跟貼 0
“程序員狀態(tài)管理”小調(diào)查｜你的大腦，該回血了！

36氪 2025-10-09 16:26:08
0 跟貼 0
智能體驅(qū)動：企業(yè)從“界面操作”到“智能助力”的必然路徑

鈦媒體APP 2025-10-20 16:40:12
0 跟貼 0
2025 AI年度報告：白天算股票，晚上算八字，AI成“賽博半仙”

雷科技 2025-12-24 10:11:07
1 跟貼 1
對話陳志杰：AI編程搶不了程序員的飯碗，我們是給廚子做飯的人

DeepTech深科技 2025-11-24 19:34:58
2 跟貼 2
當(dāng)40年歷史的Excel，被改造成AI應(yīng)用超級入口

周天財經(jīng) 2025-12-25 10:18:28
0 跟貼 0
女生買巖板 ai說進(jìn)不了電梯，不信邪手搓模型測試這不是能進(jìn)嗎？

河南都市頻道 2025-12-24 11:43:14
329 跟貼 329
15%全量Attention！「RTPurbo」阿里Qwen3長文本推理5倍壓縮方案

機器之心Pro 2025-12-23 12:52:34
0 跟貼 0
谷歌黑魔法，沒人能看懂的Gemini 3 Flash

新智元 2025-12-23 13:14:03
52 跟貼 52
excel電子臺歷排班表自動更新日期和人員班次信息

Excel教程學(xué)習(xí) 2025-12-22 20:29:14
0 跟貼 0
易而快出入庫安全庫存預(yù)警設(shè)置

部落窩教育 2025-12-21 07:00:00
0 跟貼 0
模具設(shè)計：三板模導(dǎo)柱強度計算.excel【自動計算表】

DeepAuto車探 2025-12-23 20:07:58
0 跟貼 0
事關(guān)與柬埔寨合作攜程緊急聲明

界面新聞 2025-12-25 11:55:08
58249 跟貼 58249
023 Excel如何計算某個字或者姓在班級姓名中出現(xiàn)的次數(shù)

Excel自學(xué)成才不求人 2025-12-23 21:57:26
6 跟貼 6
易而快出入庫系統(tǒng)自動圖表功能

部落窩教育 2025-12-24 07:00:00
0 跟貼 0
excel日程安排提醒日歷模板，你需要么？

部落窩教育 2025-12-22 07:00:00
0 跟貼 0
excel如何提取首個非漢字連續(xù)字符串？

部落窩教育 2025-12-25 07:00:00
0 跟貼 0
騰訊按下AI加速鍵，人才、組織、開源動作密集

機器之心Pro 2025-12-25 14:18:24
0 跟貼 0
一份沒有標(biāo)準(zhǔn)答案的AI考卷，頂尖模型集體失靈

DeepTech深科技 2025-12-25 19:00:40
0 跟貼 0
南京大學(xué)聯(lián)合美團(tuán)、上交破解主流視頻生成模型安全漏洞

機器之心Pro 2025-12-25 15:23:57
0 跟貼 0
通過視覺安全提示與深度對齊實現(xiàn)大型視覺語言模型的安全對齊

機器之心Pro 2025-11-24 16:37:06
0 跟貼 0
ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動執(zhí)行各種任務(wù)

量子位 2025-07-18 18:08:35
0 跟貼 0
中國創(chuàng)造一門新編程語言的黃金時代來了？

虎嗅APP 2025-12-23 03:54:05
17 跟貼 17
從智能搜索工具到AI代理電商模式先驅(qū)，四年估值200億美元，Perplexity面臨怎樣的困境？

鈦媒體APP 2025-12-25 11:00:27
0 跟貼 0
瑞士公司ZYTLYN Technologies 研發(fā)旅游預(yù)測分析智能體，為旅游業(yè)提供準(zhǔn)確定價策略

鈦媒體APP 2025-12-24 18:17:10
0 跟貼 0
PNAS：大語言模型如何在不同語言中加劇知識鴻溝

人工智能學(xué)家 2025-12-25 19:05:53
0 跟貼 0
當(dāng)千億參數(shù)撞上5毫米芯片

鈦媒體APP 2025-12-10 11:10:12
0 跟貼 0
Nano Banana終于不是文盲了，但我可能會變「傻」

愛范兒 2025-11-24 14:33:39
0 跟貼 0
養(yǎng)個智能體豆芽是什么體驗

雙胞胎郞大郎二 2025-12-24 11:31:38
0 跟貼 0
智能體熊二誰還沒擁有

雙胞胎郞大郎二 2025-12-25 12:52:54
0 跟貼 0
智能體基礎(chǔ)設(shè)施是AI時代操作系統(tǒng)，真正的智能體要能思考、能分析，能行動

量子位 2025-12-11 03:38:22
0 跟貼 0

AppSo

讓智能手機更好用的秘密

5960文章數(shù) 26732關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術(shù)

教育

旅游

手機

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
明末究竟有多難，無法阻止的歷史進(jìn)程
李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

編程測試碾壓人類！Claude Opus 4.5 深夜突襲，AI 編程進(jìn)入「超人時代」

小米17Ultra發(fā)布，徠卡2億像素 ，6999元起

韓國"最毒"財閥千金被捕 韓國人稱"經(jīng)過她身邊就會死"

韓國"最毒"財閥千金被捕 韓國人稱"經(jīng)過她身邊就會死"

單賽季11冠，羽壇“安洗瑩時代”真的來了

朱孝天把阿信好意當(dāng)球踢！

時隔15月，人民幣升破7，三大推手曝光

速來！智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

緬懷 | 著名油畫家宮立龍逝世，享年73歲

韓國免費留學(xué)，父母不用掏學(xué)費！

正式官宣｜“冬日秘境”，首發(fā)團(tuán)限時開啟！

小米17Ultra發(fā)布，徠卡2億像素，6999元起

韓國"最毒"財閥千金被捕韓國人稱"經(jīng)過她身邊就會死"

韓國"最毒"財閥千金被捕韓國人稱"經(jīng)過她身邊就會死"