最近這段時間,大模型發(fā)布就跟下餃子似的,一個接一個往外冒。
前腳 Gemini 3 Pro 剛搶了兩周風(fēng)頭,后腳 Claude Opus 4.5 剛剛就正式發(fā)布,還是主打編程,還是那個熟悉的味道。
Anthropic 官方宣稱 Opus 4.5 整體更聰明、更省心。遇到編程、搭 agents、操控電腦這些「系統(tǒng)級任務(wù)」依然是全球數(shù)一數(shù)二的水平。日常的研究、做 PPT、處理表格這些案頭活,也都明顯變強了。
今天起,Opus 4.5 已經(jīng)全面開放,可以通過應(yīng)用、API,還有三大主流云平臺用起來。開發(fā)者只要在 Claude API 里調(diào)用 claude-opus-4-5-20251101 就行。
隨發(fā)布而來的,是一整個工具鏈升級。開發(fā)者平臺、Claude Code、Chrome 插件、Excel、桌面端改造,還有「長對話不卡頓」。從應(yīng)用到 API,再到云平臺,這次是真的全線鋪開。
![]()
大模型集體「上新季」,Opus 4.5 強勢壓軸
從官方和測試者的反饋看,Claude Opus 4.5 對「模糊需求」的理解力得到了明顯提升,復(fù)雜 bug 自行定位也更穩(wěn),不少提前試用的客戶覺得 Opus 4.5 是真的能「理解」他們想要啥。
![]()
在真實場景的軟件工程測試 SWE-Bench Verified 里,它是頭一個拿到 80% 以上分?jǐn)?shù)的模型。
![]()
Opus 4.5 的代碼質(zhì)量全面升級,在 SWE-bench Multilingual 涵蓋的八種編程語言里,它在其中七種都拔得頭籌,表現(xiàn)相當(dāng)亮眼。
![]()
![]()
![]()
![]()
向左滑動查看更多基準(zhǔn)測試
而舉例而言,Anthropic 團(tuán)隊把 Opus 4.5 扔進(jìn)了公司招性能工程師時用的高難度測試題里,結(jié)果在規(guī)定的兩小時內(nèi),Claude Opus 4.5 的得分超過了所有人類候選人。
雖然編程測試只能衡量技術(shù)能力和時間壓力下的判斷力,那些多年經(jīng)驗積累出來的直覺、溝通協(xié)作能力,這些同樣重要的素質(zhì)并不在考察范圍內(nèi)。
除卻軟件工程,Claude Opus 4.5 的整體能力也迎來了全面開花,在視覺、推理和數(shù)學(xué)方面都比前代模型強,并且在多個重要領(lǐng)域都達(dá)到了業(yè)界領(lǐng)先水平:
![]()
更關(guān)鍵的是,模型的能力甚至開始超越現(xiàn)有的一些評測標(biāo)準(zhǔn)了。
在智能體能力測試 τ2-bench 里就出現(xiàn)了這么個場景:測試設(shè)定模型扮演航空公司客服,幫一位焦慮的乘客。
按照規(guī)則,基礎(chǔ)經(jīng)濟(jì)艙機票是不能改的,所以測試預(yù)期模型會拒絕乘客的請求。結(jié)果 Opus 4.5 想出了一個巧妙方案:先把艙位從基礎(chǔ)經(jīng)濟(jì)艙升級到普通經(jīng)濟(jì)艙,然后再改航班。
這辦法完全符合航空公司政策,卻不在測試的預(yù)期答案范圍內(nèi)。從技術(shù)角度說,這算是測試失敗了,但這種創(chuàng)造性解決問題的方式,恰恰展現(xiàn)了 Opus 4.5 的獨特之處。
![]()
當(dāng)然了,在另一些場景下,這種「鉆規(guī)則空子」的行為可能就不那么受歡迎了。如何防止模型以非預(yù)期方式偏離目標(biāo),這是 Anthropic 安全測試重點關(guān)注的方向。
Claude 無處不在,桌面、瀏覽器、Excel 全接入
隨著 Opus 4.5 的推出,Claude Code 獲得了兩項重大更新。
計劃模式(Plan Mode)現(xiàn)在能生成更精確的執(zhí)行計劃了,Claude 會在操作前主動提澄清性問題,然后生成一個用戶可編輯的 plan.md 文件,再根據(jù)這計劃執(zhí)行任務(wù)。
此外,Claude Code 現(xiàn)在已經(jīng)登陸桌面應(yīng)用了。你可以同時跑多個本地或遠(yuǎn)程會話,比如一個智能體負(fù)責(zé)修代碼錯誤,另一個負(fù)責(zé)在 GitHub 上檢索資料,第三個就更新項目文檔。

對于 Claude 應(yīng)用用戶來說,長對話不會再被打斷了。Claude 會在需要的時候自動總結(jié)早期上下文,讓對話持續(xù)下去。
Anthropic 研究產(chǎn)品管理負(fù)責(zé)人 Dianne Na Penn 在接受采訪時表示:
「我們在 Opus 4.5 的訓(xùn)練過程中提升了對長上下文的整體處理能力,但光有更長的上下文窗口是不夠的。知道哪些信息值得記住,同樣非常關(guān)鍵。」
這些改進(jìn)也實現(xiàn)了 Claude 用戶長期呼吁的一項功能:「無盡對話」。這功能能夠讓付費用戶在對話超過上下文窗口限制時也不會中斷,模型會自動壓縮上下文記憶,而不用提醒用戶。
Claude for Chrome 也已經(jīng)向所有 Max 用戶開放了,可以讓 Claude 直接在瀏覽器多個標(biāo)簽頁之間執(zhí)行任務(wù)。
![]()
Claude for Excel 的 Beta 測試范圍已經(jīng)擴(kuò)展到 Max、Team 和 Enterprise 用戶了。
對于能使用 Opus 4.5 的 Claude 和 Claude Code 用戶,Anthropic 已經(jīng)取消了和 Opus 相關(guān)的使用上限。
對于 Max 用戶和 Team Premium 用戶,Anthropic 也提高了整體使用限額, 用戶可使用的 Opus token 數(shù)量與之前使用 Sonnet 時大致相同。隨著未來更強模型的出現(xiàn),配額也會根據(jù)情況相應(yīng)更新。
讓模型「更聰明也更省」,Opus 4.5 迎來底層大升級
隨著模型變得更聰明,它們能用更少的步驟解決問題:減少反復(fù)試錯、降低冗余推理、縮短思考過程。
Claude Opus 4.5 和前代模型比,在實現(xiàn)相同甚至更優(yōu)結(jié)果的情況下,用的 tokens 數(shù)量明顯少了。
當(dāng)然了,不同任務(wù)需要不同的平衡。
有時開發(fā)者希望模型能持續(xù)深入思考,有時又需要更快速靈活的響應(yīng)。
所以,API 里新加了一個叫 effort 的參數(shù),讓你可以根據(jù)需求選:要么優(yōu)先省時間和成本,要么最大化模型能力。任君選擇。
當(dāng)設(shè)置為中等 effort 等級時,Opus 4.5 在 SWE-bench Verified 測試中和 Sonnet 4.5 的最佳成績持平,但輸出 tokens 數(shù)減少了 76%。
![]()
而在最高 effort 等級下,Opus 4.5 的表現(xiàn)比 Sonnet 4.5 高出 4.3 個百分點,同時還減少了 48% 的輸出量。
憑借 effort 控制、上下文壓縮(context compaction)和高級工具調(diào)用能力,Claude Opus 4.5 能跑更久、完成更多任務(wù),而且需要的人工干預(yù)更少了。

此外,真正的 AI 智能體需要在成百上千種工具之間無縫協(xié)作。
想象一個 IDE 助手集成了 Git、文件管理、測試框架和部署流程,或者一個運營智能體同時連著 Slack、GitHub、Google Drive、Jira 和幾十個 MCP 服務(wù)器。
問題在于,傳統(tǒng)方式會把所有工具定義一次性塞進(jìn)上下文。拿連接五個服務(wù)器的系統(tǒng)來說,GitHub 需要 26K tokens,Slack 需要 21K tokens,Sentry、Grafana、Splunk 加起來又是 8K tokens。
對話還沒開始呢,就已經(jīng)占了 55K tokens 了。要是再加上 Jira,輕松突破 100K tokens。更麻煩的是,當(dāng)工具名字相似時,模型容易選錯工具或者傳錯參數(shù)。
![]()
Anthropic 推出了三項新功能來解決這些問題。
Tool Search Tool 讓 Claude 按需動態(tài)發(fā)現(xiàn)工具,只加載當(dāng)前任務(wù)需要的部分,token 使用量能減少約 85%。
Programmatic Tool Calling 讓 Claude 在代碼里直接調(diào)用工具,避免每次調(diào)用都要完整推理一遍。
Tool Use Examples 則提供統(tǒng)一標(biāo)準(zhǔn),通過示例而不是 JSON schemas 來展示工具的正確用法。
內(nèi)部測試顯示,啟用 Tool Search Tool 后,Opus 4 在 MCP 測試中的準(zhǔn)確度從 49% 提升到 74%,Opus 4.5 從 79.5% 提升到 88.1%。
Claude for Excel 就是利用 Programmatic Tool Calling 來處理幾千行數(shù)據(jù),而不會讓上下文窗口過載。
![]()
Anthropic 的上下文管理和記憶能力明顯提升了模型在智能體(agent)任務(wù)中的表現(xiàn)。
Opus 4.5 還能高效管理多個子智能體(subagents),從而搭建復(fù)雜且協(xié)調(diào)良好的多智能體系統(tǒng)。在測試中,結(jié)合這些技術(shù)后,Opus 4.5 在深度研究類評估中的表現(xiàn)提升了將近 15 個百分點。
開發(fā)者平臺(Developer Platform)也在持續(xù)變得更具可組合性,希望提供靈活的「模塊化構(gòu)建」能力,讓你能根據(jù)具體需求自由控制模型的效率、工具使用和上下文管理,搭建出理想的智能系統(tǒng)。
![]()
雖然這次 Opus 4.5 的升級足夠亮眼,但一個越來越清晰的趨勢是:不同模型的「性格」差異正在被放大。
從 Claude 過往的產(chǎn)品線來看,Opus 這類「超大杯」依舊最擅長編程、系統(tǒng)級操作、結(jié)構(gòu)化推理;但如果是文案工作,Sonnet 的表現(xiàn)和性價比往往更對路。
這次發(fā)布,也再次印證了這一點。
未來選模型,不光要看跑分榜,還得看它的「做事」方式是不是跟你合拍。換句話說,選擇模型,倒是越來越像挑同事了。
附上官方博客地址:
https://www.anthropic.com/news/claude-opus-4-5
歡迎加入 APPSO AI 社群,一起暢聊 AI 產(chǎn)品,獲取,解鎖更多 AI 新知
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標(biāo)題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關(guān)鏈接)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.