![]()
最強模型易主,Claude Opus 4.5 今日上線!
Anthropic 稱其為目前世界上最適合編程、Agent(智能體)和計算機操作的模型。不僅更聰明、更高效,在深度研究、處理ppt和電子表格等日常任務上也實現了顯著提升
![]()
![]()
![]()
![]()
![]()
一句話總結:Opus 4.5 是 AI 能力的一次跨越,預示著未來工作方式的改變
現在即可使用
開發者:通過 API 調用 claude-opus-4-5-20251101
價格:輸入 輸 出 25(每百萬 token)
平臺:覆蓋自家 App、API 及三大云平臺
對于訂閱用戶(Max 和 Team Premium),Anthropic 移除了 Opus 專屬的限制,并提高了整體使用限額,確保用戶能在日常工作中充分使用 Opus 4.5
核心亮點速覽:
編程能力碾壓:在內部入職測試中,得分超過所有人類求職者
更聰明:能夠通過“曲線救國”解決復雜問題(如通過升艙來修改不可改簽的機票)。
更省錢:引入“努力程度”控制,中等設置下比 Sonnet 4.5 節省 76% token,性能持平
價格真香:API 價格定為 25(每百萬 token),價格只有原來 Opus 4.1 的 1/3
編程能力:超越人類候選人
Anthropic 給 Opus 4.5 安排了一場“硬仗”,自家公司出了名難的性能工程入職筆試
結果令人咋舌:在規定的 2 小時時限內,Claude Opus 4.5 的得分高于以往任何一位人類候選人
雖然這并不代表它擁有人類的協作與溝通技巧,但在技術能力和抗壓判斷力上,AI 已經跑到了前面。
在實際體驗中,測試人員反饋極為一致:Opus 4.5 能夠處理模糊性問題,無需手把手指導即可權衡利弊。面對復雜的多系統 Bug,它能獨立找出修復方案。幾周前 Sonnet 4.5 幾乎無法完成的任務,現在 Opus 4.5 都能搞定
![]()
”鉆空子”也是一種智慧
在考察 Agent 能力的 τ-bench 基準測試中,Opus 4.5 展現出了驚人的變通能力。
測試場景是:作為航空公司客服,幫助一位焦慮的客戶修改機票。規則是基礎經濟艙不可修改
大多數模型會直接拒絕。但 Opus 4.5 找到了一條合規的解決路徑:先幫客戶升艙,然后再修改航班
雖然基準測試判定其為失敗(因為未按預期拒絕),但這正是人類所期待的創造性解決問題的能力。同時,Anthropic 也在安全測試中加強了對此類行為的約束,防止模型為了達成目標而玩弄規則
引入“努力程度”控制:效率提升 76%
模型變強了,通常意味著更貴、更慢?Opus 4.5 給出了新解法。
開發者現在可以通過 API 中的 effort parameter(努力程度參數) 來平衡時間、成本和性能:
中等努力(Medium effort): 在 SWE-bench Verified 榜單上,Opus 4.5 達到了 Sonnet 4.5 的最高分,但輸出 token 減少了 76%
最高努力(High effort): 性能比 Sonnet 4.5 高出 4.3 個百分點,同時 token 消耗仍減少了 48%
配合上下文壓縮和高級工具使用,Opus 4.5 能夠運行更久、做更多事,且需要的人工干預更少。
全家桶更新:Excel、Chrome 都能用了
伴隨 Opus 4.5 的發布,Claude 開發者平臺和消費級應用也迎來了全面升級:
Claude Code:新增 Plan Mode(計劃模式),在執行前會先問清楚需求并生成可編輯的計劃文件。桌面版支持并行運行多個會話(如一個修 Bug,一個查資料)
Claude for Excel:Beta 版現已向所有 Max、Team 和 Enterprise 用戶開放
Claude for Chrome:Max 用戶現可使用 Claude 跨標簽頁處理任務。
長對話無障礙:Claude 應用現在會自動總結早期上下文,長對話不再撞墻
最后最重要的是記得??我,這對我非常重要,每天都在更新:
一鍵三連,歡迎點贊轉發推薦評論,別忘了關注我
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.