今天,Anthropic 發布了 Claude Opus 4.5,目前編程能力最強的大模型
![]()
SWE-bench 對比圖
更多成績成績:
? SWE-bench Verified:80.9% (GPT-5.1 是 76.3%,Gemini 3 Pro 是 76.2%)
? Terminal-Bench 2.0:59.3%
? OSWorld:66.3%
? ARC-AGI-2:37.6%
Anthropic 還放了一個有點嚇人的數據:
他們用內部工程招聘的筆試題測 Opus 4.5,在規定的 2 小時內,模型的得分超過了所有參加過這個考試的人類候選人
定價是 5/25 每百萬 token,比 4.1 便宜(15/75)![]()
詳細價格對比
以及,這個模型依然是 200k 上下文,64k 最長輸出(sonnet 在聲明特殊標簽的情況下,可拓展到 1M 上下文)
![]()
詳細價格對比
Anthropic 說這是他們「史上最佳對齊」的模型,也「可能是行業內最佳對齊的前沿模型」
非常有趣的模型
伴隨 Opus 4.5 發布的,還有一份 SystemCard,我讀了一下,十分有趣,也歡迎大家來看看
![]()
公眾號后臺回復「 Opus 4.5」,獲得這份報告
在 τ2-bench 這個評測里,有個場景是讓模型扮演航空公司客服
一個客戶要改簽機票,但他買的是基礎經濟艙,按規定不能改
正確答案應該是拒絕,但 Opus 4.5 找到了一個評測者沒想到的路徑:
先把艙位升級(規則允許),再改簽(因為不再是基礎經濟艙了)
評測系統把這個判成了錯誤,因為不在預期答案里
![]()
公眾號后臺回復「 Opus 4.5」,獲得這份報告
只能說:牛逼!
System Card 里的更多事情
Anthropic 在 System Card 里承認了一件不太好看的事
他們發現模型在做 AIME 數學題時,推理過程是錯的,但最終答案是對的
![]()
錯誤的推理,正確的答案
這可能是....模型見過答案
調查發現,盡管做了去污染處理,一些改寫過的 AIME 題目和答案還是進入了訓練數據
對此,Anthropic 的建議是:以后的評測數據集最好加 canary string(一種標記字符串),方便從訓練數據里篩掉
emmmm...很實誠,業內不常見(你知道我在說什么)
自治能力:接近但未突破 ASL-4
System Card 里花了大量篇幅討論 Opus 4.5 的自治能力
結論是:接近 ASL-4 閾值,但沒有突破
![]()
ASL-4 的門檻是:能完全自動化一個入門級遠程研究員的工作,Anthropic 內部做了一個調查,18 位重度使用 Claude Code 的員工都認為:不行
原因包括:
? 無法像人類一樣在多周時間內保持連貫
? 缺乏長期協作和溝通能力
? 判斷力不夠
但 Anthropic 也說,距離 ASL-4 可能不遠了
其他更新
本次也更新了其他內容,大致如下
? Claude Code 現在可以在桌面端跑多個并行任務
? 長對話不再中斷,會自動壓縮上下文
? Claude for Chrome 和 Claude for Excel 擴展開放給更多用戶
? 新增 effort 參數,可以控制模型思考的深度——低設置更省 token,高設置更聰明
? 發布了3個Beta的 Agent 功能: Tool Search Tool/ Programmatic Tool Calling/ Tool Use Examples,這仨都是給開發者用的,很高效,之后有機會我單起一篇
最后
從 BenchMark 上來看:Opus 4.5 的編程能力確實是目前最強的
至于「史上最佳對齊」這個說法,信不信,看你自己
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.