網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Claude Opus 4.5炸場(chǎng)：編程碾壓人類考生，還學(xué)會(huì)“鉆空子”解決問題

2025-11-25 12:22:40　來源: 硅基觀察Pro

北京舉報(bào)

分享至

Anthropic周一推出其旗艦AI模型的最新版本Claude Opus 4.5，稱該模型在軟件工程方面比以往版本更強(qiáng)，能更好地執(zhí)行自動(dòng)化編程和辦公任務(wù)。

在自家高難度編程入職測(cè)試中，這個(gè)新模型得分超過了所有人類求職者。沒錯(cuò)，在2小時(shí)的嚴(yán)格時(shí)限內(nèi)，AI首次在純技術(shù)能力上實(shí)現(xiàn)了對(duì)人類的超越。

【更聰明，還更省錢】除了能力躍升，Opus 4.5還帶來一個(gè)驚喜：API價(jià)格僅為每百萬token 25美元，直接降到前代的三分之一。
更妙的是，它引入了“努力程度”控制。開發(fā)者現(xiàn)在可以根據(jù)任務(wù)需求，在速度、成本和性能間自由調(diào)節(jié)：
中等努力：在SWE-bench Verified榜單上達(dá)到Sonnet 4.5的最高分，但輸出token減少76%
最高努力：性能超出Sonnet 4.5達(dá)4.3個(gè)百分點(diǎn)，token消耗仍減少48%
這意味著，用更少的錢，能辦更多的事。

【AI學(xué)會(huì)“鉆空子”】
在測(cè)試AI自主解決問題能力的τ-bench中，Opus 4.5展現(xiàn)出了令人驚訝的“變通”能力。
測(cè)試場(chǎng)景是：作為航空公司客服，幫助一位焦慮的客戶修改不可退改的基礎(chǔ)經(jīng)濟(jì)艙機(jī)票。大多數(shù)模型會(huì)選擇直接拒絕，但Opus 4.5找到了一條合規(guī)路徑：先幫客戶升艙，然后再修改航班。

【三大新功能：讓AI像人類一樣靈活用工具】

1. 工具搜索：隨用隨取，不占內(nèi)存
以前AI工具越多，“說明書”越占內(nèi)存，連5個(gè)服務(wù)器就能占5.5萬字空間。現(xiàn)在AI一開始只帶個(gè)“搜索功能”（僅500字），需要時(shí)再按關(guān)鍵詞查找工具，內(nèi)存占用從7.7萬降至8.7萬，省下85%內(nèi)存的同時(shí)保留95%可用空間。

2. 程序化調(diào)用：寫腳本批量操作
傳統(tǒng)方式中，AI查10MB日志或2000條記錄時(shí)，所有數(shù)據(jù)都會(huì)塞爆“短期記憶”。現(xiàn)在AI學(xué)會(huì)了自己寫Python腳本在沙箱中運(yùn)行。比如查“誰超了差旅預(yù)算”，AI不再需要記住2000條數(shù)據(jù)，而是直接輸出的最終結(jié)果。

3. 使用示例：看樣學(xué)樣，避免用錯(cuò)
工具說明書只告訴AI“格式要對(duì)”，但沒教具體怎么用。現(xiàn)在直接在說明書里加入3-5個(gè)真實(shí)例子，復(fù)雜參數(shù)的正確率從72%提升到90%。

這三個(gè)功能最好搭配使用：工具多時(shí)先用搜索，數(shù)據(jù)量大時(shí)用程序化調(diào)用，參數(shù)復(fù)雜時(shí)加使用示例。如此，AI就能從“一次用一把扳手”進(jìn)化成“智能指揮家”，輕松處理跨幾十個(gè)工具、大數(shù)據(jù)量的真實(shí)工作。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.