Anthropic周一推出其旗艦AI模型的最新版本Claude Opus 4.5,稱該模型在軟件工程方面比以往版本更強(qiáng),能更好地執(zhí)行自動(dòng)化編程和辦公任務(wù)。
在自家高難度編程入職測(cè)試中,這個(gè)新模型得分超過了所有人類求職者。沒錯(cuò),在2小時(shí)的嚴(yán)格時(shí)限內(nèi),AI首次在純技術(shù)能力上實(shí)現(xiàn)了對(duì)人類的超越。
【更聰明,還更省錢】除了能力躍升,Opus 4.5還帶來一個(gè)驚喜:API價(jià)格僅為每百萬token 25美元,直接降到前代的三分之一。
更妙的是,它引入了“努力程度”控制。開發(fā)者現(xiàn)在可以根據(jù)任務(wù)需求,在速度、成本和性能間自由調(diào)節(jié):
中等努力:在SWE-bench Verified榜單上達(dá)到Sonnet 4.5的最高分,但輸出token減少76%
最高努力:性能超出Sonnet 4.5達(dá)4.3個(gè)百分點(diǎn),token消耗仍減少48%
這意味著,用更少的錢,能辦更多的事。
【AI學(xué)會(huì)“鉆空子”】
在測(cè)試AI自主解決問題能力的τ-bench中,Opus 4.5展現(xiàn)出了令人驚訝的“變通”能力。
測(cè)試場(chǎng)景是:作為航空公司客服,幫助一位焦慮的客戶修改不可退改的基礎(chǔ)經(jīng)濟(jì)艙機(jī)票。大多數(shù)模型會(huì)選擇直接拒絕,但Opus 4.5找到了一條合規(guī)路徑:先幫客戶升艙,然后再修改航班。
【三大新功能:讓AI像人類一樣靈活用工具】
1. 工具搜索:隨用隨取,不占內(nèi)存
以前AI工具越多,“說明書”越占內(nèi)存,連5個(gè)服務(wù)器就能占5.5萬字空間。現(xiàn)在AI一開始只帶個(gè)“搜索功能”(僅500字),需要時(shí)再按關(guān)鍵詞查找工具,內(nèi)存占用從7.7萬降至8.7萬,省下85%內(nèi)存的同時(shí)保留95%可用空間。
2. 程序化調(diào)用:寫腳本批量操作
傳統(tǒng)方式中,AI查10MB日志或2000條記錄時(shí),所有數(shù)據(jù)都會(huì)塞爆“短期記憶”。現(xiàn)在AI學(xué)會(huì)了自己寫Python腳本在沙箱中運(yùn)行。比如查“誰超了差旅預(yù)算”,AI不再需要記住2000條數(shù)據(jù),而是直接輸出的最終結(jié)果。
3. 使用示例:看樣學(xué)樣,避免用錯(cuò)
工具說明書只告訴AI“格式要對(duì)”,但沒教具體怎么用。現(xiàn)在直接在說明書里加入3-5個(gè)真實(shí)例子,復(fù)雜參數(shù)的正確率從72%提升到90%。
這三個(gè)功能最好搭配使用:工具多時(shí)先用搜索,數(shù)據(jù)量大時(shí)用程序化調(diào)用,參數(shù)復(fù)雜時(shí)加使用示例。如此,AI就能從“一次用一把扳手”進(jìn)化成“智能指揮家”,輕松處理跨幾十個(gè)工具、大數(shù)據(jù)量的真實(shí)工作。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.