<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      編程測試碾壓人類!Claude Opus 4.5 深夜突襲,AI 編程進(jìn)入「超人時代」

      0
      分享至

      最近這段時間,大模型發(fā)布就跟下餃子似的,一個接一個往外冒。

      前腳 Gemini 3 Pro 剛搶了兩周風(fēng)頭,后腳 Claude Opus 4.5 剛剛就正式發(fā)布,還是主打編程,還是那個熟悉的味道。

      Anthropic 官方宣稱 Opus 4.5 整體更聰明、更省心。遇到編程、搭 agents、操控電腦這些「系統(tǒng)級任務(wù)」依然是全球數(shù)一數(shù)二的水平。日常的研究、做 PPT、處理表格這些案頭活,也都明顯變強了。

      今天起,Opus 4.5 已經(jīng)全面開放,可以通過應(yīng)用、API,還有三大主流云平臺用起來。開發(fā)者只要在 Claude API 里調(diào)用 claude-opus-4-5-20251101 就行。

      隨發(fā)布而來的,是一整個工具鏈升級。開發(fā)者平臺、Claude Code、Chrome 插件、Excel、桌面端改造,還有「長對話不卡頓」。從應(yīng)用到 API,再到云平臺,這次是真的全線鋪開。


      大模型集體「上新季」,Opus 4.5 強勢壓軸

      從官方和測試者的反饋看,Claude Opus 4.5 對「模糊需求」的理解力得到了明顯提升,復(fù)雜 bug 自行定位也更穩(wěn),不少提前試用的客戶覺得 Opus 4.5 是真的能「理解」他們想要啥。


      在真實場景的軟件工程測試 SWE-Bench Verified 里,它是頭一個拿到 80% 以上分?jǐn)?shù)的模型。


      Opus 4.5 的代碼質(zhì)量全面升級,在 SWE-bench Multilingual 涵蓋的八種編程語言里,它在其中七種都拔得頭籌,表現(xiàn)相當(dāng)亮眼。





      向左滑動查看更多基準(zhǔn)測試

      而舉例而言,Anthropic 團(tuán)隊把 Opus 4.5 扔進(jìn)了公司招性能工程師時用的高難度測試題里,結(jié)果在規(guī)定的兩小時內(nèi),Claude Opus 4.5 的得分超過了所有人類候選人。

      雖然編程測試只能衡量技術(shù)能力和時間壓力下的判斷力,那些多年經(jīng)驗積累出來的直覺、溝通協(xié)作能力,這些同樣重要的素質(zhì)并不在考察范圍內(nèi)。

      除卻軟件工程,Claude Opus 4.5 的整體能力也迎來了全面開花,在視覺、推理和數(shù)學(xué)方面都比前代模型強,并且在多個重要領(lǐng)域都達(dá)到了業(yè)界領(lǐng)先水平:


      更關(guān)鍵的是,模型的能力甚至開始超越現(xiàn)有的一些評測標(biāo)準(zhǔn)了。

      在智能體能力測試 τ2-bench 里就出現(xiàn)了這么個場景:測試設(shè)定模型扮演航空公司客服,幫一位焦慮的乘客。

      按照規(guī)則,基礎(chǔ)經(jīng)濟(jì)艙機票是不能改的,所以測試預(yù)期模型會拒絕乘客的請求。結(jié)果 Opus 4.5 想出了一個巧妙方案:先把艙位從基礎(chǔ)經(jīng)濟(jì)艙升級到普通經(jīng)濟(jì)艙,然后再改航班。

      這辦法完全符合航空公司政策,卻不在測試的預(yù)期答案范圍內(nèi)。從技術(shù)角度說,這算是測試失敗了,但這種創(chuàng)造性解決問題的方式,恰恰展現(xiàn)了 Opus 4.5 的獨特之處。


      當(dāng)然了,在另一些場景下,這種「鉆規(guī)則空子」的行為可能就不那么受歡迎了。如何防止模型以非預(yù)期方式偏離目標(biāo),這是 Anthropic 安全測試重點關(guān)注的方向。

      Claude 無處不在,桌面、瀏覽器、Excel 全接入

      隨著 Opus 4.5 的推出,Claude Code 獲得了兩項重大更新。

      計劃模式(Plan Mode)現(xiàn)在能生成更精確的執(zhí)行計劃了,Claude 會在操作前主動提澄清性問題,然后生成一個用戶可編輯的 plan.md 文件,再根據(jù)這計劃執(zhí)行任務(wù)。

      此外,Claude Code 現(xiàn)在已經(jīng)登陸桌面應(yīng)用了。你可以同時跑多個本地或遠(yuǎn)程會話,比如一個智能體負(fù)責(zé)修代碼錯誤,另一個負(fù)責(zé)在 GitHub 上檢索資料,第三個就更新項目文檔。


      對于 Claude 應(yīng)用用戶來說,長對話不會再被打斷了。Claude 會在需要的時候自動總結(jié)早期上下文,讓對話持續(xù)下去。

      Anthropic 研究產(chǎn)品管理負(fù)責(zé)人 Dianne Na Penn 在接受采訪時表示:

      「我們在 Opus 4.5 的訓(xùn)練過程中提升了對長上下文的整體處理能力,但光有更長的上下文窗口是不夠的。知道哪些信息值得記住,同樣非常關(guān)鍵。」

      這些改進(jìn)也實現(xiàn)了 Claude 用戶長期呼吁的一項功能:「無盡對話」。這功能能夠讓付費用戶在對話超過上下文窗口限制時也不會中斷,模型會自動壓縮上下文記憶,而不用提醒用戶。

      Claude for Chrome 也已經(jīng)向所有 Max 用戶開放了,可以讓 Claude 直接在瀏覽器多個標(biāo)簽頁之間執(zhí)行任務(wù)。


      Claude for Excel 的 Beta 測試范圍已經(jīng)擴(kuò)展到 Max、Team 和 Enterprise 用戶了。

      對于能使用 Opus 4.5 的 Claude 和 Claude Code 用戶,Anthropic 已經(jīng)取消了和 Opus 相關(guān)的使用上限。

      對于 Max 用戶和 Team Premium 用戶,Anthropic 也提高了整體使用限額, 用戶可使用的 Opus token 數(shù)量與之前使用 Sonnet 時大致相同。隨著未來更強模型的出現(xiàn),配額也會根據(jù)情況相應(yīng)更新。

      讓模型「更聰明也更省」,Opus 4.5 迎來底層大升級

      隨著模型變得更聰明,它們能用更少的步驟解決問題:減少反復(fù)試錯、降低冗余推理、縮短思考過程。

      Claude Opus 4.5 和前代模型比,在實現(xiàn)相同甚至更優(yōu)結(jié)果的情況下,用的 tokens 數(shù)量明顯少了。

      當(dāng)然了,不同任務(wù)需要不同的平衡。

      有時開發(fā)者希望模型能持續(xù)深入思考,有時又需要更快速靈活的響應(yīng)。

      所以,API 里新加了一個叫 effort 的參數(shù),讓你可以根據(jù)需求選:要么優(yōu)先省時間和成本,要么最大化模型能力。任君選擇。

      當(dāng)設(shè)置為中等 effort 等級時,Opus 4.5 在 SWE-bench Verified 測試中和 Sonnet 4.5 的最佳成績持平,但輸出 tokens 數(shù)減少了 76%。


      而在最高 effort 等級下,Opus 4.5 的表現(xiàn)比 Sonnet 4.5 高出 4.3 個百分點,同時還減少了 48% 的輸出量。

      憑借 effort 控制、上下文壓縮(context compaction)和高級工具調(diào)用能力,Claude Opus 4.5 能跑更久、完成更多任務(wù),而且需要的人工干預(yù)更少了。


      此外,真正的 AI 智能體需要在成百上千種工具之間無縫協(xié)作。

      想象一個 IDE 助手集成了 Git、文件管理、測試框架和部署流程,或者一個運營智能體同時連著 Slack、GitHub、Google Drive、Jira 和幾十個 MCP 服務(wù)器。

      問題在于,傳統(tǒng)方式會把所有工具定義一次性塞進(jìn)上下文。拿連接五個服務(wù)器的系統(tǒng)來說,GitHub 需要 26K tokens,Slack 需要 21K tokens,Sentry、Grafana、Splunk 加起來又是 8K tokens。

      對話還沒開始呢,就已經(jīng)占了 55K tokens 了。要是再加上 Jira,輕松突破 100K tokens。更麻煩的是,當(dāng)工具名字相似時,模型容易選錯工具或者傳錯參數(shù)。


      Anthropic 推出了三項新功能來解決這些問題。

      Tool Search Tool 讓 Claude 按需動態(tài)發(fā)現(xiàn)工具,只加載當(dāng)前任務(wù)需要的部分,token 使用量能減少約 85%。

      Programmatic Tool Calling 讓 Claude 在代碼里直接調(diào)用工具,避免每次調(diào)用都要完整推理一遍。

      Tool Use Examples 則提供統(tǒng)一標(biāo)準(zhǔn),通過示例而不是 JSON schemas 來展示工具的正確用法。

      內(nèi)部測試顯示,啟用 Tool Search Tool 后,Opus 4 在 MCP 測試中的準(zhǔn)確度從 49% 提升到 74%,Opus 4.5 從 79.5% 提升到 88.1%。

      Claude for Excel 就是利用 Programmatic Tool Calling 來處理幾千行數(shù)據(jù),而不會讓上下文窗口過載。


      Anthropic 的上下文管理和記憶能力明顯提升了模型在智能體(agent)任務(wù)中的表現(xiàn)。

      Opus 4.5 還能高效管理多個子智能體(subagents),從而搭建復(fù)雜且協(xié)調(diào)良好的多智能體系統(tǒng)。在測試中,結(jié)合這些技術(shù)后,Opus 4.5 在深度研究類評估中的表現(xiàn)提升了將近 15 個百分點。

      開發(fā)者平臺(Developer Platform)也在持續(xù)變得更具可組合性,希望提供靈活的「模塊化構(gòu)建」能力,讓你能根據(jù)具體需求自由控制模型的效率、工具使用和上下文管理,搭建出理想的智能系統(tǒng)。


      雖然這次 Opus 4.5 的升級足夠亮眼,但一個越來越清晰的趨勢是:不同模型的「性格」差異正在被放大。

      從 Claude 過往的產(chǎn)品線來看,Opus 這類「超大杯」依舊最擅長編程、系統(tǒng)級操作、結(jié)構(gòu)化推理;但如果是文案工作,Sonnet 的表現(xiàn)和性價比往往更對路。

      這次發(fā)布,也再次印證了這一點。

      未來選模型,不光要看跑分榜,還得看它的「做事」方式是不是跟你合拍。換句話說,選擇模型,倒是越來越像挑同事了。

      附上官方博客地址:

      https://www.anthropic.com/news/claude-opus-4-5

      歡迎加入 APPSO AI 社群,一起暢聊 AI 產(chǎn)品,獲取,解鎖更多 AI 新知

      我們正在招募伙伴

      簡歷投遞郵箱hr@ifanr.com

      ?? 郵件標(biāo)題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關(guān)鏈接)


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      下月起,你的房貸利率有調(diào)整!

      下月起,你的房貸利率有調(diào)整!

      六安新周報
      2025-12-25 11:31:13
      咸魚還是太全面了,怪不得人稱國內(nèi)黑市

      咸魚還是太全面了,怪不得人稱國內(nèi)黑市

      另子維愛讀史
      2025-12-20 17:07:20
      某車企南極測試遭質(zhì)疑,目前南極是夏季!

      某車企南極測試遭質(zhì)疑,目前南極是夏季!

      電動知家
      2025-12-25 08:41:32
      駐柬大使汪文斌人民日報撰文

      駐柬大使汪文斌人民日報撰文

      政知新媒體
      2025-12-25 09:26:56
      生殖科最奇葩的事是什么?網(wǎng)友:這個科絕對是最有錢成本最低的科

      生殖科最奇葩的事是什么?網(wǎng)友:這個科絕對是最有錢成本最低的科

      帶你感受人間冷暖
      2025-12-25 00:05:19
      年終話“三農(nóng)”|農(nóng)田提質(zhì)效 沃野煥新機——2025年高標(biāo)準(zhǔn)農(nóng)田建設(shè)一線觀察

      年終話“三農(nóng)”|農(nóng)田提質(zhì)效 沃野煥新機——2025年高標(biāo)準(zhǔn)農(nóng)田建設(shè)一線觀察

      新華社
      2025-12-23 23:39:26
      055遇勁敵!全能艦橫空出世,未來海戰(zhàn)要變天!

      055遇勁敵!全能艦橫空出世,未來海戰(zhàn)要變天!

      Ck的蜜糖
      2025-12-24 12:35:23
      超載貨車查處后“卷土重來”,周邊居民:“每天提心吊膽”

      超載貨車查處后“卷土重來”,周邊居民:“每天提心吊膽”

      揚子晚報
      2025-12-25 17:37:47
      博爾特現(xiàn)狀:退役8年生3娃,每年領(lǐng)400萬美元,39歲上樓都能喘氣

      博爾特現(xiàn)狀:退役8年生3娃,每年領(lǐng)400萬美元,39歲上樓都能喘氣

      涵豆說娛
      2025-12-25 16:55:49
      消息稱英偉達(dá)H200模組國內(nèi)單價140萬元,黃仁勛有望再來華

      消息稱英偉達(dá)H200模組國內(nèi)單價140萬元,黃仁勛有望再來華

      IT之家
      2025-12-24 11:44:16
      委內(nèi)瑞拉油輪剛出海,中國軍艦緊隨其后,特朗普的算盤又打錯了?

      委內(nèi)瑞拉油輪剛出海,中國軍艦緊隨其后,特朗普的算盤又打錯了?

      科普100克克
      2025-12-21 18:50:07
      兩名朝鮮俘虜公開表態(tài):寧愿去韓國,也不愿返回朝鮮

      兩名朝鮮俘虜公開表態(tài):寧愿去韓國,也不愿返回朝鮮

      老馬拉車莫少裝
      2025-12-24 21:30:46
      為干掉越軍狙擊手,一戰(zhàn)士趴水坑40小時,忽見一塊石頭移動一下

      為干掉越軍狙擊手,一戰(zhàn)士趴水坑40小時,忽見一塊石頭移動一下

      云端小院
      2025-12-25 09:12:15
      中共中央政治局召開會議

      中共中央政治局召開會議

      澎湃新聞
      2025-12-25 14:25:04
      39歲餃子館老板深夜離世,妻子失聲痛哭:我不該說那句氣話

      39歲餃子館老板深夜離世,妻子失聲痛哭:我不該說那句氣話

      丫頭舫
      2025-12-24 20:52:54
      輪到美國被“壟斷”了!“芯片之父”棄美回國,研發(fā)成果堪比核武

      輪到美國被“壟斷”了!“芯片之父”棄美回國,研發(fā)成果堪比核武

      安珈使者啊
      2025-12-25 14:25:42
      朱孝天還是出手了!拋出的重磅爆料,如同一塊巨石砸進(jìn)娛樂圈

      朱孝天還是出手了!拋出的重磅爆料,如同一塊巨石砸進(jìn)娛樂圈

      哎呀哎呀看電影
      2025-12-25 10:37:36
      南昌起義中,朱德是第九軍副軍長,那軍長是誰?建國后擔(dān)任何職?

      南昌起義中,朱德是第九軍副軍長,那軍長是誰?建國后擔(dān)任何職?

      方圓文史
      2025-12-25 16:06:56
      海南“零關(guān)稅”豪車真相:寶馬X5、保時捷卡宴鮮有符合要求車型,免稅進(jìn)口車僅限企業(yè)營運

      海南“零關(guān)稅”豪車真相:寶馬X5、保時捷卡宴鮮有符合要求車型,免稅進(jìn)口車僅限企業(yè)營運

      每日經(jīng)濟(jì)新聞
      2025-12-23 16:32:04
      中美俄戰(zhàn)機飛行1小時成本對比:F22要60萬,蘇27需18萬,殲20多少

      中美俄戰(zhàn)機飛行1小時成本對比:F22要60萬,蘇27需18萬,殲20多少

      阿器談史
      2025-12-21 23:20:57
      2025-12-25 22:00:49
      AppSo incentive-icons
      AppSo
      讓智能手機更好用的秘密
      5960文章數(shù) 26732關(guān)注度
      往期回顧 全部

      科技要聞

      小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

      頭條要聞

      韓國"最毒"財閥千金被捕 韓國人稱"經(jīng)過她身邊就會死"

      頭條要聞

      韓國"最毒"財閥千金被捕 韓國人稱"經(jīng)過她身邊就會死"

      體育要聞

      單賽季11冠,羽壇“安洗瑩時代”真的來了

      娛樂要聞

      朱孝天把阿信好意當(dāng)球踢!

      財經(jīng)要聞

      時隔15月,人民幣升破7,三大推手曝光

      汽車要聞

      速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

      態(tài)度原創(chuàng)

      藝術(shù)
      教育
      旅游
      手機
      公開課

      藝術(shù)要聞

      緬懷 | 著名油畫家宮立龍逝世,享年73歲

      教育要聞

      韓國免費留學(xué),父母不用掏學(xué)費!

      旅游要聞

      正式官宣|“冬日秘境”,首發(fā)團(tuán)限時開啟!

      手機要聞

      realme真我手機回應(yīng)“大規(guī)模裁員”:系年底正常的人員變動

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 吴忠市| 狠狠色综合tv久久久久久| AV秘 无码一区二| 国产精品1区| 乱人伦??国语| 精品国产亚洲第一区二区三区| 大香蕉一区二区三区| 亚洲欧洲av综合色无码| 中文字幕在线亚洲日韩6页| 久久一卡二卡三卡四卡| 成人影片一区免费观看| 丰满的少妇愉情HD高清果冻传媒| 亚洲天堂高清| 精品婷婷色一区二区三区| 亚洲中文字幕无码一区日日添| 日韩一区国产二区欧美三区| 茄子av| 人妻综合网| 久艹视频免费看| 亚洲中文字| 国产口爆| 亚洲精品成人一二三专区| 久久一本人碰碰人碰| 免费观看在线A级毛片| 中文字幕一区二区三区人妻少妇| 成人亚欧欧美激情在线观看| 欧洲性开放老太大| 亚洲欧美V| 色资源av中文无码先锋| 中日av乱码一区二区三区乱码| 欧美日韩精品久久久免费观看| 亚洲综合色成在线播放| 婷婷99狠狠躁天天躁| 亚洲AV永久中文无码精品综合| 91福利姬| 国产av剧情md精品麻豆| 久久精品| 亚洲黑人av| 亚洲AV成人无码久久精品四虎| 长宁区| 国产精品一区二区久久岳|