<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic發布Claude Sonnet 4.5:編程能力再登頂,新產品試圖顛覆Windows操作系統

      0
      分享至


      今天凌晨,Anthropic毫無征兆地突然發布了Claude Sonnet 4.5,從版本號、發布的文章以及隨之而來的產品功能更新看,這是個相當大的值得關注的版本。

      核心要點

      • Claude Sonnet 4.5在SWE-bench Verified基準測試中達到行業最高水平,可持續專注超30小時處理復雜任務,定價維持不變($3/$15每百萬tokens)

      • 計算機使用能力大幅提升,OSWorld基準從4個月前的42.2%躍升至61.4%

      • Anthropic首次開放Claude Agent SDK,將支撐Claude Code的基礎設施向開發者開放

      • 推出"Imagine with Claude"研究預覽,展示實時軟件生成能力(非常有趣,文章中有實測案例)


      模型性能又又又突破了

      根據官方披露的數據,Claude Sonnet 4.5模型在多項關鍵指標上實現顯著提升。


      當然,我們最最關心的還是編程能力。Claude Sonnet 4.5在SWE-bench Verified評估中繼續突破自己,超越了死貴死貴的Claude Opus 4.1達到當前最高水平(而價格則是維持和Claude Sonnet 4一樣的水平)。SWE-bench Verified算是衡量AI模型解決真實世界軟件編程問題的最重要的能力指標。Anthropic表示,在實際應用中觀察到該模型能夠在復雜多步驟任務上保持超過30小時的持續專注。聽起來有點針對OpenAI CodeX的7小時了。


      計算機使用能力方面的進步尤為明顯。在測試AI模型執行真實計算機任務的OSWorld基準測試中,Sonnet 4.5取得61.4%的成績,相比四個月前Sonnet 4的42.2%提升約45%。

      Claude 官方用來展示的例子是他們做的瀏覽器插件——Claude for Chrome,演示的這個例子涉及表格、郵件、數字計算等,任務還算挺復雜的,效果看起來不錯。

      前幾天,我發過一個用Claude Code+Chrome Devtools MCP當我的B站/油管運營實習生,自動給評論區回復內容的嘗試,看起來這套組合所擁有的潛力還能繼續挖掘。

      除編程能力外,該模型在推理和數學相關的多項評估中也顯示出改進。來自金融、法律、醫學和STEM領域的專家評估顯示,Sonnet 4.5在特定領域的知識深度和推理能力上相比早期模型(包括Opus 4.1)有顯著提升。


      注:STEM是四個學科領域英文首字母的縮寫:

      -Science(科學)

      -Technology(技術)

      -Engineering(工程)

      -Mathematics(數學)

      對齊與安全性改進

      Anthropic強調,Claude Sonnet 4.5是該公司迄今為止"對齊度最高的前沿模型"。在自動化行為審計測試中,該模型在多個維度上的不良行為得分顯著降低,包括奉承、欺騙、權力尋求以及鼓勵妄想性思維等傾向。

      針對AI代理和計算機使用場景中最嚴重的風險之一——提示注入攻擊,Anthropic表示已取得重大進展。根據其發布的系統卡(system card):https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf,該模型的安全評估首次納入了機械可解釋性(mechanistic interpretability)技術。

      該模型按照Anthropic的AI安全等級3(ASL-3)框架發布,配備了專門的分類器用于檢測潛在危險的輸入和輸出,特別是涉及化學、生物、放射性和核武器(CBRN)相關內容。Anthropic表示,自該系統首次描述以來,誤報率已降低十倍,自5月Claude Opus 4發布以來降低了一半。



      Claude Agent SDK開放

      深入用過Claude Code的人應該都會認同,盡管有很多產品都在稱自己是通用型AI Agent,但真正在能力上做到又強又通用的,還真就是Claude Code。而在這次的發布里,Claude把他們用來構建Claude Code的所有基建,都作為Agent SDK開放了。

      該SDK解決了構建AI代理過程中的幾個核心難題:長時間運行任務中的內存管理、平衡自主性與用戶控制的權限系統、以及協調多個子代理朝向共同目標工作的機制。

      Anthropic表示,雖然該SDK是為Claude Code開發的,但其適用范圍遠超編程領域。從今日起,開發者可以使用這一SDK構建自己的AI代理應用。

      產品生態系統更新

      配合模型發布,Anthropic同步推出了多項產品功能更新:

      Claude Code獲得了用戶呼聲最高的"檢查點"(checkpoints)功能,允許保存進度并即時回滾到之前狀態。終端界面經過重新設計,并推出了原生VS Code擴展。


      哈哈哈,“推出了原生VS Code擴展”這一點很有趣,說明Claude的AI編程產品形態不止于CLI,而是要開始進入IDE形態了。其實也很像我前段時間所吐槽的那樣

      Claude Code推出后,國內大廠也一窩蜂去做CLI形態的AI編程產品,但是Claude Code強并不代表CLI形態的天然正確。拋棄圖形界面增加了用戶使用門檻,但并沒有真正絕對的先進性,這不,Claude 也要開始重新覆蓋具備圖形界面的IDE插件這種產品形態,我估計離Claude原生AI IDE也不遠了。

      ClaudeAPI新增了上下文編輯功能和內存工具,使代理能夠運行更長時間并處理更高復雜度的任務。

      Claude應用中直接集成了代碼執行和文件創建能力,支持電子表格、幻燈片和文檔的生成。

      Claude for Chrome擴展向上月加入等候名單的Max用戶開放。該擴展利用了模型升級后的計算機使用能力,可以直接在瀏覽器中導航網站、填寫表格并完成任務。

      "Imagine with Claude"研究預覽

      "Imagine with Claude",Anthropic稱之為臨時研究預覽,用來展示實時軟件生成能力。我覺得算是這次發布里最有趣也最有野心的一個產品了。該實驗中的功能并非預先確定,代碼也非預先編寫,而是由Claude實時創建,根據用戶交互進行響應和適應。

      它提供了一個類似帶輸入框的桌面界面,你可以通過自然語言去生成各類應用。

      比如我試了天氣預報、計算器、游戲、足球比賽實時比分看板等,很特別的是所有功能和界面都是流式生成,在你面前實時展現的。

      而且,很多界面展示還沒功能,會在你點擊操作后,Claude會預測你下一步需要的功能和界面,再做后續的內容/功能生成。我看到了Anthropic有種想再建一個AI native的操作系統的想法。

      這是個很有趣的開始。

      功能鏈接在此,需要Max會員才能用:https://claude.ai/imagine/

      雖然Anthropic這家公司,以及他們的CEO在對華政策上有各種愚蠢的問題。但不得不承認他們的模型在Coding、Agent上的領先性,這次的更新又將會是對AI編程產品和Agent產品不小的洗牌。

      誰對Claude Sonnet 4.5模型的能力有最強的認知,誰能用工程能力把這個模型的能力壓榨透,誰又能在這個新智能的基礎上構建出新形態的產品,還真是無比值得期待。

      而像“Imagine with Claude”這個功能實在是個初級得不能再初級的初代產品,但是它背后又隱藏著顛覆Windows的可能性,我覺得這會是個被重新開拓的新戰場,很高興身處在一個這么有趣的變化時代。

      如果你覺得內容對你有幫助,歡迎點贊、收藏、轉發,這都是我最大的支持~

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      清算開始了!許家印石家莊分印被帶走,涉案1100億

      清算開始了!許家印石家莊分印被帶走,涉案1100億

      壹只灰鴿子
      2026-02-15 16:24:46
      81歲林豆豆現狀:已退休23年,獨居在北京老房子,用閱讀打發時間

      81歲林豆豆現狀:已退休23年,獨居在北京老房子,用閱讀打發時間

      攬星河的筆記
      2025-11-12 12:36:17
      新華社消息|三部門聯合印發意見依法懲治水運物流領域侵犯財產犯罪

      新華社消息|三部門聯合印發意見依法懲治水運物流領域侵犯財產犯罪

      新華社
      2026-02-21 12:21:47
      廣東隊正式集結備戰!王少杰杜潤旺提前歸隊,杜峰制定訓練方法

      廣東隊正式集結備戰!王少杰杜潤旺提前歸隊,杜峰制定訓練方法

      越嶺尋蹤
      2026-02-20 17:05:37
      再拿一金一銅,中國體育代表團4金3銀5銅排在獎牌榜第12位

      再拿一金一銅,中國體育代表團4金3銀5銅排在獎牌榜第12位

      懂球帝
      2026-02-20 22:30:50
      6-3!斯諾克第3席4強誕生:趙心童4連鞭逆轉墨菲,創2大紀錄!

      6-3!斯諾克第3席4強誕生:趙心童4連鞭逆轉墨菲,創2大紀錄!

      劉姚堯的文字城堡
      2026-02-21 00:31:14
      內行人預測:2026年這四大現象或將席卷全國,建議提前應對!

      內行人預測:2026年這四大現象或將席卷全國,建議提前應對!

      朝子亥
      2026-02-20 18:00:03
      一夜爆火!全球缺貨排隊等5年!2026年最被低估的硬核賽道

      一夜爆火!全球缺貨排隊等5年!2026年最被低估的硬核賽道

      時尚的弄潮
      2026-02-21 16:15:47
      退休后的同學聚會,撕開了“體制內”和“體制外”的那層遮羞布

      退休后的同學聚會,撕開了“體制內”和“體制外”的那層遮羞布

      朗威談星座
      2026-02-17 03:51:37
      大廠的“圍爐煮茶”新年禮盒!采購價485元,閑魚只賣80塊

      大廠的“圍爐煮茶”新年禮盒!采購價485元,閑魚只賣80塊

      閑搞機
      2026-02-21 11:00:03
      73歲老太在烈士陵園掃墓,意外發現自己的名字,隨即驚動政府人員

      73歲老太在烈士陵園掃墓,意外發現自己的名字,隨即驚動政府人員

      搜史君
      2026-01-04 18:15:03
      真正決定孩子未來的,不是學區房,不是補習班,而是你家的家風

      真正決定孩子未來的,不是學區房,不是補習班,而是你家的家風

      青蘋果sht
      2026-02-13 06:20:39
      女子除夕夜通過監控看到父親對著空桌獨自吃餃子,第二天與弟弟驅車800公里回家,“回家后爸爸哭了”

      女子除夕夜通過監控看到父親對著空桌獨自吃餃子,第二天與弟弟驅車800公里回家,“回家后爸爸哭了”

      極目新聞
      2026-02-20 22:30:02
      “這下好了,中國怎么可能再買美國大豆?”

      “這下好了,中國怎么可能再買美國大豆?”

      觀察者網
      2026-02-21 13:33:05
      強化學習之父最新演講:大模型是一時狂熱,AI的真正時代還沒開始

      強化學習之父最新演講:大模型是一時狂熱,AI的真正時代還沒開始

      DeepTech深科技
      2026-02-19 20:15:12
      阿爾茨海默病者逐漸增多,醫生提醒:55歲后,盡量改掉6個壞習慣

      阿爾茨海默病者逐漸增多,醫生提醒:55歲后,盡量改掉6個壞習慣

      39健康網
      2026-02-17 18:31:37
      12GB+256GB!新機官宣:3月5日,正式發布

      12GB+256GB!新機官宣:3月5日,正式發布

      科技堡壘
      2026-02-21 11:59:42
      我爸和我二叔十年不說話,我出嫁的前一天,二叔卻把我攔在了村口

      我爸和我二叔十年不說話,我出嫁的前一天,二叔卻把我攔在了村口

      人間百態大全
      2025-12-14 06:45:03
      給人養了7年閑人,廣汽終于要關閉洛杉磯的研發中心

      給人養了7年閑人,廣汽終于要關閉洛杉磯的研發中心

      與車同樂
      2025-12-04 10:05:02
      父親給兩個兒子取了同一個名字:博古之子秦剛傳奇人生與時代印記

      父親給兩個兒子取了同一個名字:博古之子秦剛傳奇人生與時代印記

      老籣說體育
      2026-02-07 11:23:49
      2026-02-21 18:27:00
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      142文章數 64關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      省直機關女工程師陷美男計 拉公職人員丈夫當間諜17年

      頭條要聞

      省直機關女工程師陷美男計 拉公職人員丈夫當間諜17年

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      房產
      親子
      本地
      公開課
      軍事航空

      房產要聞

      窗前即地標!獨占三亞灣C位 自貿港總裁行宮亮相

      親子要聞

      誰能猜出他倆是什么關系?

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      硬核揭秘!福建艦“一馬當先”底氣何在

      無障礙瀏覽 進入關懷版