![]()
機(jī)器之心編輯部
大年初二,海外就開始發(fā)新模型了!
這次是 Anthropic,率先發(fā)布了他們稱之為「我們目前能力最強(qiáng)的 Sonnet 模型」Claude Sonnet 4.6。
![]()
Claude 稱,新模型對編碼、計(jì)算機(jī)使用、長上下文推理、智能體規(guī)劃、知識工作和設(shè)計(jì)進(jìn)行了全面升級。
Beta 版還包含 100 萬 token 的上下文窗口。
在價(jià)格方面,對于免費(fèi)和專業(yè)版用戶,Claude Sonnet 4.6 現(xiàn)已成為 claude.ai 和 Claude Cowork 的默認(rèn)模型。定價(jià)與 Sonnet 4.5 保持一致,仍為每百萬輸入 token 3 美元,每百萬輸出 token 15 美元。
那么具體性如何?在 GDPval-AA 測試中,Claude Sonnet 4.6 甚至略微領(lǐng)先于 Anthropic 剛剛發(fā)布不久的 Opus 4.6。
![]()
接下來,就讓我們仔細(xì)看下技術(shù)博客介紹。
計(jì)算機(jī)使用
2024 年 10 月,Claude 率先推出了通用的計(jì)算機(jī)使用模型。當(dāng)時(shí),這種技術(shù)「仍處于實(shí)驗(yàn)階段 —— 有時(shí)操作繁瑣且容易出錯」。
AI 計(jì)算機(jī)使用的標(biāo)準(zhǔn)基準(zhǔn) OSWorld 展示了 Claude 模型的進(jìn)步程度。該基準(zhǔn)會在模擬計(jì)算機(jī)上運(yùn)行真實(shí)軟件(Chrome、LibreOffice、VS Code 等),設(shè)置數(shù)百項(xiàng)任務(wù)。該基準(zhǔn)也沒有沒有特殊的 API 或?qū)S眠B接器;模型看到計(jì)算機(jī)并與其互動的方式與人非常相似:點(diǎn)擊(虛擬)鼠標(biāo)和在(虛擬)鍵盤上打字。
在過去的十六個月里,Sonnet 模型在 OSWorld 上的性能穩(wěn)步提升。這些改進(jìn)在基準(zhǔn)測試之外也可見一斑:早期的 Sonnet 4.6 用戶在多項(xiàng)任務(wù)(諸如瀏覽復(fù)雜電子表格或填寫多步驟網(wǎng)頁表單)中,看到了達(dá)到人類水平的能力,并且能在多個瀏覽器標(biāo)簽頁中整合處理信息。
當(dāng)然,該模型在使用計(jì)算機(jī)方面仍落后于最熟練的人類。但進(jìn)步的速度依然顯著。這意味著:計(jì)算機(jī)使用的價(jià)值在提升 —— 并且表明能力更強(qiáng)的模型已指日可待。
![]()
圖表比較了多個 Sonnet 模型在 OSWorld 基準(zhǔn)上的得分。注:Claude Sonnet 4.5 之前的得分基于原始 OSWorld 測量;從 Sonnet 4.5 開始使用 OSWorld-Verified。OSWorld-Verified(2025 年 7 月發(fā)布)是原始 OSWorld 基準(zhǔn)的原位升級,對任務(wù)質(zhì)量、評估評分和基礎(chǔ)設(shè)施進(jìn)行了更新。
與此同時(shí),計(jì)算機(jī)使用也帶來了風(fēng)險(xiǎn):惡意行為者可能試圖通過提示注入攻擊,將指令隱藏在網(wǎng)站中來劫持模型。
Anthropic 致力于提高模型抵抗提示注入的能力 —— 其安全評估顯示,與其前代 Sonnet 4.5 相比,Sonnet 4.6 在這方面有重大改進(jìn),表現(xiàn)與 Opus 4.6 相近。
評估 Claude Sonnet 4.6
除了計(jì)算機(jī)使用,Claude Sonnet 4.6 在各項(xiàng)基準(zhǔn)測試中均有提升。它的智能水平接近 Opus 級別,但價(jià)格更實(shí)惠,使其適用于更廣泛的任務(wù)。
![]()
一個表格展示了流行基準(zhǔn)測試中 Sonnet 4.6 與其他前沿模型的相對性能比較。
Anthropic 的早期 Claude Code 測試發(fā)現(xiàn),用戶大約有 70% 的時(shí)間更喜歡 Sonnet 4.6 而非 Sonnet 4.5。
用戶報(bào)告說,它在修改代碼前能更有效地理解上下文,并能整合共享邏輯而非簡單復(fù)制。
相比于 11 月發(fā)布的前沿模型 Opus 4.5,用戶甚至有 59% 的時(shí)間更喜歡 Sonnet 4.6。他們評價(jià) Sonnet 4.6 在過度工程化和「偷懶」方面顯著減少,在指令遵循方面有明顯改進(jìn)。用戶報(bào)告了更少的虛假成功聲明、更少的幻覺,以及在多步驟任務(wù)中更一致的執(zhí)行力。
Sonnet 4.6 的上下文窗口為 100 萬 token,足以在單個請求中容納整個代碼庫、長篇合同或數(shù)十篇研究論文。更重要的是,Sonnet 4.6 能有效地在所有上下文中進(jìn)行推理。這使得它在長程規(guī)劃方面表現(xiàn)更佳。
在 Vending-Bench Arena 評估中特別清晰地看到了這一點(diǎn)。該測試評估模型長期運(yùn)營(模擬)業(yè)務(wù)的能力 —— 并且包含競爭元素,不同 AI 模型相互競爭以獲取最大利潤。
Sonnet 4.6 發(fā)展出一種有趣的新策略:它在模擬的前十個月大力投資于產(chǎn)能,支出遠(yuǎn)超競爭對手,然后在最后階段急劇轉(zhuǎn)向?qū)W⒂谟芰Α_@一轉(zhuǎn)向的時(shí)機(jī)使其最終遠(yuǎn)遠(yuǎn)領(lǐng)先于競爭對手。
![]()
圖表顯示 Sonnet 4.6 在 Vending-Bench Arena 上優(yōu)于 Sonnet 4.5:通過早期投資產(chǎn)能,然后在最后階段轉(zhuǎn)向盈利。
Claude Sonnet 4.6 已經(jīng)向哪些用戶開放?
Claude Sonnet 4.6 現(xiàn)已面向所有 Claude 套餐、Claude Cowork、Claude Code、API 以及所有主流云平臺開放。Anthropic 也已將免費(fèi)套餐默認(rèn)升級至 Sonnet 4.6 版本 —— 現(xiàn)在包含文件創(chuàng)建、連接器、技能和壓縮功能。
如果你是開發(fā)者,也可以通過 Claude API 快速開始使用 claude-sonnet-4-6。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.