大年初二,祝大家新年好
然后,Anthropic 今天發(fā)布了 Claude Sonnet 4.6
編碼、Computer Use、長上下文推理、Agent 規(guī)劃、知識工作、設計,全線升級。上下文窗口拉到 100 萬 token(beta)。價格沒變,還是 $3/$15 每百萬 token,跟 Sonnet 4.5 一樣
![]()
模型價格對比
Free 和 Pro 用戶現(xiàn)在打開 claude.ai 和 Claude Cowork,默認模型已經(jīng)換成 Sonnet 4.6 了
到底強多少
Anthropic 在 Claude Code 里做了內(nèi)測,用戶 70% 的時候更喜歡 Sonnet 4.6 而不是 Sonnet 4.5
更狠的數(shù)據(jù)是,用戶拿它跟去年 11 月發(fā)的旗艦模型 Opus 4.5 比,59% 的時候更喜歡 Sonnet 4.6
內(nèi)測用戶的反饋集中在幾個點:修改代碼之前會先好好讀上下文,會主動合并重復邏輯而不是到處復制粘貼,長時間使用不那么讓人抓狂了。過度工程化和「偷懶」的情況明顯少了,instruction following 好了一截。虛報完成、幻覺、多步任務半途而廢的情況都在減少
![]()
Sonnet 4.6 benchmark 對比
基準測試上,Sonnet 4.6 全面接近 Opus 級別的智力水平。前端代碼和金融分析是客戶反饋里提升最突出的兩個方向,多個客戶獨立地說視覺輸出更精致了,布局、動畫、設計感都比之前的模型好,迭代輪次也少了
100 萬 token 上下文
1M token 的上下文窗口能裝下整個代碼庫、長合同、幾十篇論文
但關鍵不只是能裝,是裝進去之后還能有效推理。Anthropic 拿 Vending-Bench Arena 測了一下,這個評測讓模型去經(jīng)營一家(模擬的)公司,不同 AI 模型之間還會互相競爭
Sonnet 4.6 搞出了一個有意思的策略:前 10 個模擬月大量投入產(chǎn)能,花得比競爭對手多很多,然后在最后階段急轉彎聚焦盈利。靠這個時間差,最終利潤遠超其他模型
![]()
Vending-Bench Arena 策略對比圖 Computer Use
2024 年 10 月 Anthropic 首發(fā)通用 Computer Use 的時候,自己都說「還是實驗性的,用起來有時候笨手笨腳還容易出錯」
16 個月過去了,OSWorld 基準測試(讓模型在真實軟件環(huán)境里完成任務,用的是 Chrome、LibreOffice、VS Code 這些,沒有特殊 API,就是看屏幕、點鼠標、打字)上,Sonnet 系列模型的分數(shù)一路在漲
![]()
OSWorld 分數(shù)趨勢
早期用戶反饋,在操作復雜電子表格、填寫多步驟網(wǎng)頁表單、跨多個瀏覽器標簽頁協(xié)同這些任務上,Sonnet 4.6 已經(jīng)接近人類水平了
安全方面,Computer Use 最大的風險是 prompt injection,惡意網(wǎng)站藏指令讓模型執(zhí)行。Sonnet 4.6 在抵御 prompt injection 上比 Sonnet 4.5 有大幅提升,跟 Opus 4.6 水平接近
平臺更新
API 側,Sonnet 4.6 同時支持 adaptive thinking 和 extended thinking,context compaction(beta)可以在對話接近上限時自動壓縮舊上下文
Claude 的 web search 和 fetch 工具現(xiàn)在會自動寫代碼來過濾和處理搜索結果,只保留相關內(nèi)容在上下文里。code execution、memory、programmatic tool calling、tool search、tool use examples 這幾個功能正式 GA 了
Claude in Excel 插件現(xiàn)在支持 MCP connectors,可以在 Excel 里直接調用 S&P Global、LSEG、Daloopa、PitchBook、Moody's、FactSet 這些工具。如果你在 claude.ai 已經(jīng)配好了 MCP connectors,Excel 里直接能用。Pro、Max、Team、Enterprise 計劃可用
Anthropic 的建議是,extended thinking 關掉的情況下 Sonnet 4.6 表現(xiàn)也很好,可以根據(jù)具體場景調整 thinking effort 找到速度和質量的平衡點。需要最深度推理的任務(代碼庫重構、多 Agent 協(xié)調、對精度要求極高的場景),Opus 4.6 仍然是更好的選擇
怎么用
所有 Claude 計劃、Claude Cowork、Claude Code、API、各大云平臺,現(xiàn)在都能用
免費版也升級到 Sonnet 4.6 了,還帶上了 file creation、connectors、skills 和 compaction
開發(fā)者用 API 調用的模型名是 claude-sonnet-4-6
安全評估方面,Anthropic 的安全研究員對 Sonnet 4.6 的總結是:整體跟其他近期 Claude 模型一樣安全或者更安全,性格溫和、誠實、親社會,偶爾還挺有趣,安全行為很強,沒有發(fā)現(xiàn)重大的高風險 misalignment 跡象
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.