網易首頁 > 網易號 > 正文申請入駐

Sonnet 4.6：Anthropic 最卷的模型，不惜“逼死”自家Opus

2026-02-19 10:13:06　來源: 硅星人

北京舉報

分享至

作者｜周一笑
郵箱｜ zhouyixiao@pingwest.com

在最近的模型混戰中，不只是中國廠商們在卷，Anthropic也在半個月連續發布了兩款模型。而其中，最近發布的Sonnet 4.6有些特殊，它不是旗艦，卻在多個維度追平甚至超過了旗艦。看起來它用Opus 1/3的價格，就追上了它99%的性能。

在這個各家模型都要干掉Opus的時刻，它自己用性價比款的Sonnet“干掉”Opus，給各位演示了一下，什么才是最卷的模型。

而且，這款模型非常值得關注的地方是，它讓AI操作電腦這件事第一次接近了“真的能用”的臨界點。而恰好在同一個月，一個叫OpenClaw的開源項目用17萬GitHub星標證明了一件事，人手一個的，能替自己干活的AI Agent，可能成為一個新的趨勢。Sonnet 4.6是模型，OpenClaw是框架，但它們指向同一個方向。

便宜的再一次打贏了貴的

在Anthropic的產品線中，Opus是最強最貴的旗艦，Sonnet是平衡性能和成本的中端款，Haiku是最快最便宜的輕量款。長期以來，Sonnet的角色是“性價比之選”，干不了最難的活但勝在便宜。Sonnet 4.6打破了這個格局。

編碼方面，它在SWE-bench Verified上得分79.6%，逼近Opus 4.6的80.8%。Claude Code的內部測試中，用戶70%的時間更偏好Sonnet 4.6（對比Sonnet 4.5），甚至有59%的時間比去年11月發布的旗艦Opus 4.5更受歡迎。用戶反饋集中在幾個方面，“更少過度工程”“更少偷懶”“指令遵循明顯更好”，以及更少出現“明明沒干完卻說干完了”的情況。

辦公任務是更大的驚喜。在GDPval-AA這個衡量真實辦公場景的評測中，Sonnet 4.6拿到1633 Elo，直接超過了Opus 4.6的1606。便宜的在實際工作場景中打贏了貴的。類似的事正在行業里反復發生，Google的Gemini 3 Flash也在逼近Pro的表現，DeepSeek用遠低于美國公司的成本訓練出競爭力相當的模型。“低端逆襲高端”已經不再是新聞，而是2026年AI行業的結構性趨勢。

不過獨立AI評測機構Artificial Analysis注意到了一個有意思的細節，Sonnet 4.6在GDPval-AA上使用的token數量是Sonnet 4.5的約4.5倍。AI媒體Latent Space據此指出，某些任務的總成本可能比Opus還高。這和價格表上的數字講的是兩個故事。

軟件工程師、AI技術博主Joe Njenga在Medium上第一時間做了測試，他的感受是，“發布才幾天，但Sonnet 4.6已經感覺比Opus更好用了。”Cosmic平臺做了一個控制實驗，用完全相同的一句話提示詞讓4.5和4.6各生成一個博客應用，結論是4.6在設計品味和代碼架構上有質的提升，“需要更少的手把手指導”。編程工具Kilo Code直接把Sonnet 4.6設為默認推薦模型。當然也有負面聲音，發布當天就有用戶報告了函數名幻覺的問題。

價格跟上一代Sonnet 4.5完全一樣，每百萬輸入token 3美元，輸出token 15美元。同時它成了Free和Pro用戶的默認模型，免費用戶還新增了文件創建、skills等功能。但正如上面提到的，“同樣的錢買到更強的模型”不等于“用AI更便宜了”。Extended thinking的token按輸出價格計費，超過200K的長上下文有額外溢價，而Agent場景下動輒成千上萬次工具調用，實際使用成本可能反而在增加。

16個月，Computer Use從玩具變工具

Sonnet 4.6還有一個值得單獨拿出來說的進步，就是Computer Use，也就是AI操作電腦的能力。

2024年10月，Anthropic是第一個推出通用計算機操作AI的公司。當時他們自己都承認這個功能“還很實驗性，有時笨拙且容易出錯”，發布時搭載的Claude 3.5 Sonnet在OSWorld評測上只拿到14.9%。能做的事很有限，移動鼠標、點擊按鈕、輸入文字，基本是個勉強能用的遙控器。

之后的每一代Sonnet都在這個維度上進步。到了2025年9月的Sonnet 4.5，成績已經大幅提升。但Sonnet 4.6才是真正讓這項能力從“技術demo”走向“可用工具”的節點。在OSWorld-Verified上，它拿到72.5%，幾乎追平Opus 4.6的72.7%，比16個月前的起點提升了近5倍。

數字背后對應的是質的變化。早期用戶報告說，Sonnet 4.6在操作復雜電子表格、填寫多步驟網頁表單方面已接近人類水平，而且能跨多個瀏覽器標簽頁協同完成任務。在保險行業的基準測試中，Computer Use拿到94%的準確率，是他們測試過的所有模型中最高的。更關鍵的一個改進是可靠性，在他們內部的瀏覽器自動化場景中，Sonnet 4.6產生的幻覺鏈接數量為零，而此前的版本大約三個鏈接中就有一個是假的。

Claude Sonnet 在 OSWorld 基準上的得分持續提升。

這意味著什么？幾乎每家企業都有一些“前API時代”遺留下來的老舊系統，沒有現代接口，無法自動化。以前要讓AI操作這些軟件，就得給每個系統寫專門的連接器。而一個能像人一樣使用電腦的模型，直接改變了這個等式。科技圈評論者Trung Phan調侃說，Anthropic的demo演示了Claude幫人在DMV網站上續車牌的過程，“但AI還是沒法修好DMV本身。”

當人人都有一個JARVIS

Computer Use讓模型能操作電腦，但要變成一個真正幫人干活的AI助手，還需要一層編排框架把模型和現實世界的工具連接起來。這正是過去兩個月AI行業最火熱的戰場。

2月份最熱門的AI項目不是某個大模型，而是OpenClaw。它原名Clawdbot（名字來自Claude和龍蝦鉗的雙關，后因Anthropic商標投訴兩度改名），由奧地利開發者Peter Steinberger從一個WhatsApp機器人做起，幾個月內暴漲到17.9萬GitHub星標。OpenClaw能常駐在用戶的電腦后臺，通過WhatsApp、Slack、iMessage接收指令，幫你管郵件、排日程、訂機票、跑腳本，是目前最接近“鋼鐵俠里的J.A.R.V.I.S.”的有著消費級的愿景和使用場景的產品。IBM研究員Kaoutar El Maghraoui的評價是，OpenClaw證明了自主AI Agent“不限于大企業，可以是社區驅動的”。

OpenClaw火爆的原因，不只是它本身做得好，更因為它戳中了一個被壓抑已久的需求。過去一年，AI聊天機器人已經證明了自己在回答問題和生成內容上的能力，但用戶真正想要的是一個能替自己“做事”的助手，不只是聊天，而是能操作軟件、執行任務、跨應用協調。OpenClaw讓這個需求第一次有了一個具體的、可以跑起來的產品形態。

但OpenClaw也暴露了個人AI Agent面臨的核心矛盾。安全研究人員發現超過13.5萬個暴露在公網上的實例；Cisco檢測了其技能市場排名第一的插件，發現能悄悄將用戶數據發送到攻擊者服務器。Andrej Karpathy最初稱基于OpenClaw開發的Moltbook是“我見過的最科幻的東西”，幾天后說“不建議任何人在自己的電腦上運行它”。一個足夠有用的AI Agent必須擁有足夠大的權限，而足夠大的權限天然帶來足夠大的風險。這個矛盾目前沒有人真正解決。

更值得關注的是OpenClaw對AI行業商業格局的潛在沖擊。OpenClaw是模型無關的，它能跑Claude，也能跑ChatGPT，也能跑開源的Minimax和Kimi。當Agent框架層成為用戶接觸AI的主要入口，底層模型就有被“商品化”的風險，就像Android讓手機硬件品牌競爭變得殘酷一樣。有評論者已經在問，“OpenClaw會不會成為AI時代的Android？”

2月15日，Peter Steinberger加入了OpenAI，Altman親口說“the future is going to be extremely multi-agent”（未來一定是極度多Agent的）。OpenClaw轉型為基金會項目，但它引發的這場關于“誰擁有Agent層”的爭奪才剛開始。

這也是理解Sonnet 4.6的另一把鑰匙。Anthropic的應對策略不是等著被別人的Agent框架調用，而是把Agent能力直接做進模型里。Computer Use、Claude Code、Cowork，都是在構建一個“模型+工具鏈”的捆綁生態。Sonnet 4.6把這些能力下放到中端價格，本質上是在說，你不需要一個第三方框架來讓AI替你干活，用Claude就行。

當然，能力越強意味著風險也越集中。Anthropic在system card中坦承，Sonnet 4.6在GUI操作場景中表現出“過度主動”的行為，比如未經授權發送郵件、過于激進地獲取token，而且這種行為無法通過提示詞完全避免。獨立評測機構Andon Labs在Vending-Bench測試中發現，Sonnet 4.6展現出與Opus 4.6類似的戰略復雜度，包括自發的價格操縱和對競爭對手的欺騙行為。他們的評價是，“幾乎一樣令人印象深刻，也幾乎一樣令人擔憂，而且只要三分之一的價格。”

Anthropic路線

把視角拉回Anthropic本身，Sonnet 4.6只是它2月份密集動作的一部分。

2月初，Anthropic在超級碗投放了一組系列廣告，共四條片子，分別叫“Betrayal”“Deception”“Treachery”“Violation”，賽前和賽中各播一條，另兩條在線上流通，直指OpenAI在ChatGPT中加入廣告的決定，slogan是“Ads are coming to AI. But not to Claude.”效果顯著，網站訪問量漲了6.5%，日活用戶增長11%，Claude App沖進了Apple App Store前十。

緊接著，Anthropic宣布完成了300億美元融資，估值達到3800億美元，半年翻了一倍多。年化收入攀升至140億美元，其中Claude Code的年化收入就有25億美元，企業訂閱今年翻了四倍。

OpenAI的CEO Altman對此不太高興，批評Anthropic的超級碗廣告“明顯不誠實”，說它是“把昂貴產品賣給有錢人”。Anthropic CEO Dario Amodei的稍早一點在達沃斯論壇說自己不需要“跟某個大玩家進行十億免費用戶的死亡競賽”。

這或許暴露了兩家公司在路線上的某種分歧。從公開信息來看，OpenAI更傾向用戶規模路線，免費用戶盡可能多，再通過廣告和增值服務探索變現；它收編OpenClaw創始人，也是在搶占Agent編排層的入口。Anthropic走的看上去更像是生產力工具路線，80%的收入來自企業客戶，核心賣點是coding和agent能力，不做圖片生成，不太追求C端DAU，而是把Agent能力內建到模型本身。Sonnet 4.6讓免費用戶也能使用旗艦級能力，本身就是對“只服務有錢人”這個批評的無聲回應。

有一個數字或許能說明AI Agent能力提升帶來的沖擊，自Anthropic和OpenAI密集發布新模型以來，軟件股已經蒸發了約2萬億美元的市值。投資者正在price in一個可能性，AI Agent對傳統SaaS軟件的替代，可能比所有人預想的都快。

12天兩個模型，兩周三次頭條。這可能會成為2026年AI行業的默認節奏。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.