![]()
作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com
在最近的模型混戰中,不只是中國廠商們在卷,Anthropic也在半個月連續發布了兩款模型。而其中,最近發布的Sonnet 4.6有些特殊,它不是旗艦,卻在多個維度追平甚至超過了旗艦。看起來它用Opus 1/3的價格,就追上了它99%的性能。
在這個各家模型都要干掉Opus的時刻,它自己用性價比款的Sonnet“干掉”Opus,給各位演示了一下,什么才是最卷的模型。
![]()
而且,這款模型非常值得關注的地方是,它讓AI操作電腦這件事第一次接近了“真的能用”的臨界點。而恰好在同一個月,一個叫OpenClaw的開源項目用17萬GitHub星標證明了一件事,人手一個的,能替自己干活的AI Agent,可能成為一個新的趨勢。Sonnet 4.6是模型,OpenClaw是框架,但它們指向同一個方向。
1
便宜的再一次打贏了貴的
在Anthropic的產品線中,Opus是最強最貴的旗艦,Sonnet是平衡性能和成本的中端款,Haiku是最快最便宜的輕量款。長期以來,Sonnet的角色是“性價比之選”,干不了最難的活但勝在便宜。Sonnet 4.6打破了這個格局。
編碼方面,它在SWE-bench Verified上得分79.6%,逼近Opus 4.6的80.8%。Claude Code的內部測試中,用戶70%的時間更偏好Sonnet 4.6(對比Sonnet 4.5),甚至有59%的時間比去年11月發布的旗艦Opus 4.5更受歡迎。用戶反饋集中在幾個方面,“更少過度工程”“更少偷懶”“指令遵循明顯更好”,以及更少出現“明明沒干完卻說干完了”的情況。
辦公任務是更大的驚喜。在GDPval-AA這個衡量真實辦公場景的評測中,Sonnet 4.6拿到1633 Elo,直接超過了Opus 4.6的1606。便宜的在實際工作場景中打贏了貴的。類似的事正在行業里反復發生,Google的Gemini 3 Flash也在逼近Pro的表現,DeepSeek用遠低于美國公司的成本訓練出競爭力相當的模型。“低端逆襲高端”已經不再是新聞,而是2026年AI行業的結構性趨勢。
不過獨立AI評測機構Artificial Analysis注意到了一個有意思的細節,Sonnet 4.6在GDPval-AA上使用的token數量是Sonnet 4.5的約4.5倍。AI媒體Latent Space據此指出,某些任務的總成本可能比Opus還高。這和價格表上的數字講的是兩個故事。
![]()
軟件工程師、AI技術博主Joe Njenga在Medium上第一時間做了測試,他的感受是,“發布才幾天,但Sonnet 4.6已經感覺比Opus更好用了。”Cosmic平臺做了一個控制實驗,用完全相同的一句話提示詞讓4.5和4.6各生成一個博客應用,結論是4.6在設計品味和代碼架構上有質的提升,“需要更少的手把手指導”。編程工具Kilo Code直接把Sonnet 4.6設為默認推薦模型。當然也有負面聲音,發布當天就有用戶報告了函數名幻覺的問題。
價格跟上一代Sonnet 4.5完全一樣,每百萬輸入token 3美元,輸出token 15美元。同時它成了Free和Pro用戶的默認模型,免費用戶還新增了文件創建、skills等功能。但正如上面提到的,“同樣的錢買到更強的模型”不等于“用AI更便宜了”。Extended thinking的token按輸出價格計費,超過200K的長上下文有額外溢價,而Agent場景下動輒成千上萬次工具調用,實際使用成本可能反而在增加。
1
16個月,Computer Use從玩具變工具
Sonnet 4.6還有一個值得單獨拿出來說的進步,就是Computer Use,也就是AI操作電腦的能力。
2024年10月,Anthropic是第一個推出通用計算機操作AI的公司。當時他們自己都承認這個功能“還很實驗性,有時笨拙且容易出錯”,發布時搭載的Claude 3.5 Sonnet在OSWorld評測上只拿到14.9%。能做的事很有限,移動鼠標、點擊按鈕、輸入文字,基本是個勉強能用的遙控器。
之后的每一代Sonnet都在這個維度上進步。到了2025年9月的Sonnet 4.5,成績已經大幅提升。但Sonnet 4.6才是真正讓這項能力從“技術demo”走向“可用工具”的節點。在OSWorld-Verified上,它拿到72.5%,幾乎追平Opus 4.6的72.7%,比16個月前的起點提升了近5倍。
數字背后對應的是質的變化。早期用戶報告說,Sonnet 4.6在操作復雜電子表格、填寫多步驟網頁表單方面已接近人類水平,而且能跨多個瀏覽器標簽頁協同完成任務。在保險行業的基準測試中,Computer Use拿到94%的準確率,是他們測試過的所有模型中最高的。更關鍵的一個改進是可靠性,在他們內部的瀏覽器自動化場景中,Sonnet 4.6產生的幻覺鏈接數量為零,而此前的版本大約三個鏈接中就有一個是假的。
![]()
Claude Sonnet 在 OSWorld 基準上的得分持續提升。
這意味著什么?幾乎每家企業都有一些“前API時代”遺留下來的老舊系統,沒有現代接口,無法自動化。以前要讓AI操作這些軟件,就得給每個系統寫專門的連接器。而一個能像人一樣使用電腦的模型,直接改變了這個等式。科技圈評論者Trung Phan調侃說,Anthropic的demo演示了Claude幫人在DMV網站上續車牌的過程,“但AI還是沒法修好DMV本身。”
1
當人人都有一個JARVIS
Computer Use讓模型能操作電腦,但要變成一個真正幫人干活的AI助手,還需要一層編排框架把模型和現實世界的工具連接起來。這正是過去兩個月AI行業最火熱的戰場。
2月份最熱門的AI項目不是某個大模型,而是OpenClaw。它原名Clawdbot(名字來自Claude和龍蝦鉗的雙關,后因Anthropic商標投訴兩度改名),由奧地利開發者Peter Steinberger從一個WhatsApp機器人做起,幾個月內暴漲到17.9萬GitHub星標。OpenClaw能常駐在用戶的電腦后臺,通過WhatsApp、Slack、iMessage接收指令,幫你管郵件、排日程、訂機票、跑腳本,是目前最接近“鋼鐵俠里的J.A.R.V.I.S.”的有著消費級的愿景和使用場景的產品。IBM研究員Kaoutar El Maghraoui的評價是,OpenClaw證明了自主AI Agent“不限于大企業,可以是社區驅動的”。
OpenClaw火爆的原因,不只是它本身做得好,更因為它戳中了一個被壓抑已久的需求。過去一年,AI聊天機器人已經證明了自己在回答問題和生成內容上的能力,但用戶真正想要的是一個能替自己“做事”的助手,不只是聊天,而是能操作軟件、執行任務、跨應用協調。OpenClaw讓這個需求第一次有了一個具體的、可以跑起來的產品形態。
但OpenClaw也暴露了個人AI Agent面臨的核心矛盾。安全研究人員發現超過13.5萬個暴露在公網上的實例;Cisco檢測了其技能市場排名第一的插件,發現能悄悄將用戶數據發送到攻擊者服務器。Andrej Karpathy最初稱基于OpenClaw開發的Moltbook是“我見過的最科幻的東西”,幾天后說“不建議任何人在自己的電腦上運行它”。一個足夠有用的AI Agent必須擁有足夠大的權限,而足夠大的權限天然帶來足夠大的風險。這個矛盾目前沒有人真正解決。
更值得關注的是OpenClaw對AI行業商業格局的潛在沖擊。OpenClaw是模型無關的,它能跑Claude,也能跑ChatGPT,也能跑開源的Minimax和Kimi。當Agent框架層成為用戶接觸AI的主要入口,底層模型就有被“商品化”的風險,就像Android讓手機硬件品牌競爭變得殘酷一樣。有評論者已經在問,“OpenClaw會不會成為AI時代的Android?”
2月15日,Peter Steinberger加入了OpenAI,Altman親口說“the future is going to be extremely multi-agent”(未來一定是極度多Agent的)。OpenClaw轉型為基金會項目,但它引發的這場關于“誰擁有Agent層”的爭奪才剛開始。
這也是理解Sonnet 4.6的另一把鑰匙。Anthropic的應對策略不是等著被別人的Agent框架調用,而是把Agent能力直接做進模型里。Computer Use、Claude Code、Cowork,都是在構建一個“模型+工具鏈”的捆綁生態。Sonnet 4.6把這些能力下放到中端價格,本質上是在說,你不需要一個第三方框架來讓AI替你干活,用Claude就行。
當然,能力越強意味著風險也越集中。Anthropic在system card中坦承,Sonnet 4.6在GUI操作場景中表現出“過度主動”的行為,比如未經授權發送郵件、過于激進地獲取token,而且這種行為無法通過提示詞完全避免。獨立評測機構Andon Labs在Vending-Bench測試中發現,Sonnet 4.6展現出與Opus 4.6類似的戰略復雜度,包括自發的價格操縱和對競爭對手的欺騙行為。他們的評價是,“幾乎一樣令人印象深刻,也幾乎一樣令人擔憂,而且只要三分之一的價格。”
1
Anthropic路線
把視角拉回Anthropic本身,Sonnet 4.6只是它2月份密集動作的一部分。
2月初,Anthropic在超級碗投放了一組系列廣告,共四條片子,分別叫“Betrayal”“Deception”“Treachery”“Violation”,賽前和賽中各播一條,另兩條在線上流通,直指OpenAI在ChatGPT中加入廣告的決定,slogan是“Ads are coming to AI. But not to Claude.”效果顯著,網站訪問量漲了6.5%,日活用戶增長11%,Claude App沖進了Apple App Store前十。
緊接著,Anthropic宣布完成了300億美元融資,估值達到3800億美元,半年翻了一倍多。年化收入攀升至140億美元,其中Claude Code的年化收入就有25億美元,企業訂閱今年翻了四倍。
![]()
OpenAI的CEO Altman對此不太高興,批評Anthropic的超級碗廣告“明顯不誠實”,說它是“把昂貴產品賣給有錢人”。Anthropic CEO Dario Amodei的稍早一點在達沃斯論壇說自己不需要“跟某個大玩家進行十億免費用戶的死亡競賽”。
這或許暴露了兩家公司在路線上的某種分歧。從公開信息來看,OpenAI更傾向用戶規模路線,免費用戶盡可能多,再通過廣告和增值服務探索變現;它收編OpenClaw創始人,也是在搶占Agent編排層的入口。Anthropic走的看上去更像是生產力工具路線,80%的收入來自企業客戶,核心賣點是coding和agent能力,不做圖片生成,不太追求C端DAU,而是把Agent能力內建到模型本身。Sonnet 4.6讓免費用戶也能使用旗艦級能力,本身就是對“只服務有錢人”這個批評的無聲回應。
有一個數字或許能說明AI Agent能力提升帶來的沖擊,自Anthropic和OpenAI密集發布新模型以來,軟件股已經蒸發了約2萬億美元的市值。投資者正在price in一個可能性,AI Agent對傳統SaaS軟件的替代,可能比所有人預想的都快。
12天兩個模型,兩周三次頭條。這可能會成為2026年AI行業的默認節奏。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.