網易首頁 > 網易號 > 正文申請入駐

Anthropic又“踢館”！Sonnet 4.6操作電腦接近人類，性能堪比旗艦模型、定價僅1/5

2026-02-18 03:39:43　來源: 華爾街見聞官方

上海舉報

分享至

繼發布新旗艦模型Claude Opus 4.6后不到兩周，OpenAI的勁敵Anthropic于再次推出重磅產品Claude Sonnet 4.6，以中端的價格提供接近旗艦級模型的智能水平，這對AI行業構成了一次重大的定價格局重塑。

美東時間2月17日周三，Anthropic官宣發布Claude Sonnet 4.6，新模型在編程、操作電腦、長文本推理、智能體規劃、知識工作和設計等方面實現全面升級，定價與前代Sonnet 4.5相同，仍為每百萬token輸入3美元、輸出15美元，但據稱性能已接近定價為每百萬token輸入15美元、輸出75美元的旗艦Opus模型，且定價卻只有后者的五分之一。

對于每天進行數百萬次API調用的企業部署AI智能體而言，這一成本性能比的改變具有變革意義。在操作電腦能力方面，Sonnet 4.6在標準基準測試OSWorld上得分達72.5%，不到一年半時間提升到接近人類水平。在早期測試中，開發者在約七成情況下更偏好Sonnet 4.6而非前代，甚至在近六成的情況下更偏好它，而非去年11月發布的Anthropic旗艦模型Opus 4.5。

此次發布正值Anthropic加速進軍企業市場。據報道，Anthropic上周五剛以3800億美元估值完成300億美元的新融資，估值較去年9月翻倍。同在本周三，印度IT巨頭Infosys宣布與Anthropic合作，將Claude模型整合至其Topaz AI平臺，用于銀行、電信和制造業。Anthropic還在班加羅爾開設了首個印度辦事處。

操作電腦能力16個月提升五倍接近人類水平

新模型再次證明，Anthropic在操作計算機的能力上進步尤為顯著。

2024年10月首次推出這一功能時，Anthropic曾坦承“仍處于實驗階段——有時笨拙且容易出錯”。此后的數據顯示，該司的模型進步速度驚人：Sonnet 3.5在2024年10月的OSWorld基準測試中得分14.9%，Sonnet 3.7在2025年2月達到28.0%，Sonnet 4在同年6月達到42.2%，Sonnet 4.5在同年10月攀升至61.4%，本周三發布的Sonnet 4.6已達到72.5%。

OSWorld基準測試在模擬計算機上呈現數百項跨越Chrome、LibreOffice、VS Code等真實軟件的任務，沒有特殊API或專用連接器，模型像人類一樣通過點擊虛擬鼠標和虛擬鍵盤與計算機交互。Anthropic表示，該模型能夠處理導航復雜電子表格或填寫多步驟網頁表單等任務，然后在多個瀏覽器標簽頁間整合信息。

這一能力對企業應用至關重要。幾乎每個組織都有難以自動化的遺留軟件——保險門戶網站、政府數據庫、企業資源規劃系統、醫院排班工具——這些都是在API出現之前構建的。一個能夠像人一樣查看屏幕并與之交互的模型，無需構建定制連接器就能實現這些系統的自動化。

Pace的CEO Jamie Cuffe表示，Sonnet 4.6在該公司復雜的保險計算機使用基準測試中達到94%的準確率，是所有Claude模型中表現最好的。Cuffe說：“它以我們從未見過的方式進行故障推理和自我糾正。”

Convey聯合創始人Will Harvey稱其為"我們在評估中測試過的所有模型中的明確改進"。

Anthropic還指出，計算機操作存在提示注入攻擊風險——惡意行為者在網站上隱藏指令以劫持模型。該公司的評估顯示，Sonnet 4.6在抵御此類攻擊方面較Sonnet 4.5有重大改進。

編程能力大幅提升開發者偏好度超前代旗艦

在Claude Code中，Anthropic的早期測試發現，開發者在約70%的情況下更偏好Sonnet 4.6而非Sonnet 4.5。用戶報告稱，新模型在修改代碼前更有效地讀取上下文，合并共享邏輯而非重復，這使得它在長時間使用時比早期模型更不令人沮喪。

用戶甚至在59%的情況下更偏好Sonnet 4.6而非去年11月的旗艦模型Opus 4.5。他們評價Sonnet 4.6顯著降低了過度工程化和"懶惰"傾向，在指令遵循方面明顯更好。他們報告稱虛假成功聲明更少，幻覺更少，多步驟任務的持續執行更一致。

早期客戶反饋突出了前端代碼和金融分析方面的改進。多位測試者獨立描述稱，Sonnet 4.6的視覺輸出明顯更精致，布局、動畫和設計感都優于以前的模型。客戶達到生產質量結果所需的迭代輪數也更少。

基準測試中，Sonnet 4.6甚至可以和最新的Anthropic旗艦模型Opus 4.6比肩。

在行業標準的軟件實際編碼測試SWE-bench Verified中，Sonnet 4.6的得分為79.6%，接近Opus 4.6的80.8%。在模擬計算機使用的OSWorld-Verified測試中，Sonnet 4.6的得分為72.5%，與Opus 4.6的72.7%基本持平。

在辦公任務GDPval-AA Elo測試中，Sonnet 4.6的得分高達1633，遠超Opus 4.6的1606。在模擬財務分析的測試中，Sonnet 4.6的得分達到63.3%，擊敗了所有對比模型，包括得分為60.1%的Opus 4.6。

AI編程神器Cursor的聯合創始人兼CEO Michael Truell表示：“Claude Sonnet 4.6在各方面都顯著優于Sonnet 4.5，包括長期任務和更困難的問題。”

GitHub產品副總裁Joe Binder證實，該模型“已經在復雜代碼修復方面表現出色，尤其是在跨大型代碼庫搜索至關重要時。對于大規模運行智能體編程的團隊，我們看到了強勁的解決率和開發者所需的一致性。”

CodeRabbit AI副總裁David Loker稱該模型“在絕大多數實際PR中遠超其重量級”。

Factory AI的Leo Tchourakov表示團隊“正在將Sonnet流量轉移到這個模型”。Hercules創始人兼CEO Brendan Falk更直言：“Claude Sonnet 4.6是我們迄今見過的最好模型。它具有Opus 4.6級別的準確性、指令遵循和用戶界面，而成本顯著更低。”

中端價格提供旗艦性能，大規模部署成本銳減

Sonnet 4.6的定價策略是此次發布最重要的看點。定價維持在每百萬token輸入3美元、輸出15美元，與前代Sonnet 4.5相同。而Anthropic的旗艦Opus模型定價為每百萬token輸入15美元、輸出75美元——是Sonnet價格的五倍。

Anthropic稱，以前需要使用Opus級模型才能達到的性能——包括在實際具有經濟價值的辦公任務上——現在通過Sonnet 4.6即可獲得。對于目前部署每天進行數百萬次API調用的AI智能體的數千家企業而言，這一成本計算改變了一切。

據報道，在許多企業最關心的類別中，Sonnet 4.6的表現匹配甚至超越了運行成本高出五倍的模型。一家運行每天處理1000萬token的AI智能體的企業，以前被迫在較低成本的劣質結果和快速擴大支出的優質結果之間選擇。Sonnet 4.6在很大程度上消除了這種權衡。

多位早期測試者明確描述Sonnet 4.6消除了使用更昂貴Opus層級的必要性。

Hex Technologies首席技術官Caitlin Colgrove表示，該公司正將大部分流量轉移到Sonnet 4.6，指出“除了最困難的分析任務外，我們在所有任務上都看到了Opus級別的性能，且具有更高效和靈活的配置。在Sonnet定價下，這對我們的工作負載是顯而易見的選擇。”

智能內容管理平臺Box的首席技術官Ben Kus表示，該模型在真實企業文檔的重度推理問答中比Sonnet 4.5高出15個百分點。Replit的總裁Michele Catasta稱性能成本比“非凡”。

金融科技公司Mercury的產品副總裁Ryan Wiggins更直白地說：“Claude Sonnet 4.6更快、更便宜，而且更有可能第一次就搞定。這種改進組合令人驚訝，我們沒想到會在這個價位看到它。”

百萬token上下文窗口實現長期戰略規劃

Sonnet 4.6配備100萬token的上下文窗口（測試版），足以在單個請求中容納整個代碼庫、冗長合同或數十篇研究論文。更重要的是，Anthropic稱該模型能夠有效地跨所有上下文進行推理。

該公司通過一項不尋常的評估展示了這一能力。Vending-Bench Arena測試模型長期運營模擬業務的能力，不同AI模型相互競爭以獲得最大利潤。在沒有人工提示的情況下，Sonnet 4.6開發出一種新穎策略：它在前十個模擬月中大量投資產能，支出顯著高于競爭對手，然后在最后階段急劇轉向專注盈利。該模型在365天模擬結束時約有5700美元余額，而Sonnet 4.5約為2100美元。

這種自主執行的多月戰略規劃代表著一種質的不同能力，超越了回答問題或生成代碼片段。這是使AI智能體適用于實際業務運營的長期推理類型。

Claude Sonnet 4.6現已在所有Claude計劃、Claude Cowork、Claude Code、API和所有主要云平臺上提供。Anthropic還將其免費層級默認升級為Sonnet 4.6。開發者可以通過Claude API使用claude-sonnet-4-6立即訪問。

激烈競爭背景下的快速發布節奏

Sonnet 4.6的發布正值AI行業激烈競爭時期。這是Anthropic在不到兩周內的第二次重大AI模型發布，體現了在行業中保持競爭力所需的快節奏開發。Anthropic在12天前剛剛推出了Claude Opus 4.6。

Anthropic的快速進展也加速了軟件股近期的大規模拋售。投資者越來越擔心AI可能顛覆這些業務，iShares擴展科技軟件行業ETF今年以來已暴跌逾20%。Sonnet 4.6不太可能緩解這些擔憂，因為Anthropic表示該模型將為更多用戶帶來"大幅改進的編程技能"。

Anthropic近期推出的新工具進展引發華爾街擔憂，投資者尤其擔心一批軟件公司最終可能被AI淘汰。Anthropic發布的新版Opus模型旨在更好地進行財務研究后，金融服務類股也大幅下跌。這些反應反映了人們對哪些公司和服務最終將被AI顛覆的廣泛擔憂。

Anthropic CEO Dario Amodei本周三表示，“在演示中有效的AI模型與在受監管行業中有效的模型之間存在巨大差距”，其企業AI解決方案的合作方Infosys幫助彌合了這一差距。報道稱，印度目前約占全球Claude使用量的6%，僅次于美國。

在競爭格局中，Sonnet 4.6在多個基準測試中超越了Google的Gemini 3 Pro和OpenAI的GPT-5.2。

GPT-5.2和Sonnet 4.6在智能體計算機使用、智能體搜索和智能體金融分析方面的測試結果對比分別為：38.2%對72.5%、77.9%對74.7%、59.0%對63.3%。其中，遜于GPT-5.2的一項采用的是Sonnet 4.6非Pro 版本的得分。

Gemini 3 Pro在視覺推理和多語言基準測試上表現競爭力，但在企業投資激增的智能體類別上落后。

據報道，OpenAI也在與投資者進行融資談判，融資額可能接近1000億美元。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.