![]()
距離ClaudeOpus 4.6的發布僅過去12天,Anthropic就發布了新的中檔模型Claude Sonnet 4.6。
這次發布的核心不在于技術突破本身,而在于它以低得多的價格,達到了與競品齊平的性能。。
Sonnet 4.6的定價保持在每百萬token輸入3美元、輸出15美元,與前代 Sonnet 4.5相同。
然而在多項基準測試中,Sonnet 4.6接近甚至超越了價格高出五倍的Opus 4.6。
Anthropic表示,便宜不一定就沒有好貨。
當然了,在一些關鍵的測試里,仍然還是Opus 4.6領先。
具體表現如何呢?
01
Sonnet 4.6究竟有多驚艷?
在SWE-bench Verified這個衡量真實軟件編碼能力的基準測試中,Sonnet 4.6得分79.6%,幾乎追平Opus 4.6的 80.8%,同時略微領先于OpenAI的GPT-5.2。
在代理式金融分析任務中,Sonnet 4.6以63.3%的成績領先所有競爭對手,包括Opus 4.6的60.1%和GPT-5.2的59.0%。
在辦公任務的GDPval-AA Elo評分中,Sonnet 4.6達到 1633 分,超過Opus 4.6的1606分和GPT-5.2的1462分。
過去需要旗艦模型才能完成的任務,現在用Sonnet 4.6這種中檔模型就能做到。
對于每天需要處理數百萬token的企業來說,這意味著可以大幅節省成本。
Opus 4.6仍然在某些高復雜度領域保持優勢。
在終端編碼任務Terminal-Bench 2.0中,Opus 4.6得分65.4%,Sonnet 4.6為59.1%。
在代理式搜索BrowseComp中,Opus 4.6達到84.0%, Sonnet 4.6為74.7%。
在新穎問題解決測試ARC-AGI-2中,Opus 4.6得分68.8%,Sonnet 4.6為58.3%。
![]()
這些差距表明,對于前沿研究和需要頂級準確度的場景,Opus 4.6仍是最好的模型。但對于大多數生產環境,這個差距已經縮小到可以接受的程度。
Sonnet 4.6最引人注目的進步出現在計算機使用能力上。在OSWorld-Verified基準測試中,它得分72.5%,高于Sonnet 4.5的61.4%,遠超GPT-5.2的38.2%。
計算機使用能力指的是AI像人類一樣操作計算機的能力,通過鼠標點擊、鍵盤輸入來與軟件交互,而不依賴API接口。
前一陣引發熱議的豆包手機助手,其底層的UI-TARS模型,就是在OSWorld基準上完成了權威測試,取得了47.5%的成績。
豆包手機助手的表現是非常出色的,已經能夠完成除了支付以外所有的操作。
那么以此作為判斷依據,進而不難推測,Sonnet 4.6的實際表現將會非常驚艷。
這項能力之所以重要,是因為它打開了最廣泛的企業應用場景。
一個能夠直接看屏幕并與之交互的模型,可以在不構建定制連接器的情況下,自動操作將所有可交互的系統。
Anthropic在發布時提到,早期用戶已經看到接近人類水平的表現,能夠完成復雜的電子表格任務和多步驟網頁表單。
保險科技公司Pace的CEO賈米·考夫(Jamie Cuffe)表示,Sonnet 4.6在他們復雜的保險計算機使用基準測試中達到94%的成績,是所有測試過的Claude模型中最高的。
他說:“它以我們之前未見過的方式推理失敗原因并自我糾正。”
惡意行為者可能在網頁中隱藏指令來劫持模型,這被稱為提示注入攻擊。
Anthropic在公告中表示,Sonnet 4.6在抵御此類攻擊方面比Sonnet 4.5有重大改進。
對于部署需要瀏覽網頁和與外部系統交互的代理的企業來說,這種安全防護是必須的。
02
價格只要五分之一
那么Sonnet 4.6到底有多便宜呢?
外媒報道,一些早期的Sonnet 4.6用戶表示,原本企業需要花五倍的錢才能買到的能力,現在用Sonnet 4.6就能獲得差不多的效果。
這意味著運營成本可能直接降到原來的五分之一,而工作質量幾乎不受影響。
數據分析平臺Hex Technologies的CTO,同時也是Anthropic聯合創始人、首席產品官的凱特琳-科爾格羅夫 (Caitlin Colgrove)說,公司正在將大部分流量遷移到Sonnet 4.6。
她指出通過自適應思考和高努力模式(high effort mode),“除了最困難的分析任務外,我們在所有任務上都看到了Opus級別的性能,且配置更高效靈活。以Sonnet的價格,這將降低工作成本。”
云存儲公司Box的CTO本·喀什(Ben Kus)表示,Sonnet 4.6在真實企業文檔的重度推理問答中,比Sonnet 4.5的表現提高了15個百分點。
Sonnet 4.6配備了100萬token的超長上下文窗口,以容納整個代碼庫、法律文件或數十篇研究論文。
Anthropic聲稱模型能夠在整個上下文中有效推理,并通過Vending-Bench Arena這個基準測試來表現出Sonnet 4.6的有效推理。
Vending-Bench Arena測試的是模型運營模擬企業的能力,不同AI模型相互競爭以獲得最大利潤。
![]()
在沒有人類提示的情況下,Sonnet 4.6發展出一種新穎策略:在前十個模擬月份中大量投資產能,支出遠超競爭對手,然后在最后階段急轉彎專注于盈利能力。
模型在365天模擬結束時的余額約為5700美元,而Sonnet 4.5約為2100美元。
03
Anthropic開啟印度市場
Anthropic正處于上市前最關鍵的階段,因此他們不止要發布模型,還要借著模型去擴張業務。
在Sonnet 4.6發布當天,印度IT巨頭Infosys宣布與Anthropic合作,構建企業級agent,將Claude模型集成到Infosys的Topaz AI平臺中,服務于銀行、電信和制造業。
與此同時,Anthropic也在印度的班加羅爾開設了首個印度辦事處,印度現在占全球Claude使用量的約6%,僅次于美國。
Anthropic的進步也導致了最近幾天軟件股的大規模拋售,就連業績大漲的微軟,也經歷了股價暴跌。
投資者越來越擔心AI對這些業務的潛在顛覆,Sonnet 4.6可能會加劇這種不安的氛圍。
也不知道是不是Anthropic飄了,他們還將其免費層級默認升級到了Sonnet 4.6,開發者可以通過Claude API直接調用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.