網易首頁 > 網易號 > 正文申請入駐

Anthropic半月兩發(fā)新模型 “史上最強Sonnet”劍指智能體定價僅為旗艦五分之一

2026-02-18 12:00:10　來源: 科創(chuàng)板日報

上海舉報

分享至

《科創(chuàng)板日報》2月18日訊（編輯宋子喬） 北京時間2月18日凌晨，Anthropic悄然發(fā)布了其新一代中型模型Claude Sonnet 4.6。這款被官方稱為“史上最強Sonnet”的模型，在多項基準測試中接近Opus水平，但價格僅為后者的五分之一。

此時距離Anthropic的旗艦模型Claude Opus 4.6發(fā)布不到半個月，Claude Opus 4.6于2026年2月5日正式發(fā)布。

Claude Sonnet 4.6可以被視為智能體（Agent）的理想基礎模型。它的設計目標和核心能力升級，正是為了支撐復雜的智能體任務。據介紹，其在計算機使用能力和智能體規(guī)劃方面表現尤為突出，可以執(zhí)行需要多個步驟的計算機操作，例如填寫網頁表單，然后跨多個瀏覽器標簽頁協(xié)調信息。Anthropic稱：“在操作計算機方面，該模型當然仍落后于最熟練的人類。但盡管如此，其進步速度依然驚人。”不過，該模型在抵御提示詞注入攻擊（Prompt Injection Attacks）等安全威脅方面表現更好，這類攻擊是指通過惡意指令操控AI模型。

Anthropic預計，到2029年將向亞馬遜、谷歌和微軟支付至少800億美元，以在其云服務器上運行Claude AI。

性能躍升逼近“旗艦級”

Sonnet 4.6在編程、計算機操作、長上下文推理、智能體規(guī)劃等任務處理上有了跨越式提升。Anthropic公布的基準測試顯示，該模型在多項關鍵指標上已接近甚至超越其2月6日剛發(fā)布的旗艦模型Opus 4.6。

在Agent金融分析和辦公任務（GDPVal-AA）兩項測評中，Sonnet 4.6的得分分別達到63.3%和1633 Elo，雙雙超過Opus 4.6的60.1%和1606 Elo。在評估真實世界軟件工程能力的SWE-bench測試中，其表現同樣逼近Opus水平。

模型保留了100萬token的超大上下文窗口（測試版），這意味著它可以一次性處理整部《三體》trilogy級別的代碼庫或數百頁的研究論文。更重要的是，Anthropic強調Sonnet 4.6能夠“有效地在整個上下文中進行推理”，這對于需要長期規(guī)劃的復雜任務至關重要。

在計算機使用能力方面，Sonnet 4.6在OSWorld基準測試中取得了72.5分，較一年前的28.0分實現質的飛躍。早期用戶反饋顯示，它在處理復雜電子表格、填寫多步驟網頁表單以及跨瀏覽器標簽協(xié)同操作等任務時，已展現出接近人類水平的能力。

應用場景：從代碼重構到企業(yè)辦公

Sonnet 4.6的升級直接轉化為廣泛的應用場景落地。在編程領域，一位開發(fā)者在社交平臺X上分享了他的驚艷體驗：Sonnet 4.6僅用一次API調用就重構了整個代碼庫——執(zhí)行了25次工具調用，新增3000多行代碼，創(chuàng)建了12個全新文件，將單體應用成功模塊化。

在企業(yè)級應用中，Box公司首席技術官Ben Kus證實：“Sonnet 4.6在深度推理和復雜Agent任務上表現出了顯著進步，在重度推理Q&A任務上比Sonnet 4.5提升了15個百分點。”金融科技公司Hebbia也報告稱，其內部基準測試的答案匹配率出現大幅躍升。

值得注意的是，Sonnet 4.6展現出了一種近乎“戰(zhàn)略思考”的能力。在Vending-Bench Arena模擬商業(yè)運營的評測中，該模型發(fā)展出了一套獨特策略：前期重金投資能力建設，最后階段迅速轉向盈利，最終收益遠超競爭對手。

Anthropic的“性價比之作”

Claude Sonnet 4.6延續(xù)了Sonnet系列的經濟定價策略：每百萬token輸入3美元、輸出15美元，與Sonnet 4.5持平。由于性能直接逼近Opus級別，對于免費和Pro訂閱用戶，它已成為claude.ai和Claude Cowork的默認模型。

AWS已第一時間宣布Sonnet 4.6在Amazon Bedrock上架，稱其為“Anthropic的最強計算機使用模型”。

市場擔憂，Anthropic這種以低成本提供高性能模型的做法，正在加速AI融入真實工作流，并可能重構企業(yè)軟件的定價模式，這種情緒在短時間內轉為焦慮與擔憂：AI是否會顛覆或是直接取代SaaS乃至軟件行業(yè)。

在與Opus 4.5的對比測試里，用戶有59%的時間更偏好Sonnet 4.6。開發(fā)者普遍認為，Sonnet 4.6在修改代碼前能更有效地讀取上下文，整合共享邏輯而非簡單復制，并且“過度工程化更少、幻覺更少、多步驟任務執(zhí)行更穩(wěn)”。一位開發(fā)者直言：“Claude Sonnet 4.6以更低的成本實現了接近Opus的智能水平，這對預算有限的團隊意義非凡。”

不過，也有部分用戶認為Sonnet 4.6未達到預期，指出其在編程方面并未全面超越Opus 4.5，更像是“Cowork功能的升級”。

關于Anthropic

Anthropic由前OpenAI研究副總裁達里奧·阿莫迪兄妹于2021年創(chuàng)立，核心團隊曾參與GPT-2和GPT-3的早期研發(fā)。因對OpenAI的發(fā)展方向存在分歧，他們離職創(chuàng)辦了這家致力于AI安全與研究的公司。

憑借創(chuàng)始人團隊的光鮮背景，該公司融資步伐迅猛，自成立以來累計融資額已超300億美元。2026年2月，公司剛完成300億美元G輪融資，投后估值飆升至3800億美元，使其成為全球估值第二高的AI獨角獸，僅次于OpenAI。本輪融資參與方包括光速創(chuàng)投（Lightspeed Venture Partners）、門洛風險投資（Menlo Ventures）、摩根士丹利投資（Morgan Stanley Investment）、NX1資本（NX1 Capital）及卡塔爾投資局（Qatar Investment Authority）。

Anthropic最核心的產品是Claude系列大語言模型，按照能力梯隊劃分為三個層級：

Claude Opus系列：旗艦級模型，代表當前最高智能水平。

Claude Sonnet系列：性能與成本的平衡之選，也是大眾用戶接觸最多的模型。

Claude Haiku系列：輕量級模型，主打快速響應和低成本，適用于實時交互場景。

基于上述模型，Anthropic開發(fā)了AI編程助手Claude Code和辦公場景智能體Claude Cowork。Anthropic的年化營收在2025年年底超過90億美元，其中，Claude Code的年化收入已達25億美元。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.