《科創(chuàng)板日報》2月18日訊(編輯 宋子喬) 北京時間2月18日凌晨,Anthropic悄然發(fā)布了其新一代中型模型Claude Sonnet 4.6。這款被官方稱為“史上最強Sonnet”的模型,在多項基準測試中接近Opus水平,但價格僅為后者的五分之一。
此時距離Anthropic的旗艦模型Claude Opus 4.6發(fā)布不到半個月,Claude Opus 4.6于2026年2月5日正式發(fā)布。
Claude Sonnet 4.6可以被視為智能體(Agent)的理想基礎模型。它的設計目標和核心能力升級,正是為了支撐復雜的智能體任務。據介紹,其在計算機使用能力和智能體規(guī)劃方面表現尤為突出,可以執(zhí)行需要多個步驟的計算機操作,例如填寫網頁表單,然后跨多個瀏覽器標簽頁協(xié)調信息。Anthropic稱:“在操作計算機方面,該模型當然仍落后于最熟練的人類。但盡管如此,其進步速度依然驚人。”不過,該模型在抵御提示詞注入攻擊(Prompt Injection Attacks)等安全威脅方面表現更好,這類攻擊是指通過惡意指令操控AI模型。
Anthropic預計,到2029年將向亞馬遜、谷歌和微軟支付至少800億美元,以在其云服務器上運行Claude AI。
性能躍升 逼近“旗艦級”
Sonnet 4.6在編程、計算機操作、長上下文推理、智能體規(guī)劃等任務處理上有了跨越式提升。Anthropic公布的基準測試顯示,該模型在多項關鍵指標上已接近甚至超越其2月6日剛發(fā)布的旗艦模型Opus 4.6。
在Agent金融分析和辦公任務(GDPVal-AA)兩項測評中,Sonnet 4.6的得分分別達到63.3%和1633 Elo,雙雙超過Opus 4.6的60.1%和1606 Elo。在評估真實世界軟件工程能力的SWE-bench測試中,其表現同樣逼近Opus水平。
模型保留了100萬token的超大上下文窗口(測試版),這意味著它可以一次性處理整部《三體》trilogy級別的代碼庫或數百頁的研究論文。更重要的是,Anthropic強調Sonnet 4.6能夠“有效地在整個上下文中進行推理”,這對于需要長期規(guī)劃的復雜任務至關重要。
在計算機使用能力方面,Sonnet 4.6在OSWorld基準測試中取得了72.5分,較一年前的28.0分實現質的飛躍。早期用戶反饋顯示,它在處理復雜電子表格、填寫多步驟網頁表單以及跨瀏覽器標簽協(xié)同操作等任務時,已展現出接近人類水平的能力。
應用場景:從代碼重構到企業(yè)辦公
Sonnet 4.6的升級直接轉化為廣泛的應用場景落地。在編程領域,一位開發(fā)者在社交平臺X上分享了他的驚艷體驗:Sonnet 4.6僅用一次API調用就重構了整個代碼庫——執(zhí)行了25次工具調用,新增3000多行代碼,創(chuàng)建了12個全新文件,將單體應用成功模塊化。
在企業(yè)級應用中,Box公司首席技術官Ben Kus證實:“Sonnet 4.6在深度推理和復雜Agent任務上表現出了顯著進步,在重度推理Q&A任務上比Sonnet 4.5提升了15個百分點。”金融科技公司Hebbia也報告稱,其內部基準測試的答案匹配率出現大幅躍升。
值得注意的是,Sonnet 4.6展現出了一種近乎“戰(zhàn)略思考”的能力。在Vending-Bench Arena模擬商業(yè)運營的評測中,該模型發(fā)展出了一套獨特策略:前期重金投資能力建設,最后階段迅速轉向盈利,最終收益遠超競爭對手。
Anthropic的“性價比之作”
Claude Sonnet 4.6延續(xù)了Sonnet系列的經濟定價策略:每百萬token輸入3美元、輸出15美元,與Sonnet 4.5持平。由于性能直接逼近Opus級別,對于免費和Pro訂閱用戶,它已成為claude.ai和Claude Cowork的默認模型。
AWS已第一時間宣布Sonnet 4.6在Amazon Bedrock上架,稱其為“Anthropic的最強計算機使用模型”。
市場擔憂,Anthropic這種以低成本提供高性能模型的做法,正在加速AI融入真實工作流,并可能重構企業(yè)軟件的定價模式,這種情緒在短時間內轉為焦慮與擔憂:AI是否會顛覆或是直接取代SaaS乃至軟件行業(yè)。
在與Opus 4.5的對比測試里,用戶有59%的時間更偏好Sonnet 4.6。開發(fā)者普遍認為,Sonnet 4.6在修改代碼前能更有效地讀取上下文,整合共享邏輯而非簡單復制,并且“過度工程化更少、幻覺更少、多步驟任務執(zhí)行更穩(wěn)”。一位開發(fā)者直言:“Claude Sonnet 4.6以更低的成本實現了接近Opus的智能水平,這對預算有限的團隊意義非凡。”
不過,也有部分用戶認為Sonnet 4.6未達到預期,指出其在編程方面并未全面超越Opus 4.5,更像是“Cowork功能的升級”。
關于Anthropic
Anthropic由前OpenAI研究副總裁達里奧·阿莫迪兄妹于2021年創(chuàng)立,核心團隊曾參與GPT-2和GPT-3的早期研發(fā)。因對OpenAI的發(fā)展方向存在分歧,他們離職創(chuàng)辦了這家致力于AI安全與研究的公司。
憑借創(chuàng)始人團隊的光鮮背景,該公司融資步伐迅猛,自成立以來累計融資額已超300億美元。2026年2月,公司剛完成300億美元G輪融資,投后估值飆升至3800億美元,使其成為全球估值第二高的AI獨角獸,僅次于OpenAI。本輪融資參與方包括光速創(chuàng)投(Lightspeed Venture Partners)、門洛風險投資(Menlo Ventures)、摩根士丹利投資(Morgan Stanley Investment)、NX1資本(NX1 Capital)及卡塔爾投資局(Qatar Investment Authority)。
Anthropic最核心的產品是Claude系列大語言模型,按照能力梯隊劃分為三個層級:
Claude Opus系列:旗艦級模型,代表當前最高智能水平。
Claude Sonnet系列:性能與成本的平衡之選,也是大眾用戶接觸最多的模型。
Claude Haiku系列:輕量級模型,主打快速響應和低成本,適用于實時交互場景。
基于上述模型,Anthropic開發(fā)了AI編程助手Claude Code和辦公場景智能體Claude Cowork。Anthropic的年化營收在2025年年底超過90億美元,其中,Claude Code的年化收入已達25億美元。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.