<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Sonnet 4.6:Anthropic 最卷的模型,不惜“逼死”自家Opus

      0
      分享至


      作者 | 周一笑
      郵箱 | zhouyixiao@pingwest.com

      在最近的模型混戰中,不只是中國廠商們在卷,Anthropic也在半個月連續發布了兩款模型。而其中,最近發布的Sonnet 4.6有些特殊,它不是旗艦,卻在多個維度追平甚至超過了旗艦。看起來它用Opus 1/3的價格,就追上了它99%的性能。

      在這個各家模型都要干掉Opus的時刻,它自己用性價比款的Sonnet“干掉”Opus,給各位演示了一下,什么才是最卷的模型。


      而且,這款模型非常值得關注的地方是,它讓AI操作電腦這件事第一次接近了“真的能用”的臨界點。而恰好在同一個月,一個叫OpenClaw的開源項目用17萬GitHub星標證明了一件事,人手一個的,能替自己干活的AI Agent,可能成為一個新的趨勢。Sonnet 4.6是模型,OpenClaw是框架,但它們指向同一個方向。

      1

      便宜的再一次打贏了貴的

      在Anthropic的產品線中,Opus是最強最貴的旗艦,Sonnet是平衡性能和成本的中端款,Haiku是最快最便宜的輕量款。長期以來,Sonnet的角色是“性價比之選”,干不了最難的活但勝在便宜。Sonnet 4.6打破了這個格局。

      編碼方面,它在SWE-bench Verified上得分79.6%,逼近Opus 4.6的80.8%。Claude Code的內部測試中,用戶70%的時間更偏好Sonnet 4.6(對比Sonnet 4.5),甚至有59%的時間比去年11月發布的旗艦Opus 4.5更受歡迎。用戶反饋集中在幾個方面,“更少過度工程”“更少偷懶”“指令遵循明顯更好”,以及更少出現“明明沒干完卻說干完了”的情況。

      辦公任務是更大的驚喜。在GDPval-AA這個衡量真實辦公場景的評測中,Sonnet 4.6拿到1633 Elo,直接超過了Opus 4.6的1606。便宜的在實際工作場景中打贏了貴的。類似的事正在行業里反復發生,Google的Gemini 3 Flash也在逼近Pro的表現,DeepSeek用遠低于美國公司的成本訓練出競爭力相當的模型。“低端逆襲高端”已經不再是新聞,而是2026年AI行業的結構性趨勢。

      不過獨立AI評測機構Artificial Analysis注意到了一個有意思的細節,Sonnet 4.6在GDPval-AA上使用的token數量是Sonnet 4.5的約4.5倍。AI媒體Latent Space據此指出,某些任務的總成本可能比Opus還高。這和價格表上的數字講的是兩個故事。


      軟件工程師、AI技術博主Joe Njenga在Medium上第一時間做了測試,他的感受是,“發布才幾天,但Sonnet 4.6已經感覺比Opus更好用了。”Cosmic平臺做了一個控制實驗,用完全相同的一句話提示詞讓4.5和4.6各生成一個博客應用,結論是4.6在設計品味和代碼架構上有質的提升,“需要更少的手把手指導”。編程工具Kilo Code直接把Sonnet 4.6設為默認推薦模型。當然也有負面聲音,發布當天就有用戶報告了函數名幻覺的問題。

      價格跟上一代Sonnet 4.5完全一樣,每百萬輸入token 3美元,輸出token 15美元。同時它成了Free和Pro用戶的默認模型,免費用戶還新增了文件創建、skills等功能。但正如上面提到的,“同樣的錢買到更強的模型”不等于“用AI更便宜了”。Extended thinking的token按輸出價格計費,超過200K的長上下文有額外溢價,而Agent場景下動輒成千上萬次工具調用,實際使用成本可能反而在增加。

      1

      16個月,Computer Use從玩具變工具

      Sonnet 4.6還有一個值得單獨拿出來說的進步,就是Computer Use,也就是AI操作電腦的能力。

      2024年10月,Anthropic是第一個推出通用計算機操作AI的公司。當時他們自己都承認這個功能“還很實驗性,有時笨拙且容易出錯”,發布時搭載的Claude 3.5 Sonnet在OSWorld評測上只拿到14.9%。能做的事很有限,移動鼠標、點擊按鈕、輸入文字,基本是個勉強能用的遙控器。

      之后的每一代Sonnet都在這個維度上進步。到了2025年9月的Sonnet 4.5,成績已經大幅提升。但Sonnet 4.6才是真正讓這項能力從“技術demo”走向“可用工具”的節點。在OSWorld-Verified上,它拿到72.5%,幾乎追平Opus 4.6的72.7%,比16個月前的起點提升了近5倍。

      數字背后對應的是質的變化。早期用戶報告說,Sonnet 4.6在操作復雜電子表格、填寫多步驟網頁表單方面已接近人類水平,而且能跨多個瀏覽器標簽頁協同完成任務。在保險行業的基準測試中,Computer Use拿到94%的準確率,是他們測試過的所有模型中最高的。更關鍵的一個改進是可靠性,在他們內部的瀏覽器自動化場景中,Sonnet 4.6產生的幻覺鏈接數量為零,而此前的版本大約三個鏈接中就有一個是假的。


      Claude Sonnet 在 OSWorld 基準上的得分持續提升。

      這意味著什么?幾乎每家企業都有一些“前API時代”遺留下來的老舊系統,沒有現代接口,無法自動化。以前要讓AI操作這些軟件,就得給每個系統寫專門的連接器。而一個能像人一樣使用電腦的模型,直接改變了這個等式。科技圈評論者Trung Phan調侃說,Anthropic的demo演示了Claude幫人在DMV網站上續車牌的過程,“但AI還是沒法修好DMV本身。”

      1

      當人人都有一個JARVIS

      Computer Use讓模型能操作電腦,但要變成一個真正幫人干活的AI助手,還需要一層編排框架把模型和現實世界的工具連接起來。這正是過去兩個月AI行業最火熱的戰場。

      2月份最熱門的AI項目不是某個大模型,而是OpenClaw。它原名Clawdbot(名字來自Claude和龍蝦鉗的雙關,后因Anthropic商標投訴兩度改名),由奧地利開發者Peter Steinberger從一個WhatsApp機器人做起,幾個月內暴漲到17.9萬GitHub星標。OpenClaw能常駐在用戶的電腦后臺,通過WhatsApp、Slack、iMessage接收指令,幫你管郵件、排日程、訂機票、跑腳本,是目前最接近“鋼鐵俠里的J.A.R.V.I.S.”的有著消費級的愿景和使用場景的產品。IBM研究員Kaoutar El Maghraoui的評價是,OpenClaw證明了自主AI Agent“不限于大企業,可以是社區驅動的”。

      OpenClaw火爆的原因,不只是它本身做得好,更因為它戳中了一個被壓抑已久的需求。過去一年,AI聊天機器人已經證明了自己在回答問題和生成內容上的能力,但用戶真正想要的是一個能替自己“做事”的助手,不只是聊天,而是能操作軟件、執行任務、跨應用協調。OpenClaw讓這個需求第一次有了一個具體的、可以跑起來的產品形態。

      但OpenClaw也暴露了個人AI Agent面臨的核心矛盾。安全研究人員發現超過13.5萬個暴露在公網上的實例;Cisco檢測了其技能市場排名第一的插件,發現能悄悄將用戶數據發送到攻擊者服務器。Andrej Karpathy最初稱基于OpenClaw開發的Moltbook是“我見過的最科幻的東西”,幾天后說“不建議任何人在自己的電腦上運行它”。一個足夠有用的AI Agent必須擁有足夠大的權限,而足夠大的權限天然帶來足夠大的風險。這個矛盾目前沒有人真正解決。

      更值得關注的是OpenClaw對AI行業商業格局的潛在沖擊。OpenClaw是模型無關的,它能跑Claude,也能跑ChatGPT,也能跑開源的Minimax和Kimi。當Agent框架層成為用戶接觸AI的主要入口,底層模型就有被“商品化”的風險,就像Android讓手機硬件品牌競爭變得殘酷一樣。有評論者已經在問,“OpenClaw會不會成為AI時代的Android?”

      2月15日,Peter Steinberger加入了OpenAI,Altman親口說“the future is going to be extremely multi-agent”(未來一定是極度多Agent的)。OpenClaw轉型為基金會項目,但它引發的這場關于“誰擁有Agent層”的爭奪才剛開始。

      這也是理解Sonnet 4.6的另一把鑰匙。Anthropic的應對策略不是等著被別人的Agent框架調用,而是把Agent能力直接做進模型里。Computer Use、Claude Code、Cowork,都是在構建一個“模型+工具鏈”的捆綁生態。Sonnet 4.6把這些能力下放到中端價格,本質上是在說,你不需要一個第三方框架來讓AI替你干活,用Claude就行。

      當然,能力越強意味著風險也越集中。Anthropic在system card中坦承,Sonnet 4.6在GUI操作場景中表現出“過度主動”的行為,比如未經授權發送郵件、過于激進地獲取token,而且這種行為無法通過提示詞完全避免。獨立評測機構Andon Labs在Vending-Bench測試中發現,Sonnet 4.6展現出與Opus 4.6類似的戰略復雜度,包括自發的價格操縱和對競爭對手的欺騙行為。他們的評價是,“幾乎一樣令人印象深刻,也幾乎一樣令人擔憂,而且只要三分之一的價格。”

      1

      Anthropic路線

      把視角拉回Anthropic本身,Sonnet 4.6只是它2月份密集動作的一部分。

      2月初,Anthropic在超級碗投放了一組系列廣告,共四條片子,分別叫“Betrayal”“Deception”“Treachery”“Violation”,賽前和賽中各播一條,另兩條在線上流通,直指OpenAI在ChatGPT中加入廣告的決定,slogan是“Ads are coming to AI. But not to Claude.”效果顯著,網站訪問量漲了6.5%,日活用戶增長11%,Claude App沖進了Apple App Store前十。

      緊接著,Anthropic宣布完成了300億美元融資,估值達到3800億美元,半年翻了一倍多。年化收入攀升至140億美元,其中Claude Code的年化收入就有25億美元,企業訂閱今年翻了四倍。


      OpenAI的CEO Altman對此不太高興,批評Anthropic的超級碗廣告“明顯不誠實”,說它是“把昂貴產品賣給有錢人”。Anthropic CEO Dario Amodei的稍早一點在達沃斯論壇說自己不需要“跟某個大玩家進行十億免費用戶的死亡競賽”。

      這或許暴露了兩家公司在路線上的某種分歧。從公開信息來看,OpenAI更傾向用戶規模路線,免費用戶盡可能多,再通過廣告和增值服務探索變現;它收編OpenClaw創始人,也是在搶占Agent編排層的入口。Anthropic走的看上去更像是生產力工具路線,80%的收入來自企業客戶,核心賣點是coding和agent能力,不做圖片生成,不太追求C端DAU,而是把Agent能力內建到模型本身。Sonnet 4.6讓免費用戶也能使用旗艦級能力,本身就是對“只服務有錢人”這個批評的無聲回應。

      有一個數字或許能說明AI Agent能力提升帶來的沖擊,自Anthropic和OpenAI密集發布新模型以來,軟件股已經蒸發了約2萬億美元的市值。投資者正在price in一個可能性,AI Agent對傳統SaaS軟件的替代,可能比所有人預想的都快。

      12天兩個模型,兩周三次頭條。這可能會成為2026年AI行業的默認節奏。


      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      業績暴增715.70%!商業航天+可控核聚變雙王炸,6大核心龍頭個個不可替代

      業績暴增715.70%!商業航天+可控核聚變雙王炸,6大核心龍頭個個不可替代

      Thurman在昆明
      2026-02-20 22:32:08
      美國2025年國內生產總值(GDP)增長2.2%,低于2024年的2.8%

      美國2025年國內生產總值(GDP)增長2.2%,低于2024年的2.8%

      每日經濟新聞
      2026-02-20 21:43:05
      恒大前總裁夏海鈞找到了!藏匿資產曝光,全球合計竟達600億!

      恒大前總裁夏海鈞找到了!藏匿資產曝光,全球合計竟達600億!

      李砍柴
      2025-08-22 17:26:32
      中央明確養老金改革方向,2026年公平養老邁關鍵一步

      中央明確養老金改革方向,2026年公平養老邁關鍵一步

      風流女漢
      2026-01-17 16:46:56
      孩子過年收2萬壓歲錢,媽媽要求上交,孩子:是長輩給自己的,應由自己保管,法院:父母可為孩子代為保管,但不得隨意使用

      孩子過年收2萬壓歲錢,媽媽要求上交,孩子:是長輩給自己的,應由自己保管,法院:父母可為孩子代為保管,但不得隨意使用

      大象新聞
      2026-02-20 09:48:03
      41歲勒布朗帶傷鏖戰!創6紀錄坐等3里程碑 戒酒戒甜品真自律之王

      41歲勒布朗帶傷鏖戰!創6紀錄坐等3里程碑 戒酒戒甜品真自律之王

      顏小白的籃球夢
      2026-02-21 18:01:17
      湖人復仇!詹姆斯一戰連創4大神跡,東契奇轟38+11,倫納德傷退

      湖人復仇!詹姆斯一戰連創4大神跡,東契奇轟38+11,倫納德傷退

      老侃侃球
      2026-02-21 14:01:19
      美廠商無力抗衡!美國德州起訴中國路由器廠商TP-Link:后者回應

      美廠商無力抗衡!美國德州起訴中國路由器廠商TP-Link:后者回應

      快科技
      2026-02-19 22:58:06
      看一下空調在新加坡的作用,就知道印度為什么很難成為超級大國

      看一下空調在新加坡的作用,就知道印度為什么很難成為超級大國

      舊時樓臺月
      2026-02-05 19:13:30
      69年村里來一戶特殊的下放戶,父親沒少幫助他家,多年后收獲福報

      69年村里來一戶特殊的下放戶,父親沒少幫助他家,多年后收獲福報

      人間百態大全
      2025-12-12 06:45:03
      中方重申:日本根本沒資格

      中方重申:日本根本沒資格

      澎湃新聞
      2026-02-21 12:01:04
      黃金,重大利多來了!

      黃金,重大利多來了!

      楊子黃金
      2026-02-21 09:18:29
      再立新功!俄價值超1.2億美元的S-300VM與道爾防空系統遭摧毀

      再立新功!俄價值超1.2億美元的S-300VM與道爾防空系統遭摧毀

      軍迷戰情室
      2026-02-18 23:58:09
      被日軍當眾凌辱5小時后,她為何從不逃跑,也不求死

      被日軍當眾凌辱5小時后,她為何從不逃跑,也不求死

      馬蹄燙嘴說美食
      2026-02-12 18:59:18
      澤連斯基沉默10秒后表示:受辱的不是我!

      澤連斯基沉默10秒后表示:受辱的不是我!

      山河路口
      2026-02-20 12:26:22
      美國擬開發一個網站幫其他國家用戶“翻墻”

      美國擬開發一個網站幫其他國家用戶“翻墻”

      輦轂
      2026-02-20 10:12:47
      中俄艦艇都到了,美軍還打不打伊朗?特朗普攤牌,一句話非比尋常

      中俄艦艇都到了,美軍還打不打伊朗?特朗普攤牌,一句話非比尋常

      嫹筆牂牂
      2026-02-21 16:24:51
      毛主席見到賀子珍哥哥,得知其行政待遇八級,大怒道:這是瞎胡鬧

      毛主席見到賀子珍哥哥,得知其行政待遇八級,大怒道:這是瞎胡鬧

      南書房
      2026-02-17 11:35:05
      全面停止進口,一票否決!日本徹底傻眼,三十五年布局白費!

      全面停止進口,一票否決!日本徹底傻眼,三十五年布局白費!

      小曙說娛
      2025-11-30 01:23:05
      《鏢人》單日票房升至第2,觀眾催拍續集,吳京回應:爭取有第二部;《鏢人2》去年7月已備案公示,故事梗概公開

      《鏢人》單日票房升至第2,觀眾催拍續集,吳京回應:爭取有第二部;《鏢人2》去年7月已備案公示,故事梗概公開

      極目新聞
      2026-02-20 21:58:32
      2026-02-21 21:39:00
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      2877文章數 10438關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      消防車救火后返程墜崖6名消防員犧牲 村民:都是小伙子

      頭條要聞

      消防車救火后返程墜崖6名消防員犧牲 村民:都是小伙子

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      教育
      本地
      手機
      家居
      公開課

      教育要聞

      孰對孰錯?媽媽要求孩子上交2萬壓歲錢,孩子不干!

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      手機要聞

      三星Galaxy S26系列顏色曝光:將推6種配色,兩款為線上專屬

      家居要聞

      本真棲居 愛暖伴流年

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版