<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      性能持平價格大降80%,Anthropic新模型殺瘋了

      0
      分享至

      文 | 字母AI

      距離ClaudeOpus 4.6的發布僅過去12天,Anthropic就發布了新的中檔模型Claude Sonnet 4.6。

      這次發布的核心不在于技術突破本身,而在于它以低得多的價格,達到了與競品齊平的性能。。

      Sonnet 4.6的定價保持在每百萬token輸入3美元、輸出15美元,與前代 Sonnet 4.5相同。

      然而在多項基準測試中,Sonnet 4.6接近甚至超越了價格高出五倍的Opus 4.6。

      Anthropic表示,便宜不一定就沒有好貨。

      當然了,在一些關鍵的測試里,仍然還是Opus 4.6領先。

      具體表現如何呢?

      Sonnet 4.6究竟有多驚艷?

      在SWE-bench Verified這個衡量真實軟件編碼能力的基準測試中,Sonnet 4.6得分79.6%,幾乎追平Opus 4.6的 80.8%,同時略微領先于OpenAI的GPT-5.2。

      在代理式金融分析任務中,Sonnet 4.6以63.3%的成績領先所有競爭對手,包括Opus 4.6的60.1%和GPT-5.2的59.0%。

      在辦公任務的GDPval-AA Elo評分中,Sonnet 4.6達到 1633 分,超過Opus 4.6的1606分和GPT-5.2的1462分。

      過去需要旗艦模型才能完成的任務,現在用Sonnet 4.6這種中檔模型就能做到。

      對于每天需要處理數百萬token的企業來說,這意味著可以大幅節省成本。

      Opus 4.6仍然在某些高復雜度領域保持優勢。

      在終端編碼任務Terminal-Bench 2.0中,Opus 4.6得分65.4%,Sonnet 4.6為59.1%。

      在代理式搜索BrowseComp中,Opus 4.6達到84.0%, Sonnet 4.6為74.7%。

      在新穎問題解決測試ARC-AGI-2中,Opus 4.6得分68.8%,Sonnet 4.6為58.3%。


      這些差距表明,對于前沿研究和需要頂級準確度的場景,Opus 4.6仍是最好的模型。但對于大多數生產環境,這個差距已經縮小到可以接受的程度。

      Sonnet 4.6最引人注目的進步出現在計算機使用能力上。在OSWorld-Verified基準測試中,它得分72.5%,高于Sonnet 4.5的61.4%,遠超GPT-5.2的38.2%。

      計算機使用能力指的是AI像人類一樣操作計算機的能力,通過鼠標點擊、鍵盤輸入來與軟件交互,而不依賴API接口。

      前一陣引發熱議的豆包手機助手,其底層的UI-TARS模型,就是在OSWorld基準上完成了權威測試,取得了47.5%的成績。

      豆包手機助手的表現是非常出色的,已經能夠完成除了支付以外所有的操作。

      那么以此作為判斷依據,進而不難推測,Sonnet 4.6的實際表現將會非常驚艷。

      這項能力之所以重要,是因為它打開了最廣泛的企業應用場景。

      一個能夠直接看屏幕并與之交互的模型,可以在不構建定制連接器的情況下,自動操作將所有可交互的系統。

      Anthropic在發布時提到,早期用戶已經看到接近人類水平的表現,能夠完成復雜的電子表格任務和多步驟網頁表單。

      保險科技公司Pace的CEO賈米·考夫(Jamie Cuffe)表示,Sonnet 4.6在他們復雜的保險計算機使用基準測試中達到94%的成績,是所有測試過的Claude模型中最高的。

      他說:“它以我們之前未見過的方式推理失敗原因并自我糾正?!?/p>

      惡意行為者可能在網頁中隱藏指令來劫持模型,這被稱為提示注入攻擊。

      Anthropic在公告中表示,Sonnet 4.6在抵御此類攻擊方面比Sonnet 4.5有重大改進。

      對于部署需要瀏覽網頁和與外部系統交互的代理的企業來說,這種安全防護是必須的。

      價格只要五分之一

      那么Sonnet 4.6到底有多便宜呢?

      外媒報道,一些早期的Sonnet 4.6用戶表示,原本企業需要花五倍的錢才能買到的能力,現在用Sonnet 4.6就能獲得差不多的效果。

      這意味著運營成本可能直接降到原來的五分之一,而工作質量幾乎不受影響。

      數據分析平臺Hex Technologies的CTO,同時也是Anthropic聯合創始人、首席產品官的凱特琳-科爾格羅夫 (Caitlin Colgrove)說,公司正在將大部分流量遷移到Sonnet 4.6。

      她指出通過自適應思考和高努力模式(high effort mode),“除了最困難的分析任務外,我們在所有任務上都看到了Opus級別的性能,且配置更高效靈活。以Sonnet的價格,這將降低工作成本?!?/p>

      云存儲公司Box的CTO本·喀什(Ben Kus)表示,Sonnet 4.6在真實企業文檔的重度推理問答中,比Sonnet 4.5的表現提高了15個百分點。

      Sonnet 4.6配備了100萬token的超長上下文窗口,以容納整個代碼庫、法律文件或數十篇研究論文。

      Anthropic聲稱模型能夠在整個上下文中有效推理,并通過Vending-Bench Arena這個基準測試來表現出Sonnet 4.6的有效推理。

      Vending-Bench Arena測試的是模型運營模擬企業的能力,不同AI模型相互競爭以獲得最大利潤。


      在沒有人類提示的情況下,Sonnet 4.6發展出一種新穎策略:在前十個模擬月份中大量投資產能,支出遠超競爭對手,然后在最后階段急轉彎專注于盈利能力。

      模型在365天模擬結束時的余額約為5700美元,而Sonnet 4.5約為2100美元。

      Anthropic開啟印度市場

      Anthropic正處于上市前最關鍵的階段,因此他們不止要發布模型,還要借著模型去擴張業務。

      在Sonnet 4.6發布當天,印度IT巨頭Infosys宣布與Anthropic合作,構建企業級agent,將Claude模型集成到Infosys的Topaz AI平臺中,服務于銀行、電信和制造業。

      與此同時,Anthropic也在印度的班加羅爾開設了首個印度辦事處,印度現在占全球Claude使用量的約6%,僅次于美國。

      Anthropic的進步也導致了最近幾天軟件股的大規模拋售,就連業績大漲的微軟,也經歷了股價暴跌。

      投資者越來越擔心AI對這些業務的潛在顛覆,Sonnet 4.6可能會加劇這種不安的氛圍。

      也不知道是不是Anthropic飄了,他們還將其免費層級默認升級到了Sonnet 4.6,開發者可以通過Claude API直接調用。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      剛剛確認!即將抵達東莞!這波非常猛!

      剛剛確認!即將抵達東莞!這波非常猛!

      東莞好生活
      2026-02-21 22:56:51
      同樣信媽祖,中國北方沿海為何就沒有扶乩、游神?

      同樣信媽祖,中國北方沿海為何就沒有扶乩、游神?

      黃娜老師
      2026-02-22 02:27:31
      荷蘭滑冰女運動員,拿奧運冠軍后扯開衣服露傲人身材,成網紅大咖

      荷蘭滑冰女運動員,拿奧運冠軍后扯開衣服露傲人身材,成網紅大咖

      我心縱橫天地間
      2026-02-21 18:32:24
      西方軍事專家:“只有泰國知道,中國早已是世界最強超級大國了”

      西方軍事專家:“只有泰國知道,中國早已是世界最強超級大國了”

      風云人物看歷史
      2026-02-02 09:13:32
      這組照片是張學良軟禁時真實生活,奢華至極,完全不像囚徒生活!

      這組照片是張學良軟禁時真實生活,奢華至極,完全不像囚徒生活!

      芊芊子吟
      2026-02-19 12:00:06
      打出9.5分!這部硬核美劇,后勁太大了

      打出9.5分!這部硬核美劇,后勁太大了

      來看美劇
      2026-02-19 22:20:35
      1982 年高材生王佐良娶癱瘓的張海迪,40 年后,才知他是人間清醒

      1982 年高材生王佐良娶癱瘓的張海迪,40 年后,才知他是人間清醒

      墨印齋
      2025-11-15 16:42:56
      中國游客貝加爾湖溺亡7人,1人來自深圳,目擊者稱2、3分鐘就沉了

      中國游客貝加爾湖溺亡7人,1人來自深圳,目擊者稱2、3分鐘就沉了

      九方魚論
      2026-02-21 01:34:21
      瓜帥:最后11場會像今天這樣極其重要;我為曼城青訓感到高興

      瓜帥:最后11場會像今天這樣極其重要;我為曼城青訓感到高興

      懂球帝
      2026-02-22 07:04:14
      加拿大傻眼了:把華人趕走,卻迎來了位“活爹”

      加拿大傻眼了:把華人趕走,卻迎來了位“活爹”

      阿訊說天下
      2026-02-15 19:49:35
      曾4次陰陽中國!31歲烏克蘭名將0-2崩潰丟冠 主動擁抱美國富豪女

      曾4次陰陽中國!31歲烏克蘭名將0-2崩潰丟冠 主動擁抱美國富豪女

      風過鄉
      2026-02-22 08:37:53
      春節來新加坡旅游,被自己窮笑了:酒店一晚1.6萬、入境被罰6000

      春節來新加坡旅游,被自己窮笑了:酒店一晚1.6萬、入境被罰6000

      新加坡萬事通
      2026-02-17 18:29:48
      曼聯戰埃弗頓B費沖百次助攻,謝什科或首次先發!馬奎爾繼續主力

      曼聯戰埃弗頓B費沖百次助攻,謝什科或首次先發!馬奎爾繼續主力

      羅米的曼聯博客
      2026-02-22 07:55:54
      兩性關系:女人可以讓你摟、讓你親,但別全信她說的話

      兩性關系:女人可以讓你摟、讓你親,但別全信她說的話

      青蘋果sht
      2026-02-13 06:20:11
      千穿萬穿,馬屁不穿!網友這些令人拍案叫絕的臨場反應,絕了

      千穿萬穿,馬屁不穿!網友這些令人拍案叫絕的臨場反應,絕了

      另子維愛讀史
      2026-02-04 23:32:28
      比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

      比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

      芳芳歷史燴
      2025-12-25 20:32:52
      廣東過年搞衛生上熱搜!網友:洗了30年沒人住的舊房子,圖啥?

      廣東過年搞衛生上熱搜!網友:洗了30年沒人住的舊房子,圖啥?

      夜深愛雜談
      2026-02-21 21:50:39
      為什么大清把互惠互利的貿易視為對對方的恩賜?

      為什么大清把互惠互利的貿易視為對對方的恩賜?

      名人茍或
      2026-02-15 06:05:27
      準確率突破70%!中國科研團隊研發出全球首個可溯源罕見病診斷系統【附AI醫療行業前景分析】

      準確率突破70%!中國科研團隊研發出全球首個可溯源罕見病診斷系統【附AI醫療行業前景分析】

      前瞻網
      2026-02-20 12:01:12
      3比1獲勝!21歲中國乒乓天才崛起,網友:能否再度擊退張本智和?

      3比1獲勝!21歲中國乒乓天才崛起,網友:能否再度擊退張本智和?

      卿子書
      2026-02-22 07:15:11
      2026-02-22 09:48:49
      鈦媒體APP incentive-icons
      鈦媒體APP
      獨立財經科技媒體
      129738文章數 861798關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      河北"巧克力釣魚大爺"因病去世享年75歲 家屬發聲

      頭條要聞

      河北"巧克力釣魚大爺"因病去世享年75歲 家屬發聲

      體育要聞

      徐夢桃:這是我第一塊銅牌 給我換個吉祥物

      娛樂要聞

      黃曉明澳門賭博輸十幾億 本人親自回應

      財經要聞

      特朗普新加征關稅稅率從10%提升至15%

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      藝術
      親子
      游戲
      本地
      公開課

      藝術要聞

      這本書法,80%的人無法讀懂!網友直言:看到第二字就傻眼!

      親子要聞

      為什么小男孩小時候要比小女孩難養好多?網友:通常精力充沛

      《FF7重制版》使用鑰匙卡非盈利考量 而是唯一選擇

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版