<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Claude Opus 4.6殺死編程比賽!挖出500個day0漏洞,生成k線成交量分布,還有PPT直出

      0
      分享至


      智東西
      作者|王涵
      編輯|心緣

      智東西2月6日報道,今天凌晨,Anthropic正式發布旗艦模型Claude Opus 4.6,是Anthropic首款開啟100萬token上下文窗口測試功能的旗艦級模型。


      Opus 4.6具備更縝密的規劃能力,能維持更長時間的智能體任務執行,可以在龐大代碼庫中穩定運行,并能夠進行自我糾錯

      在基準測試中,Opus 4.6在智能體編程評估Terminal-Bench 2.0中獲得最高分,于綜合性多學科推理測試Humanity’s Last Exam中也坐穩了第一名的寶座。

      針對金融、法律等經濟價值領域的GDPval-AA評估中,Opus 4.6也是第一,并較第二名的GPT-5.2拉開約144個Elo分差,較前代版本Claude Opus 4.5提升了190分


      就在Opus 4.6發布后幾分鐘,OpenAI把GPT-5.3-Codex也搬了出來“正面硬剛”。截至北京時間2月6日11點,X平臺上有關“Claude VS Codex”的話題下已有4.1萬條討論。


      Varick Agent的CEO“vas”發帖稱:“Claude 4.6 Opus僅用一次調用就重構了我的整個代碼庫。25次工具調用,新增3000多行代碼,創建了12個全新文件。它模塊化了所有內容,拆解了單體架構,理順了混亂的邏輯。結果沒一個能運行,但重構后的代碼,實在是美得驚人。”


      有網友展示出他用Opus 4.6一次性做出的k線成交量分布表。評論區紛紛感嘆:這要是真的,那一切都結束了。

      在話題討論中,有不少網友都自發測評了Opus 4.6與GPT-5.3 Codex這兩款模型,還曬出了測試Agent在復雜現實世界任務中的表現的Terminal-Bench,結果顯示GPT-5.3 Codex比Opus 4.6領先了11.9%。


      在網友的測評中,在編程方面GPT-5.3 Codex獲得的好評似乎更多。有網友發出對比:“Opus 4.6有100萬上下文+企業/知識工作+發現500個零日漏洞+Claude代碼中的Agent集群-基準測試成績不如Codex 5.3;而gpt-5.3-codex有代碼基準測試勝出+速度更快+任務中轉向,但上下文窗口不到Opus的一半。”


      還有網友放出了更直觀的性能對比圖:




      價格上,在200K上下文以內(包括200K),Opus 4.6輸入每百萬token的價格為5美元(約合人民幣34.69元),輸出每百萬token的價格為25美元(約合人民幣173.45元);超過200K上下文,Opus 4.6輸入每百萬token的價格為10美元(約合人民幣69.38元),輸出每百萬token的價格為37.5美元(約合人民幣260.18元)。


      此外,Anthropic還將向Pro與Max用戶限時贈送價值50美元(約合人民幣346.9元)的額外使用額度,不適用于Team版、企業版及API/控制臺用戶。

      使用額外額度的用戶需同時滿足以下兩個條件:

      1、已于2026年2月4日(太平洋時間)晚11:59前開通Pro或Max訂閱;

      2、在2026年2月16日(太平洋時間)晚11:59前啟用額外用量功能。

      Claude Opus 4.6即日起在claude.ai官網、API接口及所有主流云平臺同步上線。開發者可通過Claude API調用claude-opus-4-6模型。

      一、“大海撈針”測試得分76%,緩解“上下文衰減”問題

      在多語言編程測試SWE-bench Multilingual中,Opus 4.6的成績較Opus 4.5提升1.6分;在網絡安全漏洞復現測試CyberGym中,Opus 4.6獲得66.6分,較Opus 4.5提升15.6分,是Sonnet 4.5分數的兩倍多


      Opus 4.6在長文本連貫性測試Vending-Bench 2中以 8017.59 的分數大幅領先,在計算生物學BioPipelineBench測試中也以53.1分的成績位居第一。


      Opus 4.6在從海量文檔中檢索相關信息方面能力較上一代有所提升。這一優勢延伸至長上下文任務,它能在處理數十萬token時更穩定地保持和追蹤信息,減少信息漂移,并能捕捉到可能遺漏的深層細節。

      Anthropic團隊在博客中稱,用戶常抱怨AI模型存在“上下文衰減”問題——即對話超過一定token數量后性能會下降。

      對此,研究團隊對Opus 4.6進行了MRCR v2的“8針-100萬”變體測試,這是類似于一種在浩瀚文本中檢索隱藏信息的“大海撈針”式基準測試。在這個測試中Opus 4.6得分達76%,而Sonnet 4.5僅得18.5%


      Opus 4.6的綜合基準測試如下圖所示。總而言之,Opus 4.6在長上下文中查找信息更精準,吸收信息后的推理能力更強。


      二、行為失范率極低,新增六類網絡安全探測工具

      智能水平的飛躍并未以犧牲安全性為代價。在Anthropic的自動化行為審計中,Opus 4.6的行為失范率極低,行為失范包括欺騙、奉承、助長用戶妄想以及配合濫用等情形。

      安全對齊程度與前代旗艦模型,即迄今為止對齊度最高的Claude Opus 4.5保持同等水準。


      值得注意的是,Opus 4.6在所有近期Claude模型中展現出最低的過度拒絕率,即模型未能回應良性查詢的情況。


      在博客中,Anthropic團隊透露,針對Opus 4.6,他們開展了迄今最全面的安全評估體系,首次應用多項全新測試方法并對既有評估方案進行升級。Anthropic團隊新增了用戶福祉評估、更復雜的危險請求拒答能力測試,并更新了模型隱蔽執行有害行為的評估標準。

      同時,其運用可解釋性科學的新方法進行實驗,開始探究模型特定行為背后的成因,以期發現標準測試可能遺漏的問題。

      針對Opus 4.6在特定領域可能被危險利用的突出能力,研究團隊同步部署了新的防護機制。尤其鑒于該模型顯著增強的網絡安全能力,他們開發了6種新型網絡安全探測工具以幫助追蹤不同形式的潛在濫用行為。

      同時,Anthropic也在加速推進Opus 4.6在網絡防御領域的應用,通過其協助發現并修復開源軟件漏洞。

      他們認為網絡防御者利用Claude這類AI模型來平衡攻防態勢至關重要。網絡安全領域發展迅速,Anthropic將根據對潛在威脅的認知持續調整和更新防護措施,近期其可能啟動實時干預機制以阻斷濫用行為。

      三、API新增自適應思考功能,Claude Code現可多智能體并行

      通過API接口,開發者們還可以獲取到更精細的模型算力控制方案,并為長期運行的智能體任務帶來更高靈活性。具體新增以下功能:

      1、自適應思考:此前開發者僅能在啟用或禁用深度思考模式間二選一。現在通過自適應思考功能,Claude可自主判斷何時需要深度推理。在默認算力等級(高)下,模型會在必要時啟動深度思考,開發者也可通過調整算力等級來改變其觸發頻率。

      2、算力調控:現提供四個可調節的算力等級:低、中、高(默認)、極致。

      3、上下文壓縮(測試版):長程對話與智能體任務常觸及上下文窗口限制。當對話接近可配置閾值時,上下文壓縮功能將自動總結并替換早期對話內容,使Claude能夠執行更長任務而不受限制。

      4、100萬token上下文(測試版):當提示內容超過20萬token時,將適用高級定價。

      5、128k輸出token:Opus 4.6支持最高128k token的輸出長度,使Claude能完整處理需要大規模輸出的任務,無需拆分為多次請求。

      6、美國境內推理:對于需要在美國境內運行的工作負載,可選擇美國專屬推理服務,定價為標準token費用的1.1倍。

      在Claude與Claude Code平臺,Anthropic新增了多項功能:

      Claude Code中新增智能體團隊的研究預覽功能。現在用戶可以啟動多個并行工作的智能體,它們將自主協同配合,特別適用于代碼庫審查這類可拆分為獨立、重讀取的子任務。

      在與常用辦公工具的協作體驗方面,Claude Excel集成版現在能夠處理長時程與高難度任務,支持先規劃后執行、自主解析非結構化數據并推斷正確格式,還能單次完成多步驟修改。

      Excel集成版還能搭配PowerPoint集成版使用,用戶可先在Excel中處理并結構化數據,再通過PowerPoint實現可視化呈現。

      PowerPoint集成功能現已面向Max、Team及企業版用戶開放研究預覽。

      四、放手兩千次會話,Opus 4.6率智能體團隊“煉”出十萬行C編譯器

      Anthropic官方還給出了一個開發者使用并行Claude智能體團隊構建C語言編譯器的案例。在這個案例中,開發者指派Opus 4.6率領智能體團隊構建一個C語言編譯器,隨后便基本放手任其運行,僅用兩周,就完成了一個小團隊一個月的工作。

      (視頻)

      在為期兩周、近2000次Claude Code會話中,Opus 4.6消耗了20億個輸入token并生成1.4億個輸出token,總成本略低于2萬美元(約合人民幣13.88萬元),這個成本僅相當于開發者個人獨立完成所需投入的零頭。

      最終Opus 4.6做出了一個有著10萬行代碼規模的編譯器,并且是凈室實現,即開發全程Claude無網絡訪問權限,僅依賴Rust標準庫。

      這個編譯器能在x86、ARM和RISC-V架構上構建可啟動的Linux 6.9內核,還能編譯QEMU、FFmpeg、SQLite、PostgreSQL、Redis等大型項目。

      該編譯器在包括GCC torture測試套件在內的大多數編譯器測試中達到99%通過率,甚至通過了編譯器、操作系統等底層技術的 “終極測試”:成功編譯并運行第一人稱射擊游戲《Doom》。

      經過多輪實踐,開發者總結出了協調多個Claude高效協作的四大核心方法

      1、改進測試框架:

      在項目后期,Claude每次實現新功能時都會頻繁破壞現有功能。為此開發者構建了持續集成流水線,實施更嚴格的檢查機制,讓Claude能更好地測試自身工作,確保新提交不會破壞現有代碼。

      2、站在Claude的視角設計適配環境:

      每個智能體都啟動于無上下文的新容器中,會花費大量時間自我定位,尤其在大型項目中。甚至在運行測試前,為幫助Claude自助,開發者需要在說明中要求維護詳細的README文檔和進度文件,并需頻繁更新當前狀態。

      3、簡化并行機制:

      當存在多個獨立失敗的測試時,并行化輕而易舉,但當智能體開始編譯Linux內核時卻陷入困境。與包含數百個獨立測試的套件不同,編譯Linux內核是單項巨型任務,所有智能體都會遇到相同的bug,修復后卻互相覆蓋修改,運行16個智能體也不行,因為它們都卡在解決同一問題上。

      為此,開發者編寫了新測試框架,將GCC作為在線驗證編譯器進行比對。這讓每個智能體都能并行工作,在不同文件中修復不同bug,直至Claude的編譯器最終能編譯所有文件。

      4、多元智能體角色分工:

      LLM編寫的代碼常重復實現現有功能,因此開發者指派了一個智能體專門合并發現的重復代碼。另一個負責優化編譯器本身的性能,第三個則專攻輸出高效的編譯代碼,還讓一個智能體以Rust開發者視角批判項目設計并進行結構性改進,另設智能體專注文檔工作。

      開發者稱,該成果已經逼近Opus的能力邊界,但仍有需要提升的方面:

      1、16位x86編譯器缺失:缺乏從實模式啟動Linux必需的16位x86編譯器,該環節需調用GCC(x86_32和x86_64編譯器為自主實現);

      2、匯編器與鏈接器不完善:這兩部分是Claude最后開始自動化的模塊,目前仍存在較多缺陷。演示視頻中使用的是GCC匯編器與鏈接器;

      3、兼容性未達全替代標準:雖能成功構建眾多項目,但尚不能完全替代真實編譯器;

      4、代碼生成效率偏低:即使啟用所有優化選項,其輸出代碼效率仍低于禁用優化的GCC;

      5、Rust代碼質量有限:代碼質量尚可,但遠未達到專業Rust程序員的水準。

      結語:Anthropic在安全性上下了狠功夫

      Opus 4.6在長上下文理解、復雜推理與智能體協作等方面的性能提升,為企業級高密度、長周期任務提供了新的解決方案。

      同時,在Anthropic的博客中,他們用了很大篇幅來寫新模型的安全性。Anthropic通過增強安全評估體系與部署主動防護機制,展現出對AI風險治理的前置性投入。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      繼續北伐!騎士5分險勝黃蜂,產生一大不可思議,兩個不爭事實!

      繼續北伐!騎士5分險勝黃蜂,產生一大不可思議,兩個不爭事實!

      林子說事
      2026-02-21 13:37:51
      表面謙謙君子,實則“一肚子壞水”,這4位老藝人太讓人意外了

      表面謙謙君子,實則“一肚子壞水”,這4位老藝人太讓人意外了

      無人傾聽無人傾聽
      2026-02-18 18:19:25
      特朗普回憶2017年訪華經歷,贊嘆中國儀仗隊強大陣容:我從未見過這么多士兵身高完全一致;此前特朗普吹噓美軍個個都是“湯姆·克魯斯”

      特朗普回憶2017年訪華經歷,贊嘆中國儀仗隊強大陣容:我從未見過這么多士兵身高完全一致;此前特朗普吹噓美軍個個都是“湯姆·克魯斯”

      大象新聞
      2026-02-20 19:44:14
      @成都人 這兩天抓緊曬太陽!降溫+降雨+大風在路上了

      @成都人 這兩天抓緊曬太陽!降溫+降雨+大風在路上了

      愛看頭條
      2026-02-21 12:36:59
      谷愛凌U型池決戰在即,統治力遭質疑,預賽第一名將發布奪金宣言

      谷愛凌U型池決戰在即,統治力遭質疑,預賽第一名將發布奪金宣言

      楊華評論
      2026-02-21 02:43:22
      不可錯過!2月21日下午18:00比賽!中央5套CCTV5、CCTV5+直播表

      不可錯過!2月21日下午18:00比賽!中央5套CCTV5、CCTV5+直播表

      皮皮觀天下
      2026-02-21 15:19:16
      春節剛過,這波“惡心”操作炸出多少中國人的真實面目

      春節剛過,這波“惡心”操作炸出多少中國人的真實面目

      小怪吃美食
      2026-02-21 16:38:20
      一夜爆火!全球缺貨排隊等5年!2026年最被低估的硬核賽道

      一夜爆火!全球缺貨排隊等5年!2026年最被低估的硬核賽道

      時尚的弄潮
      2026-02-21 16:15:47
      馬洛塔的任務!阿森納開搶國米第一新星,續約問題商討刻不容緩

      馬洛塔的任務!阿森納開搶國米第一新星,續約問題商討刻不容緩

      里芃芃體育
      2026-02-21 09:30:09
      中俄艦艇都到了,美軍還打不打伊朗?特朗普攤牌,一句話非比尋常

      中俄艦艇都到了,美軍還打不打伊朗?特朗普攤牌,一句話非比尋常

      嫹筆牂牂
      2026-02-21 16:24:51
      尺度拉滿!HBO 這 10 部暴美劇,看過 3 部都是狠人!

      尺度拉滿!HBO 這 10 部暴美劇,看過 3 部都是狠人!

      陳意小可愛
      2026-02-21 16:24:46
      奧運冠軍萊爾丹破紀錄后露出耐克logo,營銷專家預測或獲百萬美元代言

      奧運冠軍萊爾丹破紀錄后露出耐克logo,營銷專家預測或獲百萬美元代言

      懂球帝
      2026-02-20 17:12:06
      退休后,存款高于“這個數”,你的家庭就很有底氣了,說話都硬氣

      退休后,存款高于“這個數”,你的家庭就很有底氣了,說話都硬氣

      墜入二次元的海洋
      2026-02-10 20:04:42
      別追黃金牛市了!金價破6500美元是比08年次貸危機更狠的危機來了

      別追黃金牛市了!金價破6500美元是比08年次貸危機更狠的危機來了

      別人都叫我阿腈
      2026-02-21 13:31:10
      日本的苦日子,還在后面

      日本的苦日子,還在后面

      六爺阿旦
      2026-01-20 17:07:06
      開打!海上突傳巨大撞擊聲,兩艘美軍艦,撞了!美開火3人被打死

      開打!海上突傳巨大撞擊聲,兩艘美軍艦,撞了!美開火3人被打死

      趣生活
      2026-02-20 21:30:01
      17歲女兒穿著太成熟,母親錄視頻吐槽:像47歲!

      17歲女兒穿著太成熟,母親錄視頻吐槽:像47歲!

      蝴蝶花雨話教育
      2025-11-15 03:40:03
      《低俗小說》演員死因曝光:自己玩槍不慎走火身亡

      《低俗小說》演員死因曝光:自己玩槍不慎走火身亡

      情感大頭說說
      2026-02-19 19:48:20
      “2萬壓歲錢該不該上交父母”引熱議 律師:所有權歸孩子,父母可代管但不能隨意用

      “2萬壓歲錢該不該上交父母”引熱議 律師:所有權歸孩子,父母可代管但不能隨意用

      紅星新聞
      2026-02-20 20:06:09
      從未打過仗的文官,一戰為南宋續命118年,主席稱其“千古一人”

      從未打過仗的文官,一戰為南宋續命118年,主席稱其“千古一人”

      鶴羽說個事
      2026-01-23 16:24:27
      2026-02-21 17:56:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      11245文章數 116973關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      省直機關女工程師陷美男計 拉公職人員丈夫當間諜17年

      頭條要聞

      省直機關女工程師陷美男計 拉公職人員丈夫當間諜17年

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      家居
      藝術
      旅游
      時尚
      房產

      家居要聞

      本真棲居 愛暖伴流年

      藝術要聞

      皇家秘藏的《金剛經》,這才叫最美中國字!

      旅游要聞

      臨沂天上王城春節假期開門紅,好戲連臺過大年

      2026紐約秋冬時裝周,在春天開啟美的新故事!

      房產要聞

      窗前即地標!獨占三亞灣C位 自貿港總裁行宮亮相

      無障礙瀏覽 進入關懷版