<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      硬碰硬!剛剛,Claude Opus 4.6與GPT-5.3-Codex同時發布

      0
      分享至



      機器之心編輯部

      在春節來臨之前,海外大模型先來了一波硬碰硬的發布。

      北京時間 2 月 6 日凌晨,Anthropic 與 OpenAI 相繼推出了新版本基礎大模型,分別是 Claude Opus 4.6 與 GPT-5.3-Codex。





      昨天兩家還在因為 AI 里面的廣告而論戰,今天在大模型發布上又撞車了。話不多說,直接看他們的模型能力如何。

      Claude Opus 4.6

      Claude Opus 4.6 是 Anthropic 對其旗艦人工智能模型的一次重大升級。在這代模型上,規劃更加謹慎,能夠維持更長時間的自主工作流程,并在關鍵的企業基準測試中超越了包括 GPT-5.2 在內的競爭對手。

      新模型首次擁有 100 萬 token 的上下文窗口,使 AI 能夠處理和推理比以往版本多得多的信息。Anthropic 還在 Claude Code 中引入了類似于 Kimi K2.5 的「智能體團隊」功能—— 一項研究預覽功能,它允許多個 AI 智能體同時處理編碼項目的不同方面,并進行自主協調。

      Anthropic 強調,Opus 4.6 可將其增強的功能應用于一系列日常工作任務,包括運行財務分析、進行研究以及使用和創建文檔、電子表格和演示文稿。現在在 Cowork 環境中,Claude 可以自主地執行多任務,Opus 4.6 可以代表人類運用所有這些技能。

      Opus 4.6 在多項評估中均表現出色。例如,它在智能體編碼評估工具 Terminal-Bench 2.0 中取得了最高分,并在「人類最后的考試」(一項復雜的多學科推理測試)中領先于所有其他前沿模型。在 GDPval-AA(一項評估模型在金融、法律和其他領域中具有經濟價值的知識工作任務上的表現的測試)中, Opus 4.6 的表現比業界次優模型(OpenAI 的 GPT-5.2)高出約 144 個 Elo 分數,比其前身(Claude Opus 4.5)高出 190 分。此外,Opus 4.6 在 BrowseComp 測試中也優于其他所有模型,該測試用于衡量模型在線查找難尋信息的能力。



      Claude Opus 4.6 現已在 claude.ai、API 以及所有主流云平臺上線,定價保持不變,每百萬 token 5 美元 / 25 美元。

      目前大模型的一個常見問題是「上下文腐爛」,即當對話 token 數量超過一定閾值時,模型性能會下降。Opus 4.6 的性能顯著優于其前代產品:在 MRCR v2 的 8 針 1M 變體測試中(該測試如同大海撈針),Opus 4.6 的得分為 76%,而 Sonnet 4.5 的得分僅為 18.5%。這標志著模型在保持最佳性能的同時,能夠利用的上下文信息量發生了質的飛躍。

      為了證明 Opus 4.6 的強大智能體能力,Anthropic 的一名研究員使用 16 個智能體從零開始構建了一個基于 Rust 的 C 語言編譯器,設定任務后就基本放手不管了。最后 AI 輸出的代碼長達 10 萬行,可以編譯 Linux 內核,耗資 2 萬美元,超過 2000 次 Claude Code 會話,歷時兩周。



      該編譯器可以在 x86、ARM 和 RISC-V 上構建可啟動的 Linux 6.9,它通過了 GCC 99% 的壓力測試,可以編譯 FFmpeg、Redis、PostgreSQL、QEMU,還通過了開發者的終極考驗:編譯并運行了 Doom 游戲。

      該編譯器的代碼:https://github.com/anthropics/claudes-c-compiler



      雖然沒有人類參與編寫代碼,但研究人員不斷重新設計測試,在智能體程序互相干擾時構建 CI 管道,并在所有 16 個智能體程序都卡在同一個 bug 時創建變通方法。

      看起來,在未來加入 AI 的工作流程中,人的角色已經從編寫代碼轉變為構建讓 AI 能夠編寫代碼的環境。

      GPT-5.3-Codex

      在 OpenAI 這邊,新一代模型 GPT-5.3-Codex 的發布緊隨其后。奧特曼稱其擁有目前最佳的編碼性能,進一步釋放了 Codex 的潛能。

      GPT-5.3-Codex 在多項基準上刷新紀錄:在 SWE-Bench Pro 上達到 56.8%,在 Terminal-Bench 2.0 上達到 77.3%,同時相比此前版本運行更快、消耗的 token 更少。







      OpenAI 表示,該模型融合了 GPT-5.2-Codex 的前沿編碼性能和 GPT-5.2 的推理及專業知識能力,速度提升了 25%。這使其能夠勝任需要研究、工具使用和復雜執行的長時間任務。

      它就像一位真正的同事一樣,你可以在 GPT-5.3-Codex 工作時對其進行指導和交互,而不會丟失上下文信息。借助 GPT-5.3-Codex,Codex 從一個能夠編寫和審查代碼的代理,變成了一個幾乎可以執行開發人員和專業人士在計算機上的任何操作的代理。

      除了更加強大的編碼能力外,GPT-5.2-Codex 在 OpenAI 長期關注的美學方面又一次有了長足的進步。

      在這次發布中,OpenAI 讓 GPT-5.3-Codex 構建了兩款游戲:一款是 Codex 應用發布時推出的賽車游戲的第二版,另一款是潛水游戲。



      OpenAI 表示,GPT-5.3-Codex 利用其網頁游戲開發技能以及預先設定的通用后續提示(例如「修復錯誤」或「改進游戲」),自主地迭代開發了數百萬個 token。

      這次發布的 GPT-5.3-Codex ,OpenAI 對其的期望遠不止步于一個智能編碼模型,而是一個能夠「Beyond coding」,實現工作助理的智能體。

      GPT-5.3-Codex 能夠支持軟件生命周期中的所有工作 —— 調試、部署、監控、編寫產品需求文檔、編輯文案、用戶研究、測試、指標分析等等。



      GPT-5.3-Codex 輸出凈值分析表格示例

      OpenAI 認為,隨著模型能力的不斷增強,差距不再僅僅在于智能體能夠做什么,而是在于人類如何輕松地與多個并行工作的智能體進行交互、指導和監督。鑒于此,Codex 應用可以讓管理和指導智能體變得更加便捷,而 GPT-5.3-Codex 的加入更使其交互性更強。

      借助新模型,Codex 會頻繁更新,讓你隨時了解關鍵決策和進展。人們無需等待最終輸出,即可實時互動 —— 提出問題、討論方法,并共同探索解決方案。GPT-5.3-Codex 會語音播報其運行過程,響應反饋,并讓你從始至終掌握整個流程。

      最后,OpenAI 表示,GPT-5.3-Codex 的訓練和部署使用了 Codex,OpenAI 的許多研究人員和工程師都表示,他們現在的工作與兩個月前相比發生了根本性的變化。

      例如,研究團隊使用 Codex 來監控和調試本次版本的訓練運行。它不僅加速了基礎設施問題的調試,還幫助追蹤整個訓練過程中的模式,對交互質量進行深入分析,提出修復方案,并構建了豐富的應用程序,使研究人員能夠精確地了解模型行為與先前模型之間的差異。

      工程團隊使用 Codex 對 GPT-5.3-Codex 框架進行了優化和適配。當出現影響用戶的異常極端情況時,團隊成員利用 Codex 識別上下文渲染錯誤,并找出緩存命中率低的根本原因。在整個發布過程中,GPT-5.3-Codex 通過動態擴展 GPU 集群來應對流量高峰并保持延遲穩定,持續為團隊提供支持。

      在 Alpha 測試期間,一位研究人員想要了解 GPT-5.3-Codex 每回合能完成多少額外工作,以及由此帶來的生產力提升。GPT-5.3-Codex 生成了幾個簡單的正則表達式分類器,用于估算用戶澄清請求的頻率、正面和負面反饋以及任務進度,然后將這些分類器可擴展地應用于所有會話日志,并生成一份包含結論的報告。

      GPT-5.3-Codex 已包含在 ChatGPT 的付費套餐中,但 API 還需要等待一段時間。

      OpenAI 報告說,由于基礎設施和推理堆棧的改進,Codex 用戶現在運行 GPT-5.3-Codex 的速度也提高了 25%,從而實現了更快的交互和更快的結果。

      結語

      海外的大模型已經輪番上陣,在春節前的最后這幾天,國內大模型也必然會卷起來,包括 DeepSeek v4 也許即將到來。



      你期待住了嗎?

      參考內容:

      https://www.anthropic.com/news/claude-opus-4-6

      https://www.anthropic.com/engineering/building-c-compiler

      https://openai.com/index/introducing-gpt-5-3-codex/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      反常識?技術門檻很低的增程技術,為什么越賣越貴?

      反常識?技術門檻很低的增程技術,為什么越賣越貴?

      少數派報告Report
      2026-02-21 07:58:37
      王楚然的長相和身材,幾乎都挑不出毛病,這在娛樂圈其實挺少見。

      王楚然的長相和身材,幾乎都挑不出毛病,這在娛樂圈其實挺少見。

      小椰的奶奶
      2026-02-22 01:57:14
      金風科技這回沒人能攔住了

      金風科技這回沒人能攔住了

      蔚然先聲
      2026-02-22 08:31:55
      隨著皇馬爆大冷門1-2,馬競4-2,西甲最新積分榜出爐

      隨著皇馬爆大冷門1-2,馬競4-2,西甲最新積分榜出爐

      側身凌空斬
      2026-02-22 08:03:36
      格林壓哨三分絕殺!狄龍7分鐘傷退太陽雙加時險勝魔術 貝恩34分

      格林壓哨三分絕殺!狄龍7分鐘傷退太陽雙加時險勝魔術 貝恩34分

      醉臥浮生
      2026-02-22 09:02:30
      戰場變泥潭,俄烏兩軍同時迎來苦難期,杜金建議綁架烏克蘭高層

      戰場變泥潭,俄烏兩軍同時迎來苦難期,杜金建議綁架烏克蘭高層

      史政先鋒
      2026-02-20 21:15:35
      江蘇壓力太大返程擁堵提前,沈海高速鹽靖高速新揚高速堵成一鍋粥

      江蘇壓力太大返程擁堵提前,沈海高速鹽靖高速新揚高速堵成一鍋粥

      小蜜情感說
      2026-02-21 00:27:41
      告訴大家一個壞消息:過年期間北京、上海出現4大怪象,正在蔓延

      告訴大家一個壞消息:過年期間北京、上海出現4大怪象,正在蔓延

      小蜜情感說
      2026-02-21 22:26:24
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      升糖最快的主食被揪出,是白米飯的8倍,專家:糖尿病人別吃了

      升糖最快的主食被揪出,是白米飯的8倍,專家:糖尿病人別吃了

      小舟談歷史
      2025-10-13 09:19:21
      西部最新排名:鵜鶘爆冷大勝,湖人坐收好禮,馬刺劍指西部第一

      西部最新排名:鵜鶘爆冷大勝,湖人坐收好禮,馬刺劍指西部第一

      籃球大視野
      2026-02-22 14:37:33
      你有知道哪些炸裂的秘密?網友:我有個秘密說出來肯定大家要笑死

      你有知道哪些炸裂的秘密?網友:我有個秘密說出來肯定大家要笑死

      帶你感受人間冷暖
      2026-01-29 00:10:05
      李易峰泰國復出割韭菜!高價門票秒搶光,痛哭賣慘,吃相不要太難看

      李易峰泰國復出割韭菜!高價門票秒搶光,痛哭賣慘,吃相不要太難看

      八卦王者
      2026-02-22 14:23:24
      賄賂安保,中國導游十年用同一張門票進盧浮宮

      賄賂安保,中國導游十年用同一張門票進盧浮宮

      凱利經濟觀察
      2026-02-20 11:43:34
      攻不了,也守不住?中國空軍在西藏上空,被印度空軍足足欺負40年

      攻不了,也守不住?中國空軍在西藏上空,被印度空軍足足欺負40年

      來科點譜
      2026-02-22 07:15:34
      正月初七人日節,4個忌諱要牢記:1不拜,2要吃,3不吃,4不洗

      正月初七人日節,4個忌諱要牢記:1不拜,2要吃,3不吃,4不洗

      簡食記工作號
      2026-02-22 00:07:32
      “繼承權”無需再爭!2026新規落地:父母房產按“這些規則”處理

      “繼承權”無需再爭!2026新規落地:父母房產按“這些規則”處理

      復轉這些年
      2026-01-27 03:00:03
      谷愛凌沖金賽恐取消?若暴雪持續,U池決賽或取消改為直接頒獎

      谷愛凌沖金賽恐取消?若暴雪持續,U池決賽或取消改為直接頒獎

      林子說事
      2026-02-22 10:38:54
      兩名女孩扶人被索賠22萬,媒體公眾皆反對,但老太太占盡法律優勢

      兩名女孩扶人被索賠22萬,媒體公眾皆反對,但老太太占盡法律優勢

      讀鬼筆記
      2026-02-21 09:37:52
      黃金,即將爆發!

      黃金,即將爆發!

      楊子黃金
      2026-02-22 12:49:01
      2026-02-22 15:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12325文章數 142569關注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發射超過10000顆衛星

      頭條要聞

      媒體:美對華貿易戰主力工具是301條款 此次裁決未觸及

      頭條要聞

      媒體:美對華貿易戰主力工具是301條款 此次裁決未觸及

      體育要聞

      徐夢桃:這是我第一塊銅牌 給我換個吉祥物

      娛樂要聞

      裴世矩養侄為刃 看懂兩次放行裴行儼!

      財經要聞

      特朗普新加征關稅稅率從10%提升至15%

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      游戲
      手機
      親子
      本地
      公開課

      魔獸世界時光服:P2階段最值得入手的專業極品,你穿上去了嗎?

      手機要聞

      年后大戰一觸即發,vivo、OPPO、小米全在路上

      親子要聞

      過年3歲女兒給媽媽發錢,讓媽媽給她磕個頭,真讓人哭笑不得

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版