<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      一夜兩炸!Opus 4.6 編程能力竟然倒退, OpenAI 炸出首個自我創造的模型

      0
      分享至

      ★ 設為星標 | 只講人話,帶你玩轉AIGC。

      這周一直在蹲 Claude 新版發布,結果沒想到幾個小時前,AI 圈上演了史上最抓馬(Drama)的一幕。

      OpenAI 和 Anthropic 這兩家死對頭,直接開干了。

      本來是 Claude 要發新版,沒想到 OpenAI 也來攪局了。 對于這種不講武德,Anthropic 只能提前 15 分鐘偷跑了!

      其實這兩家的火藥味,在前幾天就已經藏不住了。

      Anthropic 直接在超級碗廣告里面公開諷刺 OpenAI 在 ChatGPT 里植入廣告,那個陰陽怪氣的勁兒,簡直是把桌子都掀了。

      既然兩家已經撕破臉打起了“明牌”,那我們這些打工人也別客氣了。

      今天這篇,就來聊聊這兩個“神仙”到底誰更能打,以及我們該把誰招進團隊?

      01| Claude Opus 4.6:深思熟慮的“老領導”

      Opus 4.6 這次主打一個百萬 token 上下文,以及 Agent team,不過在深入之前,按照慣例我們還是先看看跑分。


      圖:Opus 4.6 參數表

      1. “辦公室的神”實錘了 (Office Tasks & Search)

      這是 Claude 最引以為傲的地方。

      在辦公任務(Office Tasks)上,Opus 4.6 拿到了 1606 分,直接碾壓了 GPT-5.2 的 1462 分。

      這說明在處理復雜的文檔、表格、寫報告這種“白領工作”上,Claude 的優勢巨大。


      之前 Claude 已經發過一個 Excel 插件,這次不僅進行了大幅升級。還新出了一個 PPT 插件,看樣子它是準備把手伸進 Office 全家桶。

      在 Excel里處理完數據,能直接在 PowerPoint 里給你生成 PPT,連你公司的品牌字體、配色模板都能自動對齊 。


      產品經理和咨詢顧問們,顫抖了嗎?

      在搜索能力(BrowseComp)上也是遙遙領先,說明 Claude 更擅長在網頁的海洋里撈出你真正需要的信息,而不是給你扔一堆無關鏈接。

      這對于一個 Agent 來說是極其重要的。

      2. 奇怪的“倒退”:寫代碼居然變差了? (Agentic Coding)

      不知道大家發現沒有,這里有個非常有意思的細節,甚至可以說是“翻車”現場。

      Agentic coding (SWE-bench Verified) Opus 4.6 的得分是 80.8%,而上一代 Opus 4.5 的得分是 80.9%。

      這就詭異了,Opus 一直主打一個編程能力強,新模型居然比老模型低了 0.1%?

      雖然這屬于誤差范圍,但在這種級別的宣傳物料里出現“負增長”是非常罕見的。

      這可能印證了文中提到的“過度思考”問題,因為想得太多,反而把簡單的代碼寫復雜了,導致通過率下降。

      程序員朋友們注意了,寫代碼這事兒,新版 Claude 沒準還不如舊版利索,它可能有點“想太多”。

      3.智能體實測:長了雙手,但腦子有點亂?

      最近的模型看點,其實已經從 AI 的“動嘴”能力轉移到“動手”了,也就是所謂的 Agent 能力。

      在電腦操作(Computer Use)上,Claude Opus 4.6 拿到了 72.7% 的高分。

      這意味著它不再只是給你寫代碼,而是真的能接管鼠標鍵盤,像個活人一樣幫你點開軟件、配置環境。

      但別高興太早,這里藏著一個巨大的雷。

      在大規模工具調度(Scaled Tool Use)上,新模型居然翻車了!

      Opus 4.6 的得分只有 59.5%,不僅輸給了死對頭 GPT-5.2(60.6%),甚至還不如它自己的上一代 Opus 4.5(62.3%)。

      這是什么概念?如果你讓它干一件具體的事(比如在終端編程),它很強(Terminal Coding 65.4%)。

      但如果你一口氣甩給它幾十個工具讓它自己調度,這位“深思熟慮”的老領導可能反而會因為想太多而把自己繞暈。

      想用它搞復雜自動化流程的開發者,心里恐怕得打個鼓了。

      除了這個跑分以外,Opus 4.6 這次還帶了了 2 個真正重磅的更新。

      1. 記憶力怪獸:一口氣吞下 100 萬 Token

      Opus 系列第一次支持 100 萬 token 的上下文窗口,比上一代直接翻了 5 被。

      100 萬 token 是什么概念?

      你把整套《哈利波特》加上你們公司那堆陳年代碼山一起扔進去,它不僅吞得下,還能精準地告訴你第 300 頁代碼里那個變量名拼錯了 。

      用它來寫代碼或者寫書、翻譯的人都很清楚,這個東西是有多重要了。

      而且,它終于治好了 AI 的“金魚腦”。

      以前我們最怕聊著聊著 AI 就忘了前面的設定,但 Opus 4.6 搞了個“記憶壓縮技術”,在腦容量快爆的時候自動把舊信息打包壓縮 。

      這就使得它在很長的上下文檢索或者長語境情況下進行推理,變得非常強。


      這就好比一個永遠隨身帶錄音筆和會議紀要的秘書,想糊弄它?沒門。

      2. 給我配一個“智能體團隊”

      這是我覺得最炸裂的功能。

      在 Claude Code 里,你不再是一對一單挑,而是可以組建一個團隊(Agent Teams)。

      你可以指揮好幾個 AI“分身”同時開工:一個負責寫代碼,一個負責查 Bug,一個負責寫文檔 。

      它們作為一個團隊協同工作,共享任務,互相之間可以進行消息傳遞和集中管理。

      你呢?你只需要像老板一樣,看著它們干活,哪里不對點哪里,或者直接接管其中一個“分身”的操作 。

      這哪是寫代碼,這簡直是在玩《模擬人生》啊!

      現在,Claude 網頁版和 Claude Code上,Claude Opus 4.6 都已經上線了。


      不過,有一說一,Opus 4.6 雖然說自己厲害,但對標的都是 GPT 的前一代 5.2,但跟同時炸出的 5.3 Codex 相比怎么樣呢?

      02 GPT-5.3-Codex:手速驚人的“全能工程師”

      如果說 Claude 是坐辦公室的管理者,那 OpenAI 的 GPT-5.3-Codex 就是那個這輩子不知道什么叫累的超級工程師

      1. 唯快不破,且“自我進化”

      OpenAI 這次就兩個字:快,強。新模型比上一代 GPT-5.2 快了 25% 。

      但最讓我背脊發涼的是這一點:它是自己把自己造出來的。

      OpenAI 的工程師承認,他們大量使用了早期版本的 Codex 來找 Bug、調試訓練過程 。

      AI 開始自我進化了,朋友們,終結者的劇本是不是翻得太快了點?

      2. 編碼及 Agent 能力

      OpenAI 這次不裝了,直接給了 AI 一雙手。

      它在 OSWorld(電腦操作測試)上的得分直接起飛,達到了 64.7%(人類大概是 72%),比上一代基本翻倍了。

      看得出來,OpenAI 在猛干 Codex 的 Agent 能力,不過這個值似乎低于前面的 Opus 4.6(72.7%,已經超越了人類?)


      但細心的你會發現這里面有貓膩。Opus 的是 OSWorld ,而 OpenAI 這里加了個個 Verified。

      簡單來說,Verified 是個升級版,它的難度系數更大,所以這里誰強誰弱還真說不準。(有可能 Codex 更強一點)

      這意味著它不僅能寫代碼,還能像你一樣控制鼠標鍵盤,在電腦上點來點去。

      在測試里,OpenAI 甚至讓它從零開始寫了兩個游戲(賽車和潛水游戲),它就這么自己在電腦上改 Bug、測試、迭代,幾天就搞定了 。

      說到編程能力,這里又和 OSWorld 一樣,兩家的指標不一樣。

      再次的,OpenAI 采用了更嚴格的SWE-Bench Pro,而 Opus 用的是SWE-Bench Verified。

      SWE-Bench Verified 僅測試 Python 編碼能力,而SWE-Bench Pro 涵蓋了 4 種語言,它的挑戰性會高很多。


      兩家唯一共同的指標,也是爭吵最多的指標:Terminal-Bench。

      兩家公司前后腳發布,自然少不了互相拉踩。但這次的數據對比,簡直是一場“羅生門”。

      爭議焦點就是這個 Terminal-Bench 2.0(終端技能)

      Anthropic 宣稱: 我們是 No.1!Opus 4.6 拿到了該測試的最高分。(65.4%)

      但僅僅 15 分鐘后,OpenAI 的報告里赫然寫著:GPT-5.3-Codex 拿了 77.3%。


      3. 它是懂“交互”的

      以前用 AI 寫代碼,最煩它寫一堆你就干等著。

      現在的 GPT-5.3-Codex 會像個坐在你旁邊的同事,一邊寫一邊跟你匯報:“老板,我準備這么改,你覺得行嗎?”

      你可以隨時打斷它,糾正它 。

      這種“結對編程”的感覺,真的太像真人了。

      寫在最后:變天了

      本來這幾天,大家其實都在等咱們自家的“AI 春晚”(畢竟 DeepSeek R2 還沒動靜)。沒想到,大洋彼岸的“科技春晚”先演了一出大戲,還是一場直接掀桌子的硬仗。

      拋開剛才的拉踩不談,透過這兩家打得頭破血流的數據,我們也該看清一個事實:風向徹底變了。

      現在無論是 Claude 想做“全能文員”,還是 GPT-5.3 開始“自我創造”,大家都在死磕同一個方向:Agent(智能體)。

      也就是,少廢話,去干活。

      未來的 AI 戰場,不再是比拼誰更像個百科全書,而是比拼誰能真正接管你的鼠標和鍵盤。

      從寫代碼、修 Bug,到操作 Excel、調度工具,模型的能力正在從“紙上談兵”轉向“真刀真槍”的交付。

      這是一個分水嶺。

      未來的 AI 不再是那個陪你聊天的虛擬網友,而是那個能坐在你工位上,用你的電腦,把你工作干完的——超級同事。

      美國的卷完了,接下來,壓力給到國產模型這邊了。

      (看完覺得有啟發的,點個“贊”、點個??,咱們評論區見!)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      擬并購行業獨角獸!800億市值光伏龍頭,明起停牌

      擬并購行業獨角獸!800億市值光伏龍頭,明起停牌

      每日經濟新聞
      2026-02-24 23:04:06
      趣探:這位漂亮的米脂婆姨,有沒有龜茲血統?

      趣探:這位漂亮的米脂婆姨,有沒有龜茲血統?

      李未熟擒話2
      2026-02-25 09:08:22
      60歲繼父摟腰親吻10歲女童最新進展:涉事老年男子短視頻平臺賬號被禁止關注,內容無法查看

      60歲繼父摟腰親吻10歲女童最新進展:涉事老年男子短視頻平臺賬號被禁止關注,內容無法查看

      大風新聞
      2026-02-25 21:35:03
      同家族近20人在路上祭祖遇車禍,致2死多傷后又遇理賠難,多方回應

      同家族近20人在路上祭祖遇車禍,致2死多傷后又遇理賠難,多方回應

      大風新聞
      2026-02-25 17:00:14
      沖上熱搜!中秋請3天假堪比春節,13天超長假期!最實用拼假攻略已備好

      沖上熱搜!中秋請3天假堪比春節,13天超長假期!最實用拼假攻略已備好

      上觀新聞
      2026-02-25 14:08:57
      央企中標18億大單后離奇棄標,引出儲能項目驚天騙局

      央企中標18億大單后離奇棄標,引出儲能項目驚天騙局

      環球零碳
      2026-02-25 19:24:43
      網友偶遇《天天向上》主持人錢楓,頸部線條消失,身材胖到200斤

      網友偶遇《天天向上》主持人錢楓,頸部線條消失,身材胖到200斤

      師維
      2026-02-25 19:43:51
      大理拖車4公里1400元:車主硬剛到底,曝光換胎公司,誰都跑不了

      大理拖車4公里1400元:車主硬剛到底,曝光換胎公司,誰都跑不了

      離離言幾許
      2026-02-25 16:13:29
      小米起訴自媒體索賠500萬,賬號主體實控人為蔚來創始人李斌

      小米起訴自媒體索賠500萬,賬號主體實控人為蔚來創始人李斌

      新浪財經
      2026-02-25 18:49:08
      疑系統錯誤致“欠款一千萬億”記錄,男子索賠200萬能成嗎?

      疑系統錯誤致“欠款一千萬億”記錄,男子索賠200萬能成嗎?

      紅星新聞
      2026-02-25 15:02:59
      蘋果新品官宣:2月24日,正式開售

      蘋果新品官宣:2月24日,正式開售

      科技堡壘
      2026-02-24 15:01:58
      上海一行人橫穿快速路被撞身亡,家屬索賠150萬,法院判決司機等無責

      上海一行人橫穿快速路被撞身亡,家屬索賠150萬,法院判決司機等無責

      上觀新聞
      2026-02-25 18:39:10
      含淚告別賽場!43歲了,已經是個傳奇!

      含淚告別賽場!43歲了,已經是個傳奇!

      德譯洋洋
      2026-02-25 12:20:33
      張蘭撒謊風波升級!細節證明孩子非新生兒,產房被扒是月子中心

      張蘭撒謊風波升級!細節證明孩子非新生兒,產房被扒是月子中心

      古希臘掌管月桂的神
      2026-02-25 16:35:25
      俄記者曝大瓜:俄軍進攻潛力耗盡,英國否定英法用核彈保護烏克蘭

      俄記者曝大瓜:俄軍進攻潛力耗盡,英國否定英法用核彈保護烏克蘭

      史政先鋒
      2026-02-25 19:08:44
      離大譜,楊瀚森紀念杯上的中國地圖缺失海南、臺灣及藏南地區

      離大譜,楊瀚森紀念杯上的中國地圖缺失海南、臺灣及藏南地區

      懂球帝
      2026-02-25 18:59:03
      60歲馬麗近照,被富豪丈夫獨寵38年,兒子成了她的驕傲

      60歲馬麗近照,被富豪丈夫獨寵38年,兒子成了她的驕傲

      悅君兮君不知
      2026-02-24 22:45:55
      星鏈大降價!馬斯克:無關競爭對手 我只想平價服務大眾

      星鏈大降價!馬斯克:無關競爭對手 我只想平價服務大眾

      快科技
      2026-02-25 10:33:12
      比亞迪連續40個月銷冠被終結

      比亞迪連續40個月銷冠被終結

      大象新聞
      2026-02-24 09:44:05
      官方通報“首都博物館觀眾留言當天就被丟進垃圾桶”

      官方通報“首都博物館觀眾留言當天就被丟進垃圾桶”

      閃電新聞
      2026-02-25 20:08:35
      2026-02-26 00:48:49
      AI范兒 incentive-icons
      AI范兒
      AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
      664文章數 456關注度
      往期回顧 全部

      科技要聞

      “機器人只跳舞,沒什么用”

      頭條要聞

      女子爬山失聯10天后遺體被找到 丈夫:她登頂神情恐懼

      頭條要聞

      女子爬山失聯10天后遺體被找到 丈夫:她登頂神情恐懼

      體育要聞

      勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

      娛樂要聞

      黃曉明新戀情!與小22歲美女同游新加坡

      財經要聞

      上海樓市放大招,地產預期別太大

      汽車要聞

      750km超長續航 2026款小鵬X9純電版將于3月2日上市

      態度原創

      本地
      數碼
      房產
      旅游
      公開課

      本地新聞

      津南好·四時總相宜

      數碼要聞

      超頻三銀翼DT360 Max ARGB Display一體式水冷開售,1299元

      房產要聞

      海南樓市春節熱銷地圖曝光!三亞、陵水又殺瘋了!

      旅游要聞

      “四省人氣”匯聚單縣浮龍湖

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版