<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<pre id="x7zjf"></pre>

<tr id="x7zjf"></tr>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

一夜兩炸！Opus 4.6 編程能力竟然倒退， OpenAI 炸出首個自我創造的模型

2026-02-06 09:05:35　來源: AI范兒

上海舉報

0

分享至

★ 設為星標 | 只講人話，帶你玩轉AIGC。

這周一直在蹲 Claude 新版發布，結果沒想到幾個小時前，AI 圈上演了史上最抓馬（Drama）的一幕。

OpenAI 和 Anthropic 這兩家死對頭，直接開干了。

本來是 Claude 要發新版，沒想到 OpenAI 也來攪局了。對于這種不講武德，Anthropic 只能提前 15 分鐘偷跑了！

其實這兩家的火藥味，在前幾天就已經藏不住了。

Anthropic 直接在超級碗廣告里面公開諷刺 OpenAI 在 ChatGPT 里植入廣告，那個陰陽怪氣的勁兒，簡直是把桌子都掀了。

既然兩家已經撕破臉打起了“明牌”，那我們這些打工人也別客氣了。

今天這篇，就來聊聊這兩個“神仙”到底誰更能打，以及我們該把誰招進團隊？

01｜ Claude Opus 4.6：深思熟慮的“老領導”

Opus 4.6 這次主打一個百萬 token 上下文，以及 Agent team，不過在深入之前，按照慣例我們還是先看看跑分。

圖：Opus 4.6 參數表

1. “辦公室的神”實錘了 (Office Tasks & Search)

這是 Claude 最引以為傲的地方。

在辦公任務（Office Tasks）上，Opus 4.6 拿到了 1606 分，直接碾壓了 GPT-5.2 的 1462 分。

這說明在處理復雜的文檔、表格、寫報告這種“白領工作”上，Claude 的優勢巨大。

之前 Claude 已經發過一個 Excel 插件，這次不僅進行了大幅升級。還新出了一個 PPT 插件，看樣子它是準備把手伸進 Office 全家桶。

在 Excel里處理完數據，能直接在 PowerPoint 里給你生成 PPT，連你公司的品牌字體、配色模板都能自動對齊。

產品經理和咨詢顧問們，顫抖了嗎？

在搜索能力（BrowseComp）上也是遙遙領先，說明 Claude 更擅長在網頁的海洋里撈出你真正需要的信息，而不是給你扔一堆無關鏈接。

這對于一個 Agent 來說是極其重要的。

2. 奇怪的“倒退”：寫代碼居然變差了？ (Agentic Coding)

不知道大家發現沒有，這里有個非常有意思的細節，甚至可以說是“翻車”現場。

Agentic coding (SWE-bench Verified) Opus 4.6 的得分是 80.8%，而上一代 Opus 4.5 的得分是 80.9%。

這就詭異了，Opus 一直主打一個編程能力強，新模型居然比老模型低了 0.1%？

雖然這屬于誤差范圍，但在這種級別的宣傳物料里出現“負增長”是非常罕見的。

這可能印證了文中提到的“過度思考”問題，因為想得太多，反而把簡單的代碼寫復雜了，導致通過率下降。

程序員朋友們注意了，寫代碼這事兒，新版 Claude 沒準還不如舊版利索，它可能有點“想太多”。

3.智能體實測：長了雙手，但腦子有點亂？

最近的模型看點，其實已經從 AI 的“動嘴”能力轉移到“動手”了，也就是所謂的 Agent 能力。

在電腦操作（Computer Use）上，Claude Opus 4.6 拿到了 72.7% 的高分。

這意味著它不再只是給你寫代碼，而是真的能接管鼠標鍵盤，像個活人一樣幫你點開軟件、配置環境。

但別高興太早，這里藏著一個巨大的雷。

在大規模工具調度（Scaled Tool Use）上，新模型居然翻車了！

Opus 4.6 的得分只有 59.5%，不僅輸給了死對頭 GPT-5.2（60.6%），甚至還不如它自己的上一代 Opus 4.5（62.3%）。

這是什么概念？如果你讓它干一件具體的事（比如在終端編程），它很強（Terminal Coding 65.4%）。

但如果你一口氣甩給它幾十個工具讓它自己調度，這位“深思熟慮”的老領導可能反而會因為想太多而把自己繞暈。

想用它搞復雜自動化流程的開發者，心里恐怕得打個鼓了。

除了這個跑分以外，Opus 4.6 這次還帶了了 2 個真正重磅的更新。

1. 記憶力怪獸：一口氣吞下 100 萬 Token

Opus 系列第一次支持 100 萬 token 的上下文窗口，比上一代直接翻了 5 被。

100 萬 token 是什么概念？

你把整套《哈利波特》加上你們公司那堆陳年代碼山一起扔進去，它不僅吞得下，還能精準地告訴你第 300 頁代碼里那個變量名拼錯了。

用它來寫代碼或者寫書、翻譯的人都很清楚，這個東西是有多重要了。

而且，它終于治好了 AI 的“金魚腦”。

以前我們最怕聊著聊著 AI 就忘了前面的設定，但 Opus 4.6 搞了個“記憶壓縮技術”，在腦容量快爆的時候自動把舊信息打包壓縮。

這就使得它在很長的上下文檢索或者長語境情況下進行推理，變得非常強。

這就好比一個永遠隨身帶錄音筆和會議紀要的秘書，想糊弄它？沒門。

2. 給我配一個“智能體團隊”

這是我覺得最炸裂的功能。

在 Claude Code 里，你不再是一對一單挑，而是可以組建一個團隊（Agent Teams）。

你可以指揮好幾個 AI“分身”同時開工：一個負責寫代碼，一個負責查 Bug，一個負責寫文檔。

它們作為一個團隊協同工作，共享任務，互相之間可以進行消息傳遞和集中管理。

你呢？你只需要像老板一樣，看著它們干活，哪里不對點哪里，或者直接接管其中一個“分身”的操作。

這哪是寫代碼，這簡直是在玩《模擬人生》啊！

現在，Claude 網頁版和 Claude Code上，Claude Opus 4.6 都已經上線了。

不過，有一說一，Opus 4.6 雖然說自己厲害，但對標的都是 GPT 的前一代 5.2，但跟同時炸出的 5.3 Codex 相比怎么樣呢？

02 GPT-5.3-Codex：手速驚人的“全能工程師”

如果說 Claude 是坐辦公室的管理者，那 OpenAI 的 GPT-5.3-Codex 就是那個這輩子不知道什么叫累的超級工程師

1. 唯快不破，且“自我進化”

OpenAI 這次就兩個字：快，強。新模型比上一代 GPT-5.2 快了 25% 。

但最讓我背脊發涼的是這一點：它是自己把自己造出來的。

OpenAI 的工程師承認，他們大量使用了早期版本的 Codex 來找 Bug、調試訓練過程。

AI 開始自我進化了，朋友們，終結者的劇本是不是翻得太快了點？

2. 編碼及 Agent 能力

OpenAI 這次不裝了，直接給了 AI 一雙手。

它在 OSWorld（電腦操作測試）上的得分直接起飛，達到了 64.7%（人類大概是 72%），比上一代基本翻倍了。

看得出來，OpenAI 在猛干 Codex 的 Agent 能力，不過這個值似乎低于前面的 Opus 4.6（72.7%，已經超越了人類？）

但細心的你會發現這里面有貓膩。Opus 的是 OSWorld ，而 OpenAI 這里加了個個 Verified。

簡單來說，Verified 是個升級版，它的難度系數更大，所以這里誰強誰弱還真說不準。（有可能 Codex 更強一點）

這意味著它不僅能寫代碼，還能像你一樣控制鼠標鍵盤，在電腦上點來點去。

在測試里，OpenAI 甚至讓它從零開始寫了兩個游戲（賽車和潛水游戲），它就這么自己在電腦上改 Bug、測試、迭代，幾天就搞定了。

說到編程能力，這里又和 OSWorld 一樣，兩家的指標不一樣。

再次的，OpenAI 采用了更嚴格的SWE-Bench Pro，而 Opus 用的是SWE-Bench Verified。

SWE-Bench Verified 僅測試 Python 編碼能力，而SWE-Bench Pro 涵蓋了 4 種語言，它的挑戰性會高很多。

兩家唯一共同的指標，也是爭吵最多的指標：Terminal-Bench。

兩家公司前后腳發布，自然少不了互相拉踩。但這次的數據對比，簡直是一場“羅生門”。

爭議焦點就是這個 Terminal-Bench 2.0（終端技能）

Anthropic 宣稱：我們是 No.1！Opus 4.6 拿到了該測試的最高分。（65.4%）

但僅僅 15 分鐘后，OpenAI 的報告里赫然寫著：GPT-5.3-Codex 拿了 77.3%。

3. 它是懂“交互”的

以前用 AI 寫代碼，最煩它寫一堆你就干等著。

現在的 GPT-5.3-Codex 會像個坐在你旁邊的同事，一邊寫一邊跟你匯報：“老板，我準備這么改，你覺得行嗎？”

你可以隨時打斷它，糾正它。

這種“結對編程”的感覺，真的太像真人了。

寫在最后：變天了

本來這幾天，大家其實都在等咱們自家的“AI 春晚”（畢竟 DeepSeek R2 還沒動靜）。沒想到，大洋彼岸的“科技春晚”先演了一出大戲，還是一場直接掀桌子的硬仗。

拋開剛才的拉踩不談，透過這兩家打得頭破血流的數據，我們也該看清一個事實：風向徹底變了。

現在無論是 Claude 想做“全能文員”，還是 GPT-5.3 開始“自我創造”，大家都在死磕同一個方向：Agent（智能體）。

也就是，少廢話，去干活。

未來的 AI 戰場，不再是比拼誰更像個百科全書，而是比拼誰能真正接管你的鼠標和鍵盤。

從寫代碼、修 Bug，到操作 Excel、調度工具，模型的能力正在從“紙上談兵”轉向“真刀真槍”的交付。

這是一個分水嶺。

未來的 AI 不再是那個陪你聊天的虛擬網友，而是那個能坐在你工位上，用你的電腦，把你工作干完的——超級同事。

美國的卷完了，接下來，壓力給到國產模型這邊了。

(看完覺得有啟發的，點個“贊”、點個??，咱們評論區見！)

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI記住失敗經驗：微軟提出Re-TRAC框架，4B性能SOTA，30B超越358B

機器之心Pro 2026-02-25 17:33:51
0 跟貼 0
Clawdbot進化速度離譜：突然開口說話，給自己捏臉，還能炒股砍價

DeepTech深科技 2026-01-29 18:14:10
539 跟貼 539

谷歌急了！OpenClaw創始人剛跳槽OpenAI，付費用戶連夜被封號

雷科技 2026-02-25 21:48:33
0 跟貼 0

馬年4大頂流模型會師阿里云Coding Plan開工！Token量大管飽

量子位 2026-02-25 23:10:53
0 跟貼 0
“OpenClaw之父”：當“實驗項目”變成“全球爆款”，軟件開發本質已變——代碼已死、意圖永生

華爾街見聞官方 2026-02-25 11:17:27
2 跟貼 2

MiniMax來承包你的桌面了-4

機器之心Pro 2026-01-20 20:19:42
0 跟貼 0

一鍵搞定百萬行Excel和PPT排版！這杭州電力AI初創要給打工人減負

量子位 2026-02-13 12:02:53
0 跟貼 0
三維空間太難懂？2

機器之心Pro 2025-12-31 13:49:19
0 跟貼 0

「史上最猛」的春節營銷：阿里奇襲、豆包守擂、華米OV玩出花了

雷科技 2026-02-25 22:07:00
0 跟貼 0
春節教母親用AI實錄：打斷AI不禮貌，但“AI熱情”僅維持三分鐘

雷科技 2026-02-25 21:56:35
0 跟貼 0
MiniMax又來吃龍蝦肉了！OpenClaw真一鍵部署，還有上萬智能體

量子位 2026-02-25 23:52:50
0 跟貼 0
訓練獎勵太稀疏？港中文聯合美團給Agent加上「過程分」

機器之心Pro 2026-02-25 17:27:26
0 跟貼 0
消費級顯卡可跑！剛剛，阿里Qwen3.5又開源3款新模型

機器之心Pro 2026-02-25 17:09:48
2 跟貼 2
和女朋友冷戰想辦法緩和，男人沒說一句話，只是打開一個軟件！

搞怪藝術家 2026-02-21 11:00:00
148 跟貼 148
美國高薪挖走中國頂尖人才，一周4人年薪億美元引關注

何嗀愛捕漁 2026-02-25 15:32:27
1 跟貼 1
土耳其五代機完成迭代！三架原型機同時亮相，設計更加完善

精彩不容錯過 2026-02-23 18:54:45
40 跟貼 40
順網科技：公司推出了AI云電腦，內置多類AI基礎應用，覆蓋圖片/視頻/音樂生成、編程輔助等應用

每日經濟新聞 2026-02-25 21:15:06
0 跟貼 0
如果你也養“龍蝦”，阿里云這次把token價格打穿了

每日經濟新聞 2026-02-25 22:07:09
0 跟貼 0
具身大腦項目，扎堆晉升獨角獸！

財聯社 2026-02-25 19:32:04
0 跟貼 0
PCgamer專訪魔獸世界首席戰斗設計師：不會再一味的朝你發射更多子彈

山西三炮 2026-02-25 08:44:26
2 跟貼 2
暴雪：由于禁用插件，新團本里很多機制是過去幾年不敢想象的！

魔獸世界研究所 2026-02-25 15:40:54
1 跟貼 1
龍蝦之父新訪談，OpenClaw內幕公開！攔不住濫用，只勸大家別玩火

量子位 2026-02-25 13:46:20
2 跟貼 2
5000億美元牛皮吹破了？特朗普的“星際之門”黃了，一年都沒動工

科技專家 2026-02-25 16:19:49
0 跟貼 0
300多只東北虎“輕斷食”？景區：每天斷食1個園，司機會帶游客找可投喂區

封面新聞 2026-02-23 16:29:03
1660 跟貼 1660
哈爾濱冰雪大世界：正式閉園

大風新聞 2026-02-21 20:36:03
1869 跟貼 1869
嫌疑人當面刪代碼，挑釁警察不懂技術，警察自爆身份嚇傻嫌疑人

惠娥輕笑 2026-02-24 10:41:45
1 跟貼 1
PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0
智能體基礎設施是AI時代操作系統，真正的智能體要能思考、能分析，能行動

量子位 2025-12-11 03:38:22
0 跟貼 0
爆火！把智能體當游戲角色來玩，一個人就是一個公司

機器之心Pro 2026-02-12 18:04:44
0 跟貼 0
中華人民共和國和德意志聯邦共和國聯合新聞聲明

新華社 2026-02-25 21:46:25
564 跟貼 564
金字塔碳14檢測后，真相混亂到讓學界集體“瘋魔”

混沌錄 2026-02-25 22:30:19
1 跟貼 1
斯坦福氛圍編程課火了！用AI搞定軟件開發全流程

量子位 2026-02-25 09:55:05
0 跟貼 0
沖上熱搜！中秋請3天假堪比春節，13天超長假期！最實用拼假攻略已備好

上觀新聞 2026-02-25 14:08:57
695 跟貼 695
俄對外情報局稱英國和法國正準備向烏克蘭轉讓核武器，外交部表態

環球網資訊 2026-02-25 15:31:00
409 跟貼 409
日韓股市集體收漲韓國綜指首次收于6000點上方

財聯社 2026-02-25 14:32:27
931 跟貼 931
施工現場磚塊運輸過程，看著有點像模型，竟還有點好玩！

幽默小火山 2026-02-25 11:39:53
1 跟貼 1
美媒：比爾·蓋茨就其與愛潑斯坦關系向蓋茨基金會員工道歉

環球網資訊 2026-02-25 14:04:22
486 跟貼 486
OpenAI CEO山姆奧特曼：機器人戰爭并不令人恐懼，真正令人恐懼的是...

知了3C 2026-02-24 23:46:19
0 跟貼 0
技術不過關少走云貴川？分享9條老司機才敢走的盤山公路

愛笑無厘頭 2026-02-25 15:46:23
1 跟貼 1
微信出新功能，網友：簡直是社恐福音

南方都市報 2026-02-25 16:59:07
12 跟貼 12

擬并購行業獨角獸！800億市值光伏龍頭，明起停牌

擬并購行業獨角獸！800億市值光伏龍頭，明起停牌

每日經濟新聞

2026-02-24 23:04:06

趣探：這位漂亮的米脂婆姨，有沒有龜茲血統？

趣探：這位漂亮的米脂婆姨，有沒有龜茲血統？

李未熟擒話2

2026-02-25 09:08:22

60歲繼父摟腰親吻10歲女童最新進展：涉事老年男子短視頻平臺賬號被禁止關注，內容無法查看

60歲繼父摟腰親吻10歲女童最新進展：涉事老年男子短視頻平臺賬號被禁止關注，內容無法查看

大風新聞

2026-02-25 21:35:03

同家族近20人在路上祭祖遇車禍，致2死多傷后又遇理賠難，多方回應

同家族近20人在路上祭祖遇車禍，致2死多傷后又遇理賠難，多方回應

大風新聞

2026-02-25 17:00:14

沖上熱搜！中秋請3天假堪比春節，13天超長假期！最實用拼假攻略已備好

沖上熱搜！中秋請3天假堪比春節，13天超長假期！最實用拼假攻略已備好

上觀新聞

2026-02-25 14:08:57

央企中標18億大單后離奇棄標，引出儲能項目驚天騙局

央企中標18億大單后離奇棄標，引出儲能項目驚天騙局

環球零碳

2026-02-25 19:24:43

網友偶遇《天天向上》主持人錢楓，頸部線條消失，身材胖到200斤

網友偶遇《天天向上》主持人錢楓，頸部線條消失，身材胖到200斤

師維

2026-02-25 19:43:51

大理拖車4公里1400元：車主硬剛到底，曝光換胎公司，誰都跑不了

大理拖車4公里1400元：車主硬剛到底，曝光換胎公司，誰都跑不了

離離言幾許

2026-02-25 16:13:29

小米起訴自媒體索賠500萬，賬號主體實控人為蔚來創始人李斌

小米起訴自媒體索賠500萬，賬號主體實控人為蔚來創始人李斌

新浪財經

2026-02-25 18:49:08

疑系統錯誤致“欠款一千萬億”記錄，男子索賠200萬能成嗎？

疑系統錯誤致“欠款一千萬億”記錄，男子索賠200萬能成嗎？

紅星新聞

2026-02-25 15:02:59

蘋果新品官宣：2月24日，正式開售

蘋果新品官宣：2月24日，正式開售

科技堡壘

2026-02-24 15:01:58

上海一行人橫穿快速路被撞身亡，家屬索賠150萬，法院判決司機等無責

上海一行人橫穿快速路被撞身亡，家屬索賠150萬，法院判決司機等無責

上觀新聞

2026-02-25 18:39:10

含淚告別賽場！43歲了，已經是個傳奇！

含淚告別賽場！43歲了，已經是個傳奇！

德譯洋洋

2026-02-25 12:20:33

張蘭撒謊風波升級！細節證明孩子非新生兒，產房被扒是月子中心

張蘭撒謊風波升級！細節證明孩子非新生兒，產房被扒是月子中心

古希臘掌管月桂的神

2026-02-25 16:35:25

俄記者曝大瓜：俄軍進攻潛力耗盡，英國否定英法用核彈保護烏克蘭

俄記者曝大瓜：俄軍進攻潛力耗盡，英國否定英法用核彈保護烏克蘭

史政先鋒

2026-02-25 19:08:44

離大譜，楊瀚森紀念杯上的中國地圖缺失海南、臺灣及藏南地區

離大譜，楊瀚森紀念杯上的中國地圖缺失海南、臺灣及藏南地區

懂球帝

2026-02-25 18:59:03

60歲馬麗近照，被富豪丈夫獨寵38年，兒子成了她的驕傲

60歲馬麗近照，被富豪丈夫獨寵38年，兒子成了她的驕傲

悅君兮君不知

2026-02-24 22:45:55

星鏈大降價！馬斯克：無關競爭對手我只想平價服務大眾

星鏈大降價！馬斯克：無關競爭對手我只想平價服務大眾

快科技

2026-02-25 10:33:12

比亞迪連續40個月銷冠被終結

大象新聞

2026-02-24 09:44:05

官方通報“首都博物館觀眾留言當天就被丟進垃圾桶”

官方通報“首都博物館觀眾留言當天就被丟進垃圾桶”

閃電新聞

2026-02-25 20:08:35

AI范兒是一個專注于人工智能領域的資訊和學習平臺，提供最新的人工智能資訊

664文章數 456關注度

往期回顧全部

科技要聞

“機器人只跳舞，沒什么用”

頭條要聞

女子爬山失聯10天后遺體被找到丈夫：她登頂神情恐懼

頭條要聞

女子爬山失聯10天后遺體被找到丈夫：她登頂神情恐懼

體育要聞

勇士爆冷惜敗鵜鶘梅爾頓28分賽季新高

娛樂要聞

黃曉明新戀情！與小22歲美女同游新加坡

財經要聞

上海樓市放大招，地產預期別太大

汽車要聞

750km超長續航 2026款小鵬X9純電版將于3月2日上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

數碼

房產

旅游

公開課

本地新聞

津南好·四時總相宜

數碼要聞

超頻三銀翼DT360 Max ARGB Display一體式水冷開售，1299元

房產要聞

海南樓市春節熱銷地圖曝光！三亞、陵水又殺瘋了！

旅游要聞

“四省人氣”匯聚單縣浮龍湖

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版