網易首頁 > 網易號 > 正文申請入駐

最強牛馬狙擊編程之王，OpenAI和Anthropic深夜同發大招

2026-02-06 08:43:30　來源: 字母榜

北京舉報

分享至

2026年的這一天注定會被寫入AI發展史。

Claude Opus 4.6和GPT-5.3 Codex在相隔不到一個小時的時間里先后發布。

兩家公司似乎都憋著一口氣，要在同一個時間節點上交出自己的答卷。

“撞車”的背后，是一場關于資本、技術和市場話語權的較量。

就在兩周前，英偉達剛剛宣布向Anthropic投資100億美元，這筆錢讓Anthropic的估值飆升到3500億美元。

消息傳出后不到72小時，英偉達轉身又向OpenAI注資200億美元。

黃仁勛的算盤打得很清楚：兩邊都押注，誰贏都不虧。

但對Anthropic和OpenAI來說，這不只是拿到錢那么簡單。

兩家公司都計劃在2026年下半年到2027年左右啟動上市程序，現在正是證明自己技術實力、爭奪市場定價權的關鍵時刻。

投資人要看的不是PPT上的承諾，而是能拿出手的產品。

誰的模型更強，誰在實際應用中更有說服力，誰就能在IPO時要到更高的價格，拿到更多的籌碼。

一山容不得二虎，Anthropic和OpenAI必須得讓對方明白，誰才是老大。

因此，這種產品節奏不是巧合，而是卡好了表的對轟。

兩家公司都清楚，在這個時間點上，每一次產品發布都是一次融資路演，每一個技術突破都會直接影響投資人的判斷和市場的預期。

不過從產品本身來看，兩家公司確實都拿出了真本事。

Claude Opus 4.6

Anthropic這次對 Claude Opus 系列的升級，核心放在了“更聰明地思考”這件事上。

Opus 4.6最顯著的變化是它學會了“adaptive thinking”，模型會根據任務的復雜程度自動調整思考深度。在困難問題上花更多時間思考，而在簡單任務上快速通過。

在代碼能力方面，Opus 4.6在Terminal-Bench 2.0這個評測中拿到了最高分。

這個測試專門考察AI在終端環境下的操作能力。模型需要知道什么時候該用哪個命令，如何組合不同的工具，以及怎么從錯誤信息里找到問題所在。

這就像是考察一個程序員會不會熟練使用各種開發工具。不只是寫代碼，還要會調試、會部署、會看日志找bug。

更重要的是，Opus 4.6是Anthropic第一個提供100萬token上下文窗口的Opus級別模型。這個數字意味著模型可以一次性處理相當于兩本中等厚度小說的文本量。

在長文本處理的測試中，Opus 4.6在MRCR v2的8-needle 1M 變體上得分76%，而上一代的Sonnet 4.5只有 18.5%。

簡單一點來理解，就是給模型一大堆文檔，然后問它一個需要綜合多處信息才能回答的問題。

以前的模型看著看著就“忘了”前面的內容，或者找不到關鍵信息。Opus 4.6能在海量文本里準確定位需要的信息，而且不會因為文檔太長就表現下降。

在知識工作能力的評測GDPval-AA 上，Opus 4.6比OpenAI的GPT-5.2高出約144Elo分，比自己的前代Opus 4.5高出190分。這個測試涵蓋了金融、法律等領域的實際工作任務，比如制作財務分析報告、起草法律文件、做市場調研等。

Anthropic還在產品層面做了不少配套更新。

Claude Code現在支持“agent teams”功能，可以同時啟動多個AI代理，讓它們各自負責不同的子任務，然后自動協調工作。

對于那些大型的代碼庫，這個功能特別有用，可以把工作拆分給不同的代理并行處理。

在辦公軟件集成方面，Anthropic推出了Claude in PowerPoint的研究預覽版，并大幅升級了Claude in Excel。

現在Claude可以直接在Excel里處理更復雜的任務，支持數據透視表編輯、圖表修改、條件格式化等功能。在 PowerPoint 里，Claude 能讀懂現有的版式、字體和母版設計，然后按照這個風格創建新的幻燈片。

就是讓AI真正進入你日常工作的工具里。不用來回復制粘貼，直接在Excel或PowerPoint的側邊欄跟Claude對話，它就能幫你改表格、做圖表、生成演示文稿。

而且它會學習你的風格，做出來的東西不會顯得格格不入。

在API層面，Anthropic引入了“effort”參數，提供低、中、高、最高四個檔位。

開發者可以根據任務的復雜度選擇合適的檔位，在成本、速度和質量之間找平衡。還有“context compaction”功能，當對話接近上下文窗口限制時，會自動總結并替換較早的內容，讓長時間運行的任務不會因為超出限制而中斷。

可以理解為給開發者更多的控制權。

簡單任務用低檔位，省錢又快；復雜任務用高檔位，保證質量。對話太長了系統會自動壓縮前面的內容，這樣就能一直聊下去。

在安全性方面，Anthropic這次做了他們有史以來最全面的安全評估。

Opus 4.6在自動化行為審計中顯示出較低的不當行為率，包括欺騙、阿諛奉承、鼓勵用戶妄想和配合濫用等。

由于 Opus 4.6在網絡安全方面的能力有顯著提升，Anthropic專門開發了六個新的網絡安全“探針”來檢測潛在的濫用行為。

同時，他們也在用這個模型幫助開源軟件查找和修補漏洞，希望讓防御方也能用上AI的力量。

Advancing Finance：

金融領域的深度應用

Anthropic專門發布了一篇文章，詳細介紹Claude Opus 4.6在金融領域的應用。

在金融工作中，專業人士需要AI做三件事：研究、分析和創建交付物。Opus 4.6在這三個維度上都達到了業內領先水平。

在研究能力上，Opus 4.6在BrowseComp和DeepSearchQA兩個基準測試中都有提升。

這兩個測試考察的是模型從大量非結構化數據中提取特定信息的能力。

對金融分析師來說，這意味著可以把一堆公司財報、行業報告、新聞文章扔給AI，然后問一個很具體的問題，AI能給出針對性的答案，而不是泛泛的總結。

你丟給它一份財報，以前問AI“這家公司的盈利能力如何”，它可能給你的是一大段話，然后再把財報內容復述一遍。

現在它能直接告訴你關鍵指標是什么，跟行業平均水平比怎么樣，有哪些風險因素。

在分析能力上，Opus 4.6在 Finance Agent這個外部基準測試中達到60.7%的準確率，比Opus 4.5提升了5.47個百分點。

在稅務評估TaxEval 上，Opus 4.6也達到了76%的業內最高水平。

Anthropic用一個商業盡職調查任務做了對比，他們讓Claude Opus 4.6去評估一個潛在的收購目標。這種工作通常需要一個資深分析師花兩到三周時間才能完成。

但是Opus 4.6的首次輸出在結構、內容和格式上都比Opus4.5更接近可以直接使用的標準。

也就是說，現在做出來的東西你小改一下就能用。這對于需要快速產出報告、演示文稿的金融從業者來說，效率提升是實實在在的。

Anthropic的內部“真實世界金融”評估涵蓋了約50個投資和財務分析用例，包括電子表格、幻燈片和文檔的生成與審閱。

這些是投資銀行、私募股權、公開市場投資和企業財務領域分析師的常見任務。Opus 4.6比幾個月前的Sonnet 4.5提升了超過23個百分點。

配合Cowork這個新功能，金融團隊可以同時啟動多個分析任務。Cowork讓Claude可以訪問你指定的本地文件夾，直接在里面讀取、編輯和創建文件。

對金融團隊來說，這意味著可以一次性布置幾個分析任務，同時監督 Claude 創建每個交付物的過程，確保符合自己的標準。

GPT-5.3 Codex：

自己訓練自己的模型

在Claude Opus 4.6發布的幾十分鐘后，奧特曼突然發了一條X，宣布GPT-5.3 Codex。

我在這里也是代表字母AI，給奧特曼和阿莫迪一點面子，給他們分別點了喜歡和轉發。

GPT-5.3 Codex最牛的地方在于，它能像真人同事一樣干活，而且可以邊干活邊跟你商量。

以前的AI是“你說一句我做一句”，GPT-5.3 Codex是“有問題隨時問你”。

你給它一個復雜任務，它能自己琢磨幾個小時甚至幾天，中途還會主動跟你匯報進度、問你意見，你隨時可以插話調整方向。

有意思的是，OpenAI用GPT-5.3 Codex的早期版本來幫忙開發后續版本。也就是說，讓AI幫著調試AI的訓練過程、修bug、優化系統，OpenAI團隊說這讓開發速度快得驚人。

GPT-5.3 Codex在多個基準測試中創造了新的行業紀錄。在SWE-Bench Pro上，它達到了56.8%的準確率，這是一個嚴格的真實世界軟件工程評估。

與只測試Python的SWE-bench Verified不同，SWE-Bench Pro涵蓋四種編程語言，更抗污染、更具挑戰性、更多樣化，也更貼近行業實際。

在Terminal-Bench 2.0上，GPT-5.3 Codex達到77.3%，遠超之前的64%。

這個測試衡量的是代碼代理需要的終端技能，也就是在命令行環境下完成各種操作的能力。值得注意的是，GPT-5.3 Codex用的token數量比之前任何模型都少，這意味著用戶可以用同樣的成本做更多事情。

在 OSWorld-Verified 這個測試中，GPT-5.3 Codex得分 64.7%，而GPT-5.2-Codex只有38.2%。

這是一個代理計算機使用基準測試，AI需要在可視化的桌面計算機環境中完成生產力任務。人類在這個測試中的得分約為72%，GPT-5.3 Codex已經接近人類水平。

在網頁開發方面,OpenAI展示了一個對比案例：讓GPT-5.3 Codex和 GPT-5.2-Codex分別創建一個 SaaS 產品的落地頁。

GPT-5.3 Codex自動把年度套餐顯示為折扣后的月度價格，讓優惠看起來更清晰、更有意圖，而不是簡單地把年度總價乘出來。

GPT-5.3 Codex

GPT-5.2 Codex

它還做了一個自動切換的用戶評價輪播，包含三條不同的用戶評價，而不是只有一條，讓整個頁面感覺更完整、更接近可以上線的狀態。

簡單來說，就是它會考慮用戶體驗和營銷效果。不是機械地實現功能，而是會想“怎么做更好”。這種對細節的把握和對最終效果的理解，讓它做出來的東西更接近專業水平。

GPT-5.3 Codex的能力不僅限于編碼。

它支持軟件生命周期中的所有工作，比如調試、部署、監控、編寫產品需求文檔、編輯文案、用戶研究、測試、指標分析等等。

在GDPval測試中，GPT-5.3 Codex的表現與GPT-5.2持平，達到70.9%的勝率或平局率。這個測試衡量的是模型在 44 個職業的明確知識工作任務上的表現，包括制作演示文稿、電子表格和其他工作產品。

一個有趣的細節是，兩家公司都強調了“自己用自己的產品”。Anthropic 說“我們用 Claude 來構建 Claude”， OpenAI說“GPT-5.3 Codex在自己的開發中發揮了關鍵作用”。

這其實是最好的廣告，如果自己的工程師都不愿意用，怎么能指望別人用？

而且從技術演進的角度看，兩個模型都代表了 AI 從“回答問題”到“完成工作”的轉變。

它們不再滿足于生成一段文字或一段代碼，而是要能夠執行完整的工作流程，產出可以直接使用的交付物。這種轉變對 AI 的要求高得多：不僅要懂技術，還要懂業務；不僅要能做，還要做得好；不僅要快，還要穩。

值得注意的是，兩家公司都沒有回避 AI 能力提升帶來的風險。Anthropic 做了“有史以來最全面的安全評估”， OpenAI 部署了“最全面的網絡安全防護措施”。

從用戶角度看，兩家公司的競爭是好事。不同的需求可以找到不同的解決方案，不同的工作方式可以選擇不同的工具。更重要的是，競爭會推動雙方繼續創新，讓AI能力的邊界不斷擴展。

而且這兩個產品的發布也標志著AI進入了一個新階段。不再是“能不能做”的問題，而是“怎么做得更好”的問題。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

具身數據戰開打！普通人都能上手，邊采邊篩，只喂機器人愛吃的

量子位 2026-01-12 12:20:02
0 跟貼 0
告別軟件依賴：OpenAI 200人團隊押注硬件，打響AI消費終端爭奪戰

鈦媒體APP 2026-02-21 14:03:13
6 跟貼 6

北大團隊讓AI智能體「入侵」論壇，指揮真實機器人執行任務

新智元 2026-02-21 12:03:31
1 跟貼 1

銀河通用機器人“表演”變“上崗”，端到端大模型銀河星腦有多強

量子位 2026-02-18 10:56:58
0 跟貼 0
2026年，大模型訓練的下半場屬于「強化學習云」

機器之心Pro 2026-01-12 14:03:47
0 跟貼 0

懂人性更懂執行，螞蟻這個萬億開源模型把情商和戰斗力都給拉滿了

量子位 2026-02-19 12:45:37
2 跟貼 2

重塑軟件工程：從Vibe Coding走向Spec Coding

鈦媒體APP 2026-02-11 09:37:53
57 跟貼 57
高效智能體幕后推手是誰？一篇綜述帶你從記憶×工具學習×規劃看透

機器之心Pro 2026-01-27 15:24:36
0 跟貼 0

初創用3000萬造不可編程的AI芯片，推理速度是Nvidia最強GPU 50倍

DeepTech深科技 2026-02-21 18:28:56
5 跟貼 5
硅谷大佬拒絕握手，印度AI峰會“槽點”不斷

第一財經資訊 2026-02-20 21:10:47
474 跟貼 474
不卷視頻卷造人？Pika推出AI Selves，讓你親手「養大」數字分身

機器之心Pro 2026-02-21 12:19:49
1 跟貼 1
App Store模式過時，未來屬于即興創作！Karpathy激進言論被懟慘

機器之心Pro 2026-02-21 12:28:27
3 跟貼 3
“走路去洗車”熱帖離譜刷屏，人類頭一回被它耍得這么慘

新周刊 2026-02-21 16:06:14
9 跟貼 9
1000 塊/年的輸入法，我用它習慣了「口噴」，再也回不去打字了 | AI 器物志

愛范兒 2026-02-21 18:39:19
3 跟貼 3
三維空間太難懂？2

機器之心Pro 2025-12-31 13:49:19
0 跟貼 0
人活著的唯一理由是善良

葉檀財經 2026-02-01 17:07:04
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
微信聊天遭老板監視，主流殺毒軟件失明

每日經濟新聞 2025-12-25 19:02:17
0 跟貼 0
行業最大規模具身數據集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
高通萬衛星談終端大模型優勢：個性化與數據推理

量子位 2025-12-11 03:38:41
0 跟貼 0
陶哲軒：AI看似在推理，其實是在背答案

量子位 2026-01-05 09:20:21
0 跟貼 0
離婚十年前岳父找我借3萬我轉30萬，三天后前妻上門送來一份文件

擁抱抵不過時光 2026-02-19 06:11:47
3 跟貼 3
編程已死，鍵盤長草！Claude Code之父對談Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
63 跟貼 63
OpenClaw 之父加入 OpenAI 前最后的訪談：你很難跟一個純粹為了好玩的人競爭

愛范兒 2026-02-20 17:25:49
3 跟貼 3
陳丹琦入職Mira翁荔公司，原來是有IOI三金王賽友

量子位 2026-02-06 14:29:49
0 跟貼 0
華為推出軟工代碼智能體SWE-Lego，解鎖SFT訓練極致性能

機器之心Pro 2026-01-13 14:54:45
0 跟貼 0
黃仁勛全世界穿皮衣，唯獨在中國換上了大花襖

雷科技 2026-01-27 17:19:30
0 跟貼 0
老外學會使用筷子，代碼以奇怪的方式運行，好一個熟練的鉗工！

小妹愛搞笑呢 2026-02-19 08:00:00
4 跟貼 4
燒6000億算力，沖2800億營收！OpenAI豪賭2030

新智元 2026-02-21 17:12:16
3 跟貼 3
黃仁勛上海行逛市場，品嘗中式面點！店鋪監控拍下全過程！

長河小吏 2026-02-20 07:43:18
0 跟貼 0
中國常駐聯合國代表傅聰重申：日本沒資格要求入常

央視新聞客戶端 2026-02-21 08:01:36
2941 跟貼 2941
AI建造者如何使用AI？《時代》周刊專訪三位科技領袖

量子位 2025-12-16 08:37:19
1 跟貼 1
黃仁勛：將在3月發布“世界前所未見”的全新芯片

財聯社 2026-02-20 23:11:58
0 跟貼 0
黃仁勛：與其找一件熱愛的事不如熱愛正在做的事

每日經濟新聞 2026-02-14 07:59:47
0 跟貼 0
科技圈3大肝帝！最后一個連睡覺都在干活

雷科技 2026-02-03 20:54:35
0 跟貼 0
黃仁勛：請從容接受社會的毒打韌性只能在磨練中擁有

每日經濟新聞 2026-01-08 13:50:38
0 跟貼 0
黃仁勛：別低估中國，擁有最饑渴的工程師

量子位 2025-10-02 14:21:34
0 跟貼 0
米塞斯：先驗的知識或概念隱含在我們的一切思考和行為里

尚曦讀史 2026-02-18 09:22:14
24 跟貼 24

字母榜

讓未來不止于大。

2242文章數 8042關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

數碼

藝術

游戲

軍事航空

手機 / 數碼

房產 / 家居

最強牛馬狙擊編程之王，OpenAI和Anthropic深夜同發大招

智譜上市1月漲5倍，市值超越京東、快手

張藝謀新片帶火深圳 觀眾留"后遺癥":見垃圾桶就想掏

張藝謀新片帶火深圳 觀眾留"后遺癥":見垃圾桶就想掏

冬奧第一"海王"？一人和13國選手都有關系

鏢人反超驚蟄無聲拿下單日票房第二！

一覺醒來，世界大變，特朗普改新打法了

態度原創

高空挑戰又+1，上海長灘觀光塔邀您“勇闖云端” | 在寶山過大年

RX 9070 XT加價后無人問津：日本AMD顯卡售價已從高峰下滑20%！

270億美元！全球最大城市公園一期項目，今年完工

《無主4》官方"自爆"AI寫作痕跡:給你再潤色一個版本

硬核揭秘！福建艦“一馬當先”底氣何在

張藝謀新片帶火深圳觀眾留"后遺癥":見垃圾桶就想掏

張藝謀新片帶火深圳觀眾留"后遺癥":見垃圾桶就想掏