網易首頁 > 網易號 > 正文申請入駐

剛剛，ChatGPT 和 Claude 同時大更新，不會給 AI 當老板的打工人要被淘汰

2026-02-06 06:11:19　來源: AppSo

廣東舉報

分享至

就在剛剛，硅谷 AI 圈上演了一出「火星撞地球」。

OpenAI 和 Anthropic 像約好了一樣，同時甩出了自家的重磅更新：Claude Opus 4.6 和 GPT-5.3-Codex。

如果說昨晚之前，我們還在討論怎么寫好 Prompt 輔助工作；那么今天過后，我們可能需要學會如何作為老板去管理 AI 員工。

AI 造 AI，順便接管你的電腦

就在昨天，Sam Altman 剛在 X 平臺上凡爾賽了一把 Codex 的「百萬活躍用戶」里程碑。短短一天后，OpenAI 再次乘勝追擊，扔出王炸——

GPT-5.3-Codex。

技術文檔里藏著一句極具分量的話：「這是我們第一個在創造自己的過程中，發揮了關鍵作用的模型。」

說人話就是：AI 已經學會了自己寫代碼、自己找 Bug，甚至開始自己訓練下一代的 AI 了。這種自我進化能力，也直接體現在了一連串跑分數據上。

還記得那個模擬人類操作電腦的 OSWorld-Verified 基準測試嗎？前代模型只有 38.2% 的準確率，連及格線都夠不上。但這次，GPT-5.3-Codex 直接跳漲到了 64.7%。

要知道，人類的平均水平也就 72%。這意味著，AI 距離像你一樣熟練地甩鼠標、切屏、操作軟件，只剩下一層窗戶紙的距離。

而在 Terminal-Bench 2.0（命令行操作基準測試）中，它更是拿下了 77.3% 的高分，把 GPT-5.2（62.2%）遠遠甩在身后。

在覆蓋四種編程語言，不僅抗污染，還全是真實世界的硬核工程難題的 SWE-Bench Pro 基準測試中， GPT-5.3-Codex 也表現出了 SOTA 水準，而且用的 Token 比以往任何模型都少。

OpenAI 甚至展示了它獨立構建的能力：

在幾天內，它從零構建了一款包含多張地圖的賽車游戲 v2，順手還搞定了一款管理氧氣系統的深海潛水游戲。

最讓我印象深刻的是 GPT-5.3-Codex 對模糊意圖的理解。

在構建落地頁時，它自動把年度計劃換算成了打折后的月付價格，甚至還貼心地自動補充了用戶評價輪播——這一切，都不需要你下指令。

OpenAI 的野心已經寫在臉上了：以前微軟常說 AI 將會成為人類的副駕駛（Copilot），但現在 AI 更想做那個能掌控方向盤、甚至能自己修車的司機。

對了，還有一個有趣的細節。

此前外界盛傳 OpenAI 對英偉達的 AI 芯片頗有微詞，但這次官方博客特地強調：GPT-5.3-Codex 的設計、訓練和部署都在 NVIDIA GB200 NVL72 系統上完成。

這一波高情商的「感謝英偉達」，屬實是給足了黃仁勛面子。

告別「金魚記憶」Claude 迎來絕地反擊

在 GPT-5.3-Codex 發布的前后腳，Anthropic 也端出了自己的春節大禮包。

壞消息是，大家期待的 Claude「中杯」Sonnet 模型沒有更新；但好消息是，Anthropic 直接端出了「超大杯」—— Claude Opus 4.6。

相比于 OpenAI 在行動力上的激進，Anthropic 今天發布的 Claude Opus 4.6 則是在思考力和可靠性上死磕。

很多企業用戶都有一個名為 Context Rot（上下文腐蝕）的痛點：號稱支持 200k 上下文，但塞進去的數據一多，AI 就開始顧頭不顧尾。

這次，Claude Opus 4.6 拿出的數據簡直是「降維打擊」。

在 MRCR v2（長文本大海撈針）測試中，Claude Opus 4.6 的召回率高達 76%。

作為對比，上一代 Sonnet 4.5 只有慘不忍睹的 18.5%。從某種程度上說，這是一個從基本不可用到高可靠的質變。

這是因為 Claude Opus 4.6 首次引入了真正可用的 1M 上下文窗口。

這意味著什么？意味著你可以把幾百頁的財報、幾十萬字的代碼庫直接扔給它，它不僅能讀完，還能精準地告訴你第 342 頁腳注里的那個數字有問題。

此外，它現在還支持最高 128k 的輸出 Token。什么概念？你可以讓它一次性寫完長篇研報或復雜的代碼庫，而不用因為字數限制被迫截斷。

除了記性好，Opus 4.6 這次還在智商上實現了碾壓：

在 GDPval-AA（一項針對金融、法律等高經濟價值任務的評估）中，Opus 4.6 的 Elo 得分比業界第二（OpenAI 的 GPT-5.2）高出了整整 144 分，比前代更是高出 190 分。

在復雜的多學科推理測試 Humanity's Last Exam 中，它領先所有前沿模型。

在測試尋找互聯網「難找信息」能力的 BrowseComp 中，它同樣表現最優。

通過這些數據，Anthropic 似乎在傳遞一個信號：如果你要寫代碼，去隔壁找 OpenAI；如果你要處理復雜的商業決策、法律文書或金融分析，Claude 才是唯一的選擇。

更讓打工人眼前一亮的是它的生產力功能。

一方面，Anthropic 這回直接把 Claude 塞進了 Excel 和 PowerPoint。它能根據 Excel 數據直接生成 PPT，不僅保留排版風格，連字體和模板都能對齊。在 Claude Cowork 協作環境中，它甚至能進行自主多任務處理。

另一方面，Anthropic 順勢在 Claude Code 中推出了實驗性的 Agent Teams 功能，讓普通開發者也能體驗這種「指揮千軍萬馬」的感覺：

角色分工：你可以指定一個 Claude Session 擔任 Team Lead（組長），它不干臟活累活，專門負責拆解任務、分配工單、合并代碼；其他的 Session 則是隊友（Teammates），各自領任務去干。

獨立作戰：每個隊友都有獨立的上下文窗口（不用擔心 Token 爆炸），它們甚至能背著你互相發消息（Inter-agent messaging），討論技術細節，最后只把結果匯報給組長。

并行賽馬：這東西有什么用？想象一下查一個頑固 Bug，你可以生成 5 個 Agent，分別驗證 5 種不同的假設，像「賽馬」一樣并行排雷；或者在 Code Review 時，讓一個隊友扮「安全專家」查漏洞，一個扮「架構師」看性能，互不干擾。

為了展示 Opus 4.6 的極限，Anthropic 的研究員 Nicholas Carlini 搞了個瘋狂的實驗：Agent Teams（智能體團隊）。

他沒有親自寫代碼，而是扔了 2 萬美元的 API 額度，讓 16 個 Claude Opus 4.6 組成一個「全自動軟件開發團隊」。

結果在短短兩周內，這群 AI 自主進行了 2000 多個編程會話，從零手寫了一個 10 萬行代碼的 C 語言編譯器（基于 Rust）。

這個 AI 寫的編譯器，還成功編譯了 Linux 6.9 內核（涵蓋 x86、ARM 和 RISC-V 架構），甚至跑通了 Doom 游戲。

雖然它還不夠完美（比如生成的代碼效率不如 GCC），但這個案例也表明我們不再是和 AI 一起編程，而是看著一個 AI 團隊自主協作、查錯、推進項目。

此外，它還學會了 Adaptive Thinking（自適應推理），能根據難度自己決定「想多久」。加上新增的「智能強度」控制，你可以在 Low 到 Max 四檔之間切換。

定價方面，Anthropic 這次很良心，維持在每百萬 Token $5/$25 的基礎定價。看來是為了搶占企業級市場，鐵了心要和 OpenAI 卷到底。

一個是激進天才，一個是靠譜老牛

知名 AI 評測人 Dan Shipper 在第一時間搞了個「盲測」（Vibe Check），他的評價非常精準：

Claude Opus 4.6 是「高上限，高方差」（High Ceiling, High Variance）。

它像是一個才華橫溢但偶爾跳脫的天才。在測試中，它直接解決了一個讓 iOS 團隊卡了兩個月的功能難題；在 LFG Benchmark 中拿到了 9.25/10 的高分。

但它偶爾也會「過度自信」，一本正經地胡說八道。如果你需要突破性的靈感，選它。

GPT-5.3-Codex 則是「高可靠，低方差」（High Reliability, Low Variance）。

它像是一個經驗豐富、絕不掉鏈子的資深工程師。推理速度提升 25%，幾乎不犯低級錯誤，穩健得讓人心安。

雖然在創造性任務上略遜一籌（LFG 得分 7.5/10），但在日常的 Coding 和運維任務中，它是最高效的老黃牛。

當然，比起選擇哪款模型，更重要的是，當 ChatGPT 可以自主修 Bug 甚至操作你的終端，當 Claude 可以一次性吞吐海量文檔并精準定位細節時，Prompt Engineering（提示詞工程）的重要性正在下降，而 Agent Management（智能體管理）的能力開始浮出水面。

我們不再需要像教小學生一樣，把指令拆解得碎碎念。相反，我們需要做的，是學會如何以管理者的身份，去定義目標、審核結果、以及決定在什么時候，把什么任務交給哪位 AI 員工。

這就是 2026 年的新職場。你的團隊里混入了一群硅基天才，而你是唯一的碳基老板。

歡迎加入 APPSO AI 社群，一起暢聊 AI 產品，獲取，解鎖更多 AI 新知

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

ChatGPT：再見「破折號」

機器之心Pro 2025-11-17 14:10:18
3 跟貼 3
中國創造一門新編程語言的黃金時代來了？

虎嗅APP 2025-12-23 03:54:05
37 跟貼 37

重塑軟件工程：從Vibe Coding走向Spec Coding

鈦媒體APP 2026-02-11 09:37:53
57 跟貼 57

讓兩個大模型在線吵架，跑通全網95%科研代碼｜深勢Deploy-Master

機器之心Pro 2026-01-09 14:22:47
0 跟貼 0
揭秘GLM-5技術底牌：「異步強化學習框架Slime」成終極殺招

機器之心Pro 2026-02-23 18:49:46
0 跟貼 0

開年重磅萬字長文范式復盤：我們在AI奇點之中

虎嗅APP 2026-02-23 21:16:14
0 跟貼 0

2026年，大模型訓練的下半場屬于「強化學習云」

機器之心Pro 2026-01-12 14:03:47
0 跟貼 0
三個和尚沒水喝！OpenAI星際之門擱淺，一年過去壓根沒動工

量子位 2026-02-23 12:41:44
9 跟貼 9

具身數據戰開打！普通人都能上手，邊采邊篩，只喂機器人愛吃的

量子位 2026-01-12 12:20:02
0 跟貼 0
OpenAI大佬爆料：本科生靠一篇博客殺進OpenAI！沒博士，0篇論文

新智元 2026-02-23 21:14:12
2 跟貼 2
項目陷入停滯、算力明爭暗斗，5000億美元的星際之門何去何從？

機器之心Pro 2026-02-23 18:54:02
1 跟貼 1
號稱“AI打工人”的OpenClaw值得用嗎？每經深度實測：找不到文件、搜索報錯、發郵件卡死！專家：遠非生產力工具

每日經濟新聞 2026-02-23 12:22:45
24 跟貼 24
拒絕智能手機，炮轟ChatGPT，沒有他就沒有今天的互聯網

DeepTech深科技 2025-12-26 18:07:26
0 跟貼 0
巨大的“智能體藍海市場”：軟件編程占一半，醫療、金融、法律等“寥寥無幾”

華爾街見聞官方 2026-02-23 16:00:04
48 跟貼 48
AP2O-Coder 讓大模型擁有「錯題本」，像人類一樣按題型高效刷題

機器之心Pro 2026-01-14 15:07:07
0 跟貼 0
貼上標簽就能辨真假？微軟的AI內容核查方案能走多遠

DeepTech深科技 2026-02-23 20:24:53
1 跟貼 1
“邪修”AI芯片的Taalas，成色如何？｜AGI焦點

鈦媒體APP 2026-02-23 21:44:17
2 跟貼 2
微信聊天遭老板監視，主流殺毒軟件失明

每日經濟新聞 2025-12-25 19:02:17
10 跟貼 10
10個月完整配置經驗全公開，冠軍咋用Claude Code?

機器之心Pro 2026-01-22 12:34:29
0 跟貼 0
華為推出軟工代碼智能體SWE-Lego，解鎖SFT訓練極致性能

機器之心Pro 2026-01-13 14:54:45
0 跟貼 0
雖說是計件，這么干老板發工資會眼紅，壓工價也理所當然！

聰聰熱點看看 2026-02-22 03:19:00
5 跟貼 5
編程已死，鍵盤長草！Claude Code之父對談Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
63 跟貼 63
公司985實習生，2分鐘解決團隊1周的bug，8年老程序笑笑不說話

靈犀愛說生活 2026-02-20 16:07:00
0 跟貼 0
Agent2World來了，把世界模型做成可運行的符號環境

機器之心Pro 2026-02-02 15:24:04
9 跟貼 9
老外學會使用筷子，代碼以奇怪的方式運行，好一個熟練的鉗工！

小妹愛搞笑呢 2026-02-19 08:00:00
4 跟貼 4
河南小伙在新西蘭打工真實狀態，聽完他的經歷，真的太不容易了！

搞笑枇杷 2026-02-22 02:10:41
0 跟貼 0
Moltbot之父深度訪談：獨家披露加入OpenAI內幕

DeepTech深科技 2026-02-23 19:47:27
4 跟貼 4
老爸又對我一頓訓斥，我決定不再忍耐！正月初一就拉黑了他

行者服不服 2026-02-21 02:37:30
0 跟貼 0
8個月前AI就知道他要殺人！ChatGPT員工爭論了很久，選擇沉默… 最后8個生命消失在這座小鎮

英國那些事兒 2026-02-22 22:49:40
1271 跟貼 1271
在越南打工的中國人，日子過得像地主老爺，怪不得很多人不愿回國

草莓嘮生活 2026-02-20 02:02:25
0 跟貼 0
老撾女孩來中國打工，靠美色吸引流量，各取所需罷了！

宇宙搞笑生活 2026-02-23 15:23:21
0 跟貼 0
北上廣里面上海人是最實在的，你先別著急反駁！聽聽大哥咋說的

大春不一樣 2026-02-22 04:09:04
15 跟貼 15
性能真的不重要了嗎？Jeff Dean給出反常答案

新智元 2025-12-28 17:20:51
0 跟貼 0
「ChatGPT說我在浪費生命，但它錯了」，WhatsApp前產品掌門人的清醒反擊

36氪 2025-11-27 11:59:07
0 跟貼 0
熱度第一、Tokens周調用破3T，MiniMax這個春節殺瘋了

機器之心Pro 2026-02-23 18:46:36
0 跟貼 0
郭北鼻打工人回家過年實錄！

郭北鼻 2026-02-21 20:01:21
5 跟貼 5
智譜GLM-5技術全公開！完全適配華為等國產芯片，美國網友酸了

量子位 2026-02-23 12:56:04
6 跟貼 6
32倍壓縮率下性能反超25個點！破解長文本壓縮「翻車」難題

量子位 2026-02-23 12:50:32
0 跟貼 0
打工人的平靜瘋感，這狀態太真實了

新巴影視社 2026-02-20 10:19:16
1 跟貼 1
阿里云Coding Plan推優惠活動，18000次請求最低僅需7.9元

量子位 2026-02-22 10:45:32
35 跟貼 35

AppSo

讓智能手機更好用的秘密

6121文章數 26774關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

教育

家居

藝術

房產

手機 / 數碼

房產 / 家居

剛剛，ChatGPT 和 Claude 同時大更新，不會給 AI 當老板的打工人要被淘汰

智譜、MiniMax合計蒸發近千億市值，為何？

墨西哥最大毒梟被擊斃:喜歡殺人滅門 幾乎沒人看見過他

墨西哥最大毒梟被擊斃:喜歡殺人滅門 幾乎沒人看見過他

哈登版騎士首敗：雷霆的冠軍課

那藝娜賬號被禁止關注，視頻已清空！

美國海關將停止征收被裁定違法的關稅

續航1810km！smart精靈#6 EHD超級電混2026年上市

態度原創

今年春天一定要擁有的針織，這樣穿減齡又好看！

現在的家長只敢舉報老師，學校違規辦學他們屁都不敢吭一聲！

本真棲居 愛暖伴流年

十大名家畫春，送給春天的你！

窗前即地標！獨占三亞灣C位 自貿港總裁行宮亮相

墨西哥最大毒梟被擊斃:喜歡殺人滅門幾乎沒人看見過他

墨西哥最大毒梟被擊斃:喜歡殺人滅門幾乎沒人看見過他

本真棲居愛暖伴流年

窗前即地標！獨占三亞灣C位自貿港總裁行宮亮相