就在昨天,OpenAI 和 Anthropic 像約好了一樣,同時甩出了自家的重磅更新:Claude Opus 4.6和GPT-5.3-Codex。AI公司陸續推出自動化Agent,這些“AI員工”的表現如何?它們將帶來哪些新機會?
硅谷這次不是在更新一個工具,而是在給整個人類職場改規則。
AI公司扎堆推出自動化 Agent,本質上就是把過去躲在聊天框里的模型,拉出來丟進真實電腦、真實代碼庫、真實業務流程里,讓它們當一回你手下的員工。
這些新一代 AI 員工,已經不是玩具級別的實習生,而是可以真正扛活的熟練工。
但它們不是萬能的超級英雄,而是需要你學會管理、學會分工、學會設邊界的一支數字外包團隊。
誰能先學會用 AI 帶團隊,誰就能在這波變革里抄近道。
OpenAI 這一波,是在行動力上踩死油門。
![]()
GPT-5.3-Codex最恐怖的一點,是官方直接承認:它在自己的誕生過程中發揮了關鍵作用。
換一種說法,就是模型已經能幫工程師寫訓練代碼、改工具鏈、找Bug,甚至參與下一代模型的迭代。
這意味著什么?
意味著你以前得拉一整個工程小組干的活,現在一臺云上的AI員工就能跑通七成。
再看它的成績單。
在模擬人類操控電腦的 OSWorld 場景里,新模型從前代可憐的38.2%準確率,一躍到64.7%。
人類平均水平是72%。
也就是說,它已經不是瞎點亂點的腳本小子,而是能像普通白領一樣,會切屏、會開軟件、會在各種窗口間來回倒騰任務。
在命令行的 Terminal-Bench 2.0 測試中,它直接干到77.3%,把GPT-5.2甩開一大截。
![]()
對于一個要在服務器、容器、Linux環境下跑任務的AI員工來說,這個分數的意義只有一句話:你可以放心把真正的工程環境交給他打理了。
編碼能力更不用說,在SWE-Bench Pro這種用真實開源項目、四種語言、還專門防套路、防刷分的硬核榜單里,它做到當前一流水平,而且用更少Token搞定問題。
這就是純粹的工程生產力。
另一邊,Anthropic的Claude Opus 4.6走的是完全不同的路子。
OpenAI在拼誰跑得快,Anthropic在拼誰看得遠、記得住、想得深。
大模型這兩年一個老大難問題,就是所謂上下文腐蝕。
理論上說支持幾十萬上下文,實際一塞幾百頁文檔,就開始前后矛盾、顧頭不顧尾。
Opus 4.6直接把桌子掀了。
在MRCR v2這種專門干它的長版本大海撈針測試里,新版本的召回率干到76%,上一代只有18.5%。
從機械硬背到真正記住,這就是量變到質變的拐點。
更狠的是,那1M的上下文窗口。
![]()
這已經不是讀一篇報告,而是把整個知識庫吞下去。
幾百頁財報、幾十萬字代碼、成堆協議文檔一起扔進去,讓它去幫你找第xxx頁腳注里那個小數點錯沒錯,這在之前幾乎是科幻。
再加上最高128k的輸出。
你不是讓它寫一篇文章,而是可以讓它寫完一整份行業白皮書、一個復雜系統的完整代碼架構,甚至一家公司級別的流程重構方案。
這才是真正意義上的知識型AI員工:讀得進、接得住、吐得出。
那么,這些自動化Agent現在到底能干什么?
![]()
先別幻想什么科幻電影里的鋼鐵俠管家,腳踏實地一點,你會發現它們已經可以在幾個方向上穩定創造價值。
在工程團隊里,GPT-5.3-Codex這種Agent可以從一個需求文檔出發,自己拆分任務,寫代碼,跑測試,修Bug,打包部署,小問題還會自己查日志排查原因。
人類工程師的角色,正在從寫代碼,變成給目標、做Review、定規范。
在知識密集行業,比如投研、咨詢、法律合規,Claude Opus 4.6那1M上下文,幾乎就是天生為這類工作設計的。
它可以一次性吞掉一家公司的歷年年報、公告、新聞、研報,再結合你給的提綱,幫你產出一份邏輯完整、數據鏈條干凈的分析。
最重要的是,它在細節上不容易丟針,這在嚴肅場景里是決定生死的能力。
在運營和業務側,Agent可以代替人工去跑各種重復但瑣碎的操作。
![]()
登錄后臺、導出報表、清洗數據、生成日報周報;在瀏覽器里批量查價格、看競品、截圖歸檔;甚至在你的CRM、工單系統里來回切換,幫你整理客戶跟進記錄。
這些一線員工最煩的機械活,AI員工的精力是無限的。
那它們表現到底算不算合格?
如果把幾十年前的自動化當作給工廠裝了電機,那這波AI Agent,更像是給辦公室裝了一條看不見的傳送帶。
速度和準確率,已經超過大多數人類在疲憊狀態下的表現。
但他們還做不到的是:自己定義目標、自己做關鍵價值判斷。
也就是說,它們已經是很強的執行層,但還不是獨當一面的決策層。
真正的機會,在于誰能最先把這批AI員工,嵌進自己的業務閉環里。
對個體來說,你可以把它當成:
![]()
一支不下班的代碼外包團隊。
一個永遠在幫你讀文檔、記筆記、提煉要點的私人研究助理。
一群愿意24小時陪你試錯、做方案、跑模型的影子同事。
對公司來說,機會更直接:
可以用更少的人,撐起更大的業務規模。
可以用更便宜的重復性人力,轉化出更多高附加值的創意崗位。
可以在原本不敢碰的復雜方向上試水,因為有AI員工幫忙兜底細節。
那我們可以怎么用?
![]()
先從一個具體崗位下手,而不是從全公司大躍進開始。
比如給開發組配一個代碼Agent,明確它負責的范圍是:單測、重構建議、基礎Bug修復。
比如給投研團隊配一個長文檔Agent,讓它只負責資料匯總與初稿,最終結論必須由人拍板。
人的職責也要升級。
你不再只是執行任務者,而是 AI 團隊的組長。
要學會寫清目標,而不是手把手教步驟。
要學會設計檢查點,而不是盲目信任結果。
要學會跨工具協同,而不是只盯著一個聊天窗口。
至于那些喜歡端著架子、守著舊經驗不肯變的人,真正的危機在這里。
不是被AI干掉,而是被會用AI的人輕松超車。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.