![]()
Cowork是Anthropic最近推出的一個(gè)桌面AI Agent,能讓用戶無需編程即可完成本地文件處理、工作流程自動化等任務(wù)。
這個(gè)產(chǎn)品對產(chǎn)業(yè)的影響非常大,但它有點(diǎn)太貴了,只有Anthropic的Max用戶才能使用,最低也要每月100美元。
有意思的是,僅僅過了48個(gè)小時(shí),就有人通過根據(jù)Cowork的產(chǎn)品邏輯開發(fā)出了免費(fèi)開源的版本OpenWork。
它同樣可以讀取文件、創(chuàng)建文檔、自動化重復(fù)性知識工作。而且它不需要訂閱,用戶只需接入自己的API密鑰,選擇想用的模型,就能在Mac上運(yùn)行Agent工作流。
當(dāng)一個(gè)產(chǎn)品的核心能力可以在兩天內(nèi)被復(fù)制,要么是技術(shù)門檻已經(jīng)足夠低,要么是原型足夠清晰。
答案顯而易見,Vibe Coding已經(jīng)強(qiáng)大到只要給出的需求足夠明確,就能做個(gè)甩手掌柜,讓AI獨(dú)自完成所有的工作。
事實(shí)上Cowork這個(gè)產(chǎn)品本身的開發(fā)周期就僅有10天,團(tuán)隊(duì)也就4個(gè)人,幾乎全部代碼都由AI編寫。并且它的代碼完整、封裝完整,是一個(gè)成熟的應(yīng)用,而非以前那種10天半個(gè)月就開發(fā)出來的玩具級應(yīng)用。
醫(yī)生可以給自己做手術(shù),理發(fā)師可以給自己剪頭發(fā),而AI也可以構(gòu)建AI。
01
在Cowork誕生之前,市場已經(jīng)有不少相似的產(chǎn)品。
最被人們熟知的就是Manus,它的定位是“首個(gè)通用AIAgent”,由已經(jīng)被Meta收購的蝴蝶效應(yīng)開發(fā)。
Manus在云端異步執(zhí)行任務(wù),用戶可以關(guān)閉筆記本電腦后讓Agent繼續(xù)工作。在GAIA基準(zhǔn)測試中,Manus在1到12級難度的最優(yōu)表現(xiàn),超越OpenAI Deep Research。不過10到12級難度的得分仍然很低,僅有0.4-0.8%。
其架構(gòu)使用Claude作為主LLM,配合29種專用工具,通過多Agent并行處理與結(jié)構(gòu)化輸出 (Schema) 來管理上下文。
2025年3月發(fā)布后,Manus在8個(gè)月內(nèi)達(dá)到1億美元年度經(jīng)常性收入,這個(gè)增長速度在AI產(chǎn)品中極為罕見。2025年12月,Meta以超過20億美元收購Manus,這筆交易的估值是其半年前5億美元估值的四倍。
![]()
Gemini CLI是谷歌的開源終端Agent,面向開發(fā)者群體。
它提供免費(fèi)訪問Gemini 2.5 Pro,內(nèi)置谷歌搜索、文件操作、Shell命令等工具,并支持MCP擴(kuò)展。與Cowork的圖形界面不同,Gemini CLI保持在命令行環(huán)境,但通過開源策略鼓勵(lì)社區(qū)貢獻(xiàn)和自定義集成。
ChatGPT Agent于2025年7月推出,運(yùn)行在虛擬機(jī)環(huán)境中,集成文本瀏覽器、可視化瀏覽器、終端和第三方API連接器。Pro用戶每月獲得400次使用額度,Plus和Team用戶為40次。
在HLE基準(zhǔn)測試中得分41.6%,在BrowseComp基準(zhǔn)測試中達(dá)到68.9%的結(jié)果。但實(shí)際測試顯示基線成功率僅12.5%,需要優(yōu)化才能達(dá)到80%的任務(wù)完成率。
ChatGPT Agent的前身,是OpenAI在2025年1月發(fā)布發(fā)布的Operator。
對比維度上,自主性程度從高到低依次為Manus、Cowork、ChatGPT Agent、Gemini CLI。
Manus允許完全異步執(zhí)行,用戶可以在任務(wù)運(yùn)行期間完全脫離;Cowork采用委托式執(zhí)行,用戶授權(quán)后AI自主工作;ChatGPT Agent提供監(jiān)督模式選項(xiàng),用戶可以選擇介入程度;Gemini CLI則采用交互式確認(rèn),每個(gè)關(guān)鍵步驟都需要用戶批準(zhǔn)。
執(zhí)行環(huán)境方面,Manus和ChatGPT Agent提供完整虛擬環(huán)境,隔離性最強(qiáng);Cowork限定在本地文件夾,通過沙箱機(jī)制保證安全;Gemini CLI直接訪問系統(tǒng)終端,靈活性最高但風(fēng)險(xiǎn)也相對較大。
Gemini CLI的使用門檻最高,它需要用戶具備命令行操作能力。而其他三款軟件,均可以通過自然語言或者點(diǎn)擊界面來執(zhí)行任務(wù)。
技術(shù)架構(gòu)中,多Agent協(xié)作、工具鏈集成、沙箱隔離和虛擬機(jī)封裝代表了不同的安全與能力權(quán)衡。
Manus的多Agent系統(tǒng)采用MapReduce架構(gòu),主Agent分析任務(wù)并生成執(zhí)行計(jì)劃,然后派生出數(shù)百個(gè)專業(yè)化子Agent并行工作,最后聚合結(jié)果。
這種架構(gòu)使其能夠同時(shí)處理大規(guī)模任務(wù),比如找出所有YC支持的金融科技初創(chuàng)公司CTO的電子郵件地址,這個(gè)任務(wù)如果由人工完成需要數(shù)周,而Manus可以在幾分鐘內(nèi)完成。
Cowork與Claude Code共享相同代理?xiàng)#ㄟ^GUI而非終端界面呈現(xiàn),實(shí)現(xiàn)“相同能力,不同入口”。
它運(yùn)行在完整的Linux容器中,由于目前Cowork只支持Mac,所以它使用的是Apple虛擬化框架所提供的沙箱隔離。用戶能明確授權(quán)可訪問的文件夾,如果不授予訪問權(quán)限,Cowork就無法看到該文件夾。
Gemini CLI通過MCP服務(wù)器擴(kuò)展能力,支持GitHub、Firebase、谷歌 Workspace等集成。
開發(fā)者可以配置多個(gè)MCP服務(wù)器,每個(gè)服務(wù)器提供特定領(lǐng)域的工具。這種模塊化設(shè)計(jì)使Gemini CLI成為一個(gè)可擴(kuò)展的平臺,而不僅僅是一個(gè)固定功能的工具。
ChatGPT Agent的虛擬機(jī)環(huán)境提供了最嚴(yán)格的隔離,但也帶來了性能開銷。在測試中,簡單的點(diǎn)擊、選擇元素和搜索操作可能需要幾秒鐘甚至幾分鐘。
02
Cowork給業(yè)界帶來的最大啟示就是,AI也可以構(gòu)建AI。
傳統(tǒng)軟件開發(fā)中,從概念到產(chǎn)品需要數(shù)月甚至數(shù)年,AI輔助開發(fā)將周期縮短到數(shù)周。
到了AI構(gòu)建AI階段,整個(gè)產(chǎn)品開發(fā)的周期可以以“天”為單位。Cowork就是最好的證明。
AI生成的代碼通常需要人工審查和修正,但當(dāng)AI構(gòu)建的是AI工具本身時(shí),它對領(lǐng)域的理解深度超越了通用場景。
Claude Code理解代碼生成的模式、常見錯(cuò)誤、最佳實(shí)踐,因?yàn)樗刻焯幚?.95億行代碼,形成了一種自產(chǎn)自銷的良性循環(huán)。
Anthropic的工程師鮑里斯·切爾尼(Boris Cherny)對這個(gè)過程的描述是:“我們采用了一種Vibe Coding的方法,工程師給出一個(gè)大概的結(jié)果,然后讓Claude Code生成Cowork的大部分功能。”
![]()
Claude Code不僅寫代碼,還提出自己的想法,建議應(yīng)該構(gòu)建什么。因此這不是簡單的代碼生成,而是一個(gè)理解需求、設(shè)計(jì)架構(gòu)、實(shí)現(xiàn)功能的完整過程。
這種遞歸改進(jìn)已經(jīng)在Anthropic內(nèi)部產(chǎn)生了顯著影響。
去年,Anthropic工程師表示,Claude輔助完成了30%的編碼工作。到了2025年,這個(gè)數(shù)字提升到了60%。
同時(shí)Anthropic的工程團(tuán)隊(duì)表示,其團(tuán)隊(duì)規(guī)模擴(kuò)大了一倍,代碼合并請求(PR吞吐量)卻增加了67%。
這是一個(gè)反常識的事情,PR指的是當(dāng)開發(fā)者完成一段代碼開發(fā)后,會發(fā)起代碼合并請求。當(dāng)團(tuán)隊(duì)審核代碼質(zhì)量、確認(rèn)功能無誤,才能將這段代碼合并到項(xiàng)目的主分支中。
理論上來說,團(tuán)隊(duì)規(guī)模越大,PR吞吐量越低。但是由于原本需要人工編寫、審核的大量功能代碼,被Claude Code承接,減少了人類工程師的重復(fù)工作。
工程師可以更聚焦于核心模塊的審核與架構(gòu)設(shè)計(jì),讓PR的審核、合并流程更快,最終體現(xiàn)為電表倒轉(zhuǎn),PR吞吐量提升。
更進(jìn)一步,Anthropic CEO 達(dá)里奧·阿莫德(Dario Amodei)在2025年10月季度技術(shù)溝通會上公開表示,新Claude模型和功能的“絕大多數(shù)”代碼現(xiàn)在由AI Agent自主編寫,且這個(gè)比例超過90%。
換句話說,今天你用的Claude,是昨天Claude自己寫給你用的。
Claude Code的能力被封裝進(jìn)Cowork,Cowork又讓非技術(shù)用戶能夠構(gòu)建自動化工具,這些工具可能反過來生成新的AI輔助流程。
同時(shí),整個(gè)過程也因?yàn)椴粩嘤行碌墓ぞ呒尤攵兊迷絹碓礁咝А⒃絹碓綔?zhǔn)確。
歸根結(jié)底,這些Agent產(chǎn)品的共同使命是將AI模型從聊天窗口中解放出來。
傳統(tǒng)chatbot的局限性已經(jīng)顯而易見,它們被動響應(yīng)用戶輸入,無法主動執(zhí)行操作,缺乏跨會話記憶,困在對話框的界面牢籠里。當(dāng)用戶需要完成實(shí)際工作時(shí),chatbot只能提供建議,真正的執(zhí)行仍需人工介入。
新一代Agent實(shí)現(xiàn)了根本性突破。
2025年11月的AI Agent Summit上,一位Anthropic工程師描述的工作流:“15個(gè)并行實(shí)例,每個(gè)作為自主工作者無監(jiān)督執(zhí)行數(shù)小時(shí)。從早上用手機(jī)啟動會話,白天晚些時(shí)候檢查輸出。”
這種模式的核心在于,你把任務(wù)委托給你信任的模型,讓它在你不監(jiān)看時(shí)自行解決問題,同時(shí)也標(biāo)志著,大模型正在從“對話助手”轉(zhuǎn)變成一位“數(shù)字員工”。
這個(gè)轉(zhuǎn)變不僅僅是技術(shù)進(jìn)步,更是工作方式的重構(gòu)。
而在nthropic 2025年Q4內(nèi)部研發(fā)狀態(tài)報(bào)告中,一位Anthropic工程師估計(jì),他們的工作已經(jīng)“70%以上轉(zhuǎn)變?yōu)榇a審查者/修訂者,而不是全新的代碼編寫者”。
另一位工程師認(rèn)為,“為1個(gè)、5個(gè)或100個(gè)Claude的工作負(fù)責(zé)”是未來工程師唯一需要做的事情。他認(rèn)為這不是失業(yè)的威脅,而是角色的轉(zhuǎn)換。從執(zhí)行者變成指揮者,從勞動者變成架構(gòu)師。
給Claude一個(gè)瀏覽器來測試自己的UI,質(zhì)量會提高2到3倍。給它一個(gè)測試套件,它會自我糾正。模型已經(jīng)具備了能力,構(gòu)建讓你能夠信任輸出而無需審查每一行的系統(tǒng)才能解鎖其余部分。
但這個(gè)轉(zhuǎn)變也沒有那么靠譜,當(dāng)前的瓶頸是可靠性。
如果AI可以在10天內(nèi)構(gòu)建自己的繼任者,人類團(tuán)隊(duì)面臨著“不可能的競賽”來審計(jì)正在創(chuàng)建的內(nèi)容。
PromptArmor報(bào)告稱,Cowork可以通過提示注入被誘騙將敏感文件傳輸?shù)焦粽叩腁nthropic賬戶,而在授予訪問權(quán)限后無需任何額外的用戶批準(zhǔn)。
這個(gè)過程不僅相對簡單,而且愈發(fā)難以收拾。AI性能越強(qiáng),權(quán)限越高,那么這個(gè)情況就會越惡化。
Anthropic對此的回應(yīng)是,這個(gè)問題超出了范圍,因?yàn)榘苡绊懘a的GitHub存儲庫已在2025年5月存檔,并且不計(jì)劃修補(bǔ)。
盡管存在這些風(fēng)險(xiǎn),但AI構(gòu)建AI的趨勢已經(jīng)不可逆轉(zhuǎn)。
03
目前AGI已經(jīng)初具呈現(xiàn)。
這就不得不提起Claude Code引入的CLAUDE.md系統(tǒng)了。這是一個(gè)積累機(jī)構(gòu)知識的機(jī)制,工程師在同事的PR上標(biāo)記@.claude來添加學(xué)習(xí)內(nèi)容,將AI視為一個(gè)正在入職的工程師,積累機(jī)構(gòu)知識。
用戶維護(hù)一個(gè)錯(cuò)誤文件,記錄2500個(gè)token的累積更正,作為一個(gè)實(shí)體的記憶,否則它會在會話之間忘記一切。每個(gè)沖刺,AI在該代碼庫中變得更聰明。
這種學(xué)習(xí)不是被動的知識積累,而是主動的能力提升。Claude Code現(xiàn)在可以提出自己的想法,建議應(yīng)該構(gòu)建什么。它不再只是執(zhí)行指令,而是參與到創(chuàng)意過程中。
這種從工具到伙伴的轉(zhuǎn)變,是AGI的一個(gè)關(guān)鍵特征。
Anthropic在2025年發(fā)布的《AI輔助研發(fā)效率白皮書》中提到了這么一個(gè)事情,Claude所輔助的工作中,27%是“否則不會完成”。
“否則不會完成”就是那些因?yàn)閮?yōu)先級低、耗時(shí)久、回報(bào)不確定而被跳過的任務(wù)的統(tǒng)稱。比如為某個(gè)小眾功能做交互式數(shù)據(jù)監(jiān)控儀表板,不做也不會影響主線進(jìn)度。那么如果這個(gè)數(shù)據(jù)監(jiān)控儀表板沒有做,它就會被歸類為“否則不會完成”。
只需給出目標(biāo),Claude就能自主設(shè)計(jì)、編寫、測試,工程師僅需最終審核,從而讓 “不值得做” 的任務(wù)變得可以做。
Anthropic在白皮書中寫道,這種把“否則不會完成”變成可以完成的能力,其增長不是線性的,而是指數(shù)級的。
當(dāng)一個(gè)人類大腦可以監(jiān)督15個(gè)并行會話時(shí),每個(gè)會話都被信任獨(dú)立執(zhí)行,生產(chǎn)力不是增加15倍,而是開啟了全新的可能性空間。
任務(wù)不再受限于人類的時(shí)間和注意力,轉(zhuǎn)而受限于問題的復(fù)雜性和AI的能力。
當(dāng)然話又說回來了,目前AGI呈現(xiàn)仍然有明顯的局限性。
AI構(gòu)建的是仍然停留在應(yīng)用層工具這個(gè)階段,而非底層模型。
![]()
Claude沒辦法構(gòu)建一個(gè)Claude。遞歸自我改進(jìn)仍然局限在特定領(lǐng)域,而不是全面的智能提升。
可靠性仍然是瓶頸。ChatGPT Agent在簡單任務(wù)上的基線成功率只有12.5%,需要大量優(yōu)化才能達(dá)到實(shí)用水平。即使是表現(xiàn)最好的系統(tǒng),也會在復(fù)雜的用戶界面和擴(kuò)展工作流程中遇到困難。
接下來還需要面對安全問題,提示注入攻擊、數(shù)據(jù)泄露、意外的破壞性操作,這些風(fēng)險(xiǎn)隨著AI自主性的增加而放大。
當(dāng)前的安全措施主要依賴于沙箱隔離和權(quán)限控制,但這些機(jī)制在面對復(fù)雜的攻擊場景時(shí)可能不夠。
不過目前最大的瓶頸是Agent的通用性不夠高。
雖然這些Agent可以處理多種任務(wù),但它們在特定領(lǐng)域的表現(xiàn)仍然遠(yuǎn)超跨領(lǐng)域的泛化能力。
AGI的實(shí)現(xiàn)路徑不僅是語言模型性能的提升,更是產(chǎn)品形態(tài)和工作流設(shè)計(jì)的系統(tǒng)工程。當(dāng)前的Agent產(chǎn)品展示了這條路徑的早期階段:從被動的對話到主動的執(zhí)行,從單次交互到持續(xù)學(xué)習(xí),從人工監(jiān)督到自主工作。
Gartner的《AI Agent 重塑企業(yè)采購報(bào)告》預(yù)測,到2028年,90%的B2B采購將由Agent處理,“Agent商務(wù)”將控制超過15萬億美元的支出。
到2028年,使用多AgentAI處理80%客戶面向業(yè)務(wù)流程的組織將占據(jù)主導(dǎo)地位。AI是一個(gè)企業(yè)的基本能力,而不是附加功能。
它們將工作流程重新設(shè)計(jì)為基于AI以及AI優(yōu)先,而不是將AI塞入現(xiàn)有流程。
但這個(gè)轉(zhuǎn)變不會一帆風(fēng)順。Gartner還預(yù)測,到2028年,25%的企業(yè)網(wǎng)絡(luò)安全事件將由AIAgent的誤用引起。隨著AI獲得更多自主權(quán),風(fēng)險(xiǎn)也在增加。
不過必須要承認(rèn)的是,從Cowork到Manus,從Gemini CLI到ChatGPT Agent,這些產(chǎn)品正在重新定義人機(jī)協(xié)作的邊界。
當(dāng)ChatGPT還在陪聊時(shí),Cowork已經(jīng)開始“打工”了。AI不再是回答問題的工具,而是完成任務(wù)的伙伴。這個(gè)轉(zhuǎn)變的深遠(yuǎn)影響,我們才剛剛開始理解。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.