網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI手搓的Cowork“李鬼”版跟“李逵”一樣能打！還免費(fèi)？

2026-01-19 14:41:49　來源: 字母榜

北京舉報(bào)

分享至

Cowork是Anthropic最近推出的一個(gè)桌面AI Agent，能讓用戶無需編程即可完成本地文件處理、工作流程自動化等任務(wù)。

這個(gè)產(chǎn)品對產(chǎn)業(yè)的影響非常大，但它有點(diǎn)太貴了，只有Anthropic的Max用戶才能使用，最低也要每月100美元。

有意思的是，僅僅過了48個(gè)小時(shí)，就有人通過根據(jù)Cowork的產(chǎn)品邏輯開發(fā)出了免費(fèi)開源的版本OpenWork。

它同樣可以讀取文件、創(chuàng)建文檔、自動化重復(fù)性知識工作。而且它不需要訂閱，用戶只需接入自己的API密鑰，選擇想用的模型，就能在Mac上運(yùn)行Agent工作流。

當(dāng)一個(gè)產(chǎn)品的核心能力可以在兩天內(nèi)被復(fù)制，要么是技術(shù)門檻已經(jīng)足夠低，要么是原型足夠清晰。

答案顯而易見，Vibe Coding已經(jīng)強(qiáng)大到只要給出的需求足夠明確，就能做個(gè)甩手掌柜，讓AI獨(dú)自完成所有的工作。

事實(shí)上Cowork這個(gè)產(chǎn)品本身的開發(fā)周期就僅有10天，團(tuán)隊(duì)也就4個(gè)人，幾乎全部代碼都由AI編寫。并且它的代碼完整、封裝完整，是一個(gè)成熟的應(yīng)用，而非以前那種10天半個(gè)月就開發(fā)出來的玩具級應(yīng)用。

醫(yī)生可以給自己做手術(shù)，理發(fā)師可以給自己剪頭發(fā)，而AI也可以構(gòu)建AI。

在Cowork誕生之前，市場已經(jīng)有不少相似的產(chǎn)品。

最被人們熟知的就是Manus，它的定位是“首個(gè)通用AIAgent”，由已經(jīng)被Meta收購的蝴蝶效應(yīng)開發(fā)。

Manus在云端異步執(zhí)行任務(wù)，用戶可以關(guān)閉筆記本電腦后讓Agent繼續(xù)工作。在GAIA基準(zhǔn)測試中，Manus在1到12級難度的最優(yōu)表現(xiàn)，超越OpenAI Deep Research。不過10到12級難度的得分仍然很低，僅有0.4-0.8%。

其架構(gòu)使用Claude作為主LLM，配合29種專用工具，通過多Agent并行處理與結(jié)構(gòu)化輸出 (Schema) 來管理上下文。

2025年3月發(fā)布后，Manus在8個(gè)月內(nèi)達(dá)到1億美元年度經(jīng)常性收入，這個(gè)增長速度在AI產(chǎn)品中極為罕見。2025年12月，Meta以超過20億美元收購Manus，這筆交易的估值是其半年前5億美元估值的四倍。

Gemini CLI是谷歌的開源終端Agent，面向開發(fā)者群體。

它提供免費(fèi)訪問Gemini 2.5 Pro，內(nèi)置谷歌搜索、文件操作、Shell命令等工具，并支持MCP擴(kuò)展。與Cowork的圖形界面不同，Gemini CLI保持在命令行環(huán)境，但通過開源策略鼓勵(lì)社區(qū)貢獻(xiàn)和自定義集成。

ChatGPT Agent于2025年7月推出，運(yùn)行在虛擬機(jī)環(huán)境中，集成文本瀏覽器、可視化瀏覽器、終端和第三方API連接器。Pro用戶每月獲得400次使用額度，Plus和Team用戶為40次。

在HLE基準(zhǔn)測試中得分41.6%，在BrowseComp基準(zhǔn)測試中達(dá)到68.9%的結(jié)果。但實(shí)際測試顯示基線成功率僅12.5%，需要優(yōu)化才能達(dá)到80%的任務(wù)完成率。

ChatGPT Agent的前身，是OpenAI在2025年1月發(fā)布發(fā)布的Operator。

對比維度上，自主性程度從高到低依次為Manus、Cowork、ChatGPT Agent、Gemini CLI。

Manus允許完全異步執(zhí)行，用戶可以在任務(wù)運(yùn)行期間完全脫離；Cowork采用委托式執(zhí)行，用戶授權(quán)后AI自主工作；ChatGPT Agent提供監(jiān)督模式選項(xiàng)，用戶可以選擇介入程度；Gemini CLI則采用交互式確認(rèn)，每個(gè)關(guān)鍵步驟都需要用戶批準(zhǔn)。

執(zhí)行環(huán)境方面，Manus和ChatGPT Agent提供完整虛擬環(huán)境，隔離性最強(qiáng)；Cowork限定在本地文件夾，通過沙箱機(jī)制保證安全；Gemini CLI直接訪問系統(tǒng)終端，靈活性最高但風(fēng)險(xiǎn)也相對較大。

Gemini CLI的使用門檻最高，它需要用戶具備命令行操作能力。而其他三款軟件，均可以通過自然語言或者點(diǎn)擊界面來執(zhí)行任務(wù)。

技術(shù)架構(gòu)中，多Agent協(xié)作、工具鏈集成、沙箱隔離和虛擬機(jī)封裝代表了不同的安全與能力權(quán)衡。

Manus的多Agent系統(tǒng)采用MapReduce架構(gòu)，主Agent分析任務(wù)并生成執(zhí)行計(jì)劃，然后派生出數(shù)百個(gè)專業(yè)化子Agent并行工作，最后聚合結(jié)果。

這種架構(gòu)使其能夠同時(shí)處理大規(guī)模任務(wù)，比如找出所有YC支持的金融科技初創(chuàng)公司CTO的電子郵件地址，這個(gè)任務(wù)如果由人工完成需要數(shù)周，而Manus可以在幾分鐘內(nèi)完成。

Cowork與Claude Code共享相同代理?xiàng)＃ㄟ^GUI而非終端界面呈現(xiàn)，實(shí)現(xiàn)“相同能力，不同入口”。

它運(yùn)行在完整的Linux容器中，由于目前Cowork只支持Mac，所以它使用的是Apple虛擬化框架所提供的沙箱隔離。用戶能明確授權(quán)可訪問的文件夾，如果不授予訪問權(quán)限，Cowork就無法看到該文件夾。

Gemini CLI通過MCP服務(wù)器擴(kuò)展能力，支持GitHub、Firebase、谷歌 Workspace等集成。

開發(fā)者可以配置多個(gè)MCP服務(wù)器，每個(gè)服務(wù)器提供特定領(lǐng)域的工具。這種模塊化設(shè)計(jì)使Gemini CLI成為一個(gè)可擴(kuò)展的平臺，而不僅僅是一個(gè)固定功能的工具。

ChatGPT Agent的虛擬機(jī)環(huán)境提供了最嚴(yán)格的隔離，但也帶來了性能開銷。在測試中，簡單的點(diǎn)擊、選擇元素和搜索操作可能需要幾秒鐘甚至幾分鐘。

Cowork給業(yè)界帶來的最大啟示就是，AI也可以構(gòu)建AI。

傳統(tǒng)軟件開發(fā)中，從概念到產(chǎn)品需要數(shù)月甚至數(shù)年，AI輔助開發(fā)將周期縮短到數(shù)周。

到了AI構(gòu)建AI階段，整個(gè)產(chǎn)品開發(fā)的周期可以以“天”為單位。Cowork就是最好的證明。

AI生成的代碼通常需要人工審查和修正，但當(dāng)AI構(gòu)建的是AI工具本身時(shí)，它對領(lǐng)域的理解深度超越了通用場景。

Claude Code理解代碼生成的模式、常見錯(cuò)誤、最佳實(shí)踐，因?yàn)樗刻焯幚?.95億行代碼，形成了一種自產(chǎn)自銷的良性循環(huán)。

Anthropic的工程師鮑里斯·切爾尼（Boris Cherny）對這個(gè)過程的描述是：“我們采用了一種Vibe Coding的方法，工程師給出一個(gè)大概的結(jié)果，然后讓Claude Code生成Cowork的大部分功能。”

Claude Code不僅寫代碼，還提出自己的想法，建議應(yīng)該構(gòu)建什么。因此這不是簡單的代碼生成，而是一個(gè)理解需求、設(shè)計(jì)架構(gòu)、實(shí)現(xiàn)功能的完整過程。

這種遞歸改進(jìn)已經(jīng)在Anthropic內(nèi)部產(chǎn)生了顯著影響。

去年，Anthropic工程師表示，Claude輔助完成了30%的編碼工作。到了2025年，這個(gè)數(shù)字提升到了60%。

同時(shí)Anthropic的工程團(tuán)隊(duì)表示，其團(tuán)隊(duì)規(guī)模擴(kuò)大了一倍，代碼合并請求（PR吞吐量）卻增加了67%。

這是一個(gè)反常識的事情，PR指的是當(dāng)開發(fā)者完成一段代碼開發(fā)后，會發(fā)起代碼合并請求。當(dāng)團(tuán)隊(duì)審核代碼質(zhì)量、確認(rèn)功能無誤，才能將這段代碼合并到項(xiàng)目的主分支中。

理論上來說，團(tuán)隊(duì)規(guī)模越大，PR吞吐量越低。但是由于原本需要人工編寫、審核的大量功能代碼，被Claude Code承接，減少了人類工程師的重復(fù)工作。

工程師可以更聚焦于核心模塊的審核與架構(gòu)設(shè)計(jì)，讓PR的審核、合并流程更快，最終體現(xiàn)為電表倒轉(zhuǎn)，PR吞吐量提升。

更進(jìn)一步，Anthropic CEO 達(dá)里奧·阿莫德（Dario Amodei）在2025年10月季度技術(shù)溝通會上公開表示，新Claude模型和功能的“絕大多數(shù)”代碼現(xiàn)在由AI Agent自主編寫，且這個(gè)比例超過90%。

換句話說，今天你用的Claude，是昨天Claude自己寫給你用的。

Claude Code的能力被封裝進(jìn)Cowork，Cowork又讓非技術(shù)用戶能夠構(gòu)建自動化工具，這些工具可能反過來生成新的AI輔助流程。

同時(shí)，整個(gè)過程也因?yàn)椴粩嘤行碌墓ぞ呒尤攵兊迷絹碓礁咝А⒃絹碓綔?zhǔn)確。

歸根結(jié)底，這些Agent產(chǎn)品的共同使命是將AI模型從聊天窗口中解放出來。

傳統(tǒng)chatbot的局限性已經(jīng)顯而易見，它們被動響應(yīng)用戶輸入，無法主動執(zhí)行操作，缺乏跨會話記憶，困在對話框的界面牢籠里。當(dāng)用戶需要完成實(shí)際工作時(shí)，chatbot只能提供建議，真正的執(zhí)行仍需人工介入。

新一代Agent實(shí)現(xiàn)了根本性突破。

2025年11月的AI Agent Summit上，一位Anthropic工程師描述的工作流：“15個(gè)并行實(shí)例，每個(gè)作為自主工作者無監(jiān)督執(zhí)行數(shù)小時(shí)。從早上用手機(jī)啟動會話，白天晚些時(shí)候檢查輸出。”

這種模式的核心在于，你把任務(wù)委托給你信任的模型，讓它在你不監(jiān)看時(shí)自行解決問題，同時(shí)也標(biāo)志著，大模型正在從“對話助手”轉(zhuǎn)變成一位“數(shù)字員工”。

這個(gè)轉(zhuǎn)變不僅僅是技術(shù)進(jìn)步，更是工作方式的重構(gòu)。

而在nthropic 2025年Q4內(nèi)部研發(fā)狀態(tài)報(bào)告中，一位Anthropic工程師估計(jì)，他們的工作已經(jīng)“70%以上轉(zhuǎn)變?yōu)榇a審查者/修訂者，而不是全新的代碼編寫者”。

另一位工程師認(rèn)為，“為1個(gè)、5個(gè)或100個(gè)Claude的工作負(fù)責(zé)”是未來工程師唯一需要做的事情。他認(rèn)為這不是失業(yè)的威脅，而是角色的轉(zhuǎn)換。從執(zhí)行者變成指揮者，從勞動者變成架構(gòu)師。

給Claude一個(gè)瀏覽器來測試自己的UI，質(zhì)量會提高2到3倍。給它一個(gè)測試套件，它會自我糾正。模型已經(jīng)具備了能力，構(gòu)建讓你能夠信任輸出而無需審查每一行的系統(tǒng)才能解鎖其余部分。

但這個(gè)轉(zhuǎn)變也沒有那么靠譜，當(dāng)前的瓶頸是可靠性。

如果AI可以在10天內(nèi)構(gòu)建自己的繼任者，人類團(tuán)隊(duì)面臨著“不可能的競賽”來審計(jì)正在創(chuàng)建的內(nèi)容。

PromptArmor報(bào)告稱，Cowork可以通過提示注入被誘騙將敏感文件傳輸?shù)焦粽叩腁nthropic賬戶，而在授予訪問權(quán)限后無需任何額外的用戶批準(zhǔn)。

這個(gè)過程不僅相對簡單，而且愈發(fā)難以收拾。AI性能越強(qiáng)，權(quán)限越高，那么這個(gè)情況就會越惡化。

Anthropic對此的回應(yīng)是，這個(gè)問題超出了范圍，因?yàn)榘苡绊懘a的GitHub存儲庫已在2025年5月存檔，并且不計(jì)劃修補(bǔ)。

盡管存在這些風(fēng)險(xiǎn)，但AI構(gòu)建AI的趨勢已經(jīng)不可逆轉(zhuǎn)。

目前AGI已經(jīng)初具呈現(xiàn)。

這就不得不提起Claude Code引入的CLAUDE.md系統(tǒng)了。這是一個(gè)積累機(jī)構(gòu)知識的機(jī)制，工程師在同事的PR上標(biāo)記@.claude來添加學(xué)習(xí)內(nèi)容，將AI視為一個(gè)正在入職的工程師，積累機(jī)構(gòu)知識。

用戶維護(hù)一個(gè)錯(cuò)誤文件，記錄2500個(gè)token的累積更正，作為一個(gè)實(shí)體的記憶，否則它會在會話之間忘記一切。每個(gè)沖刺，AI在該代碼庫中變得更聰明。

這種學(xué)習(xí)不是被動的知識積累，而是主動的能力提升。Claude Code現(xiàn)在可以提出自己的想法，建議應(yīng)該構(gòu)建什么。它不再只是執(zhí)行指令，而是參與到創(chuàng)意過程中。

這種從工具到伙伴的轉(zhuǎn)變，是AGI的一個(gè)關(guān)鍵特征。

Anthropic在2025年發(fā)布的《AI輔助研發(fā)效率白皮書》中提到了這么一個(gè)事情，Claude所輔助的工作中，27%是“否則不會完成”。

“否則不會完成”就是那些因?yàn)閮?yōu)先級低、耗時(shí)久、回報(bào)不確定而被跳過的任務(wù)的統(tǒng)稱。比如為某個(gè)小眾功能做交互式數(shù)據(jù)監(jiān)控儀表板，不做也不會影響主線進(jìn)度。那么如果這個(gè)數(shù)據(jù)監(jiān)控儀表板沒有做，它就會被歸類為“否則不會完成”。

只需給出目標(biāo)，Claude就能自主設(shè)計(jì)、編寫、測試，工程師僅需最終審核，從而讓 “不值得做” 的任務(wù)變得可以做。

Anthropic在白皮書中寫道，這種把“否則不會完成”變成可以完成的能力，其增長不是線性的，而是指數(shù)級的。

當(dāng)一個(gè)人類大腦可以監(jiān)督15個(gè)并行會話時(shí)，每個(gè)會話都被信任獨(dú)立執(zhí)行，生產(chǎn)力不是增加15倍，而是開啟了全新的可能性空間。

任務(wù)不再受限于人類的時(shí)間和注意力，轉(zhuǎn)而受限于問題的復(fù)雜性和AI的能力。

當(dāng)然話又說回來了，目前AGI呈現(xiàn)仍然有明顯的局限性。

AI構(gòu)建的是仍然停留在應(yīng)用層工具這個(gè)階段，而非底層模型。

Claude沒辦法構(gòu)建一個(gè)Claude。遞歸自我改進(jìn)仍然局限在特定領(lǐng)域，而不是全面的智能提升。

可靠性仍然是瓶頸。ChatGPT Agent在簡單任務(wù)上的基線成功率只有12.5%，需要大量優(yōu)化才能達(dá)到實(shí)用水平。即使是表現(xiàn)最好的系統(tǒng)，也會在復(fù)雜的用戶界面和擴(kuò)展工作流程中遇到困難。

接下來還需要面對安全問題，提示注入攻擊、數(shù)據(jù)泄露、意外的破壞性操作，這些風(fēng)險(xiǎn)隨著AI自主性的增加而放大。

當(dāng)前的安全措施主要依賴于沙箱隔離和權(quán)限控制，但這些機(jī)制在面對復(fù)雜的攻擊場景時(shí)可能不夠。

不過目前最大的瓶頸是Agent的通用性不夠高。

雖然這些Agent可以處理多種任務(wù)，但它們在特定領(lǐng)域的表現(xiàn)仍然遠(yuǎn)超跨領(lǐng)域的泛化能力。

AGI的實(shí)現(xiàn)路徑不僅是語言模型性能的提升，更是產(chǎn)品形態(tài)和工作流設(shè)計(jì)的系統(tǒng)工程。當(dāng)前的Agent產(chǎn)品展示了這條路徑的早期階段：從被動的對話到主動的執(zhí)行，從單次交互到持續(xù)學(xué)習(xí)，從人工監(jiān)督到自主工作。

Gartner的《AI Agent 重塑企業(yè)采購報(bào)告》預(yù)測，到2028年，90%的B2B采購將由Agent處理，“Agent商務(wù)”將控制超過15萬億美元的支出。

到2028年，使用多AgentAI處理80%客戶面向業(yè)務(wù)流程的組織將占據(jù)主導(dǎo)地位。AI是一個(gè)企業(yè)的基本能力，而不是附加功能。

它們將工作流程重新設(shè)計(jì)為基于AI以及AI優(yōu)先，而不是將AI塞入現(xiàn)有流程。

但這個(gè)轉(zhuǎn)變不會一帆風(fēng)順。Gartner還預(yù)測，到2028年，25%的企業(yè)網(wǎng)絡(luò)安全事件將由AIAgent的誤用引起。隨著AI獲得更多自主權(quán)，風(fēng)險(xiǎn)也在增加。

不過必須要承認(rèn)的是，從Cowork到Manus，從Gemini CLI到ChatGPT Agent，這些產(chǎn)品正在重新定義人機(jī)協(xié)作的邊界。

當(dāng)ChatGPT還在陪聊時(shí)，Cowork已經(jīng)開始“打工”了。AI不再是回答問題的工具，而是完成任務(wù)的伙伴。這個(gè)轉(zhuǎn)變的深遠(yuǎn)影響，我們才剛剛開始理解。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.