![]()
當 AI Agent 逐漸走出對話框,真正的難點不再是 “回答得多聰明”,而是能否像人一樣完成任務閉環:看懂屏幕、點擊按鈕、填寫表單、整理文件、生成交付物,并把結果同步回團隊協作系統。
我們開源的Open Cowork,正是一次面向 “桌面端虛擬同事” 的實踐:一鍵安裝、無需寫代碼,讓模型在安全沙箱里操作你的工作空間,既能產出 PPT/Word/Excel/PDF 等專業成果,也能通過 GUI 直接操作電腦完成更復雜更通用的跨應用流程。
![]()
- 代碼鏈接:https://github.com/OpenCoworkAI/open-cowork
![]()
https://mp.weixin.qq.com/s/NylUAZLAWiBdkf6bkqbgOQ?click_id=6
GUI操作
PPT生成
飛書操控
一、為什么要做「能用電腦」的 AI?
過去兩年,大模型的推理與生成能力突飛猛進,但在真實辦公場景中,高頻任務往往卡在執行層面
- 應用孤島: 網頁、桌面應用、企業系統之間缺乏統一 API。
- 流程割裂: 數據分散在瀏覽器、文檔、IM 和本地文件中。
- 人工瓶頸: 用戶仍需充當 “搬運工”,在不同窗口間復制粘貼。
我們認為,Agent 不應只止步于 “對話建議”。Open Cowork 的目標是將這些碎片化動作自動化:像人一樣操作電腦,跑完流程,并以可交付的形式(文檔、表格、PPT)落地,最終通過飛書等工具進入團隊協作流。
二、Open Cowork 是什么?
Open Cowork 是 Claude Cowork 理念的開源增強實現。 它提供 Windows 與 macOS 的一鍵安裝包,核心是一個 “沙箱化工作區”:模型被授權在指定 Workspace 內讀寫文件、調用工具,并通過內置 Skills 系統將數據加工成專業交付物。
此外,Open Cowork 不僅僅是 Claude Cowork 的開源復刻,我們還實現了近期熱門的 OpenClaw 的核心遠程控制功能(例如通過飛書遠程發送指令并收到回復),以及支持了對電腦端 APP 的通用 GUI 操作(例如可以支持模型操作 Cursor APP 來進行代碼的迭代改進與交互測試),這對于沒有實現 MCP 接口的桌面 APP 尤為重要。
能力對比一覽:
![]()
三、三大能力組合:
Skills × GUI × Remote
1)Skills:面向交付的 “工作流技能庫”
Agent 的價值不應止步于 Chat 窗口。Open Cowork 內置了標準化的 Skills 系統(支持自定義與擴展),核心目標只有一個:產出可用的文件
- 覆蓋主流格式: 支持 PPTX、DOCX、XLSX、PDF 的原生生成與編輯。
- 結構化輸出: 無論是將非結構化文本轉為 Excel 報表,還是根據大綱自動生成演示文稿,我們讓模型直接交付 “半成品” 甚至 “成品”,而非中間態的文字。
PPT 制作視頻:從本地文件 / 大綱自動生成可編輯的 PPTX
2)GUI:讓模型像人一樣操作電腦,把能做的事情變多
API 總有覆蓋不到的地方,但 UI 界面是通用的。GUI 模塊讓模型具備了 “人類操作” 的能力,將 Agent 的可用性擴展到 OS 層面。
- Screen-to-Action: 通過截圖理解當前 UI 狀態,規劃并執行鼠標點擊、拖拽、文本輸入等動作。
- 跨應用自動化: 能夠處理復雜的跨軟件鏈路(例如:從 ERP 抓數據 -> 填入 Excel -> 導出 PDF)。
在產品體驗上,我們強調的是 “能做更多事、像人一樣動手”。對于 GUI 理解與操作任務,建議選擇更強的多模態模型以獲得更穩的步驟執行。
GUI 操作視頻:利用 GUI 界面操作 cursor 寫小程序并迭代改進
3)Remote:接入飛書,把它變成真正的 “虛擬同事”
如果 GUI 讓它 “會做事”,Remote 則讓它 “懂協作”。Open Cowork 拒絕做一個孤獨的桌面程序,通過接入飛書(Lark)等協作平臺,它打通了本地執行與團隊協同的壁壘
- 閉環工作流: AI 在你電腦上跑完數據(GUI/Skills),轉頭就能把做好的報表扔進部門群(Remote),或者同步到在線文檔。
- 真正的虛擬同事: 它既有本地環境的執行權限,又有團隊系統的溝通權限。產出不再停留在你的硬盤里,而是直接流動到團隊的業務流中。
遠程操控視頻:利用飛書遠程操控 Open Cowork
四、安全性:讓 “能動手” 盡量可控
桌面端 Agent 的能力越強,安全邊界越重要。Open Cowork 的基本原則是:默認把所有操作限制在你選定的 workspace 內。同時,我們提供更強的 VM 級隔離選項:Windows 側優先使用 WSL2,macOS 側可使用 Lima,將命令執行放入隔離環境中運行,以降低對宿主機的影響。
桌面端 Agent 的能力越強,賦予 Agent “系統級操作權限” 越要嚴格地風控。Open Cowork 堅持 “默認安全” 的設計原則:
- Workspace 限制: 文件讀寫權限被嚴格圈定在用戶授權的目錄下,防止全盤掃描。
- 環境隔離(Sandbox): 提供基于虛擬化的強隔離方案。
Windows: 推薦使用 WSL2 子系統運行核心邏輯。
macOS: 適配 Lima 虛擬機環境。 通過將命令執行放入隔離沙箱,最大程度降低對宿主機的誤操作風險。
五、如何快速上手(3 分鐘)
1)下載并安裝:Windows 使用 .exe,macOS(Apple Silicon)使用 .dmg。
2)配置模型:在設置頁填寫 API Key、Base URL 與模型名(支持多家 OpenAI-compatible/Anthropic-compatible 提供方)。
3)選擇工作區:授權一個你希望 AI 操作的文件夾作為 workspace。
4)開始協作:例如 “讀取這個文件夾里的 financial_report.csv,生成 5 頁 PPT 總結,并把結果發到飛書群里。”
六、開源與共建
Open Cowork 以 MIT License 開源,歡迎開發者貢獻新的 Skills、MCP Connector、Remote 集成與 GUI 操作優化。我們希望和更多社區伙伴一起,把 “桌面虛擬同事” 從 demo 變成可持續迭代的基礎設施。
作者簡介:
Open Cowork Team:由多位清華大學在讀的博士生 / 本科生組成,關注桌面端 AI Agent、MCP 生態與安全沙箱。我們希望把 AI 從 “會聊天” 推進到 “會動手”,打造可安裝、可擴展、可共建的虛擬同事工作臺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.