網易首頁 > 網易號 > 正文申請入駐

支持遠程操控和通用GUI操作，開源版桌面虛擬同事Open Cowork來

2026-03-02 14:16:59　來源: 機器之心Pro

河北舉報

分享至

當 AI Agent 逐漸走出對話框，真正的難點不再是 “回答得多聰明”，而是能否像人一樣完成任務閉環：看懂屏幕、點擊按鈕、填寫表單、整理文件、生成交付物，并把結果同步回團隊協作系統。

我們開源的Open Cowork，正是一次面向 “桌面端虛擬同事” 的實踐：一鍵安裝、無需寫代碼，讓模型在安全沙箱里操作你的工作空間，既能產出 PPT/Word/Excel/PDF 等專業成果，也能通過 GUI 直接操作電腦完成更復雜更通用的跨應用流程。

代碼鏈接：https://github.com/OpenCoworkAI/open-cowork

https://mp.weixin.qq.com/s/NylUAZLAWiBdkf6bkqbgOQ?click_id=6

GUI操作

PPT生成

飛書操控

一、為什么要做「能用電腦」的 AI？

過去兩年，大模型的推理與生成能力突飛猛進，但在真實辦公場景中，高頻任務往往卡在執行層面

應用孤島：網頁、桌面應用、企業系統之間缺乏統一 API。
流程割裂：數據分散在瀏覽器、文檔、IM 和本地文件中。
人工瓶頸：用戶仍需充當 “搬運工”，在不同窗口間復制粘貼。

我們認為，Agent 不應只止步于 “對話建議”。Open Cowork 的目標是將這些碎片化動作自動化：像人一樣操作電腦，跑完流程，并以可交付的形式（文檔、表格、PPT）落地，最終通過飛書等工具進入團隊協作流。

二、Open Cowork 是什么？

Open Cowork 是 Claude Cowork 理念的開源增強實現。它提供 Windows 與 macOS 的一鍵安裝包，核心是一個 “沙箱化工作區”：模型被授權在指定 Workspace 內讀寫文件、調用工具，并通過內置 Skills 系統將數據加工成專業交付物。

此外，Open Cowork 不僅僅是 Claude Cowork 的開源復刻，我們還實現了近期熱門的 OpenClaw 的核心遠程控制功能（例如通過飛書遠程發送指令并收到回復），以及支持了對電腦端 APP 的通用 GUI 操作（例如可以支持模型操作 Cursor APP 來進行代碼的迭代改進與交互測試），這對于沒有實現 MCP 接口的桌面 APP 尤為重要。

能力對比一覽：

三、三大能力組合：

Skills × GUI × Remote

1）Skills：面向交付的 “工作流技能庫”

Agent 的價值不應止步于 Chat 窗口。Open Cowork 內置了標準化的 Skills 系統（支持自定義與擴展），核心目標只有一個：產出可用的文件

覆蓋主流格式：支持 PPTX、DOCX、XLSX、PDF 的原生生成與編輯。
結構化輸出：無論是將非結構化文本轉為 Excel 報表，還是根據大綱自動生成演示文稿，我們讓模型直接交付 “半成品” 甚至 “成品”，而非中間態的文字。

PPT 制作視頻：從本地文件 / 大綱自動生成可編輯的 PPTX

2）GUI：讓模型像人一樣操作電腦，把能做的事情變多

API 總有覆蓋不到的地方，但 UI 界面是通用的。GUI 模塊讓模型具備了 “人類操作” 的能力，將 Agent 的可用性擴展到 OS 層面。

Screen-to-Action：通過截圖理解當前 UI 狀態，規劃并執行鼠標點擊、拖拽、文本輸入等動作。
跨應用自動化：能夠處理復雜的跨軟件鏈路（例如：從 ERP 抓數據 -> 填入 Excel -> 導出 PDF）。

在產品體驗上，我們強調的是 “能做更多事、像人一樣動手”。對于 GUI 理解與操作任務，建議選擇更強的多模態模型以獲得更穩的步驟執行。

GUI 操作視頻：利用 GUI 界面操作 cursor 寫小程序并迭代改進

3）Remote：接入飛書，把它變成真正的 “虛擬同事”

如果 GUI 讓它 “會做事”，Remote 則讓它 “懂協作”。Open Cowork 拒絕做一個孤獨的桌面程序，通過接入飛書（Lark）等協作平臺，它打通了本地執行與團隊協同的壁壘

閉環工作流： AI 在你電腦上跑完數據（GUI/Skills），轉頭就能把做好的報表扔進部門群（Remote），或者同步到在線文檔。
真正的虛擬同事：它既有本地環境的執行權限，又有團隊系統的溝通權限。產出不再停留在你的硬盤里，而是直接流動到團隊的業務流中。

遠程操控視頻：利用飛書遠程操控 Open Cowork

四、安全性：讓 “能動手” 盡量可控

桌面端 Agent 的能力越強，安全邊界越重要。Open Cowork 的基本原則是：默認把所有操作限制在你選定的 workspace 內。同時，我們提供更強的 VM 級隔離選項：Windows 側優先使用 WSL2，macOS 側可使用 Lima，將命令執行放入隔離環境中運行，以降低對宿主機的影響。

桌面端 Agent 的能力越強，賦予 Agent “系統級操作權限” 越要嚴格地風控。Open Cowork 堅持 “默認安全” 的設計原則：

Workspace 限制：文件讀寫權限被嚴格圈定在用戶授權的目錄下，防止全盤掃描。
環境隔離（Sandbox）：提供基于虛擬化的強隔離方案。

Windows：推薦使用 WSL2 子系統運行核心邏輯。

macOS：適配 Lima 虛擬機環境。通過將命令執行放入隔離沙箱，最大程度降低對宿主機的誤操作風險。

五、如何快速上手（3 分鐘）

1）下載并安裝：Windows 使用 .exe，macOS（Apple Silicon）使用 .dmg。

2）配置模型：在設置頁填寫 API Key、Base URL 與模型名（支持多家 OpenAI-compatible/Anthropic-compatible 提供方）。

3）選擇工作區：授權一個你希望 AI 操作的文件夾作為 workspace。

4）開始協作：例如 “讀取這個文件夾里的 financial_report.csv，生成 5 頁 PPT 總結，并把結果發到飛書群里。”

六、開源與共建

Open Cowork 以 MIT License 開源，歡迎開發者貢獻新的 Skills、MCP Connector、Remote 集成與 GUI 操作優化。我們希望和更多社區伙伴一起，把 “桌面虛擬同事” 從 demo 變成可持續迭代的基礎設施。

作者簡介：

Open Cowork Team：由多位清華大學在讀的博士生 / 本科生組成，關注桌面端 AI Agent、MCP 生態與安全沙箱。我們希望把 AI 從 “會聊天” 推進到 “會動手”，打造可安裝、可擴展、可共建的虛擬同事工作臺。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.