![]()
智東西
作者 楊京麗
編輯 李水青
智東西4月14日消息,今天,MiniMax為其桌面端Agent上線兩項新功能:Pocket(Beta)和Computer Use。簡單來說,Pocket讓用戶可以在飛書、微信、Slack等主流IM里,遠程給Agent下指令,Computer Use則能讓Agent能像人一樣看屏幕、點鼠標、敲鍵盤,直接操作電腦上的本地軟件和系統設置。
上周,MiniMax發布了命令行工具MMX-CLI,讓Agent可以在終端中調用其全模態能力。今天這次更新補上了圖形界面側的操作能力,并通過IM構建了一個統一的遠程入口,用戶不在電腦前,也能通過手機隨時喚起Agent干活。
一、Pocket打通IM遠程操控,Computer Use接管圖形界面
Pocket是一項IM接入能力,用戶在飛書、微信等IM中喚起Pocket發送指令,Agent即可在其電腦上執行任務,完成后將結果回傳至對話。核心場景是遠程操控,用戶不在電腦前,也能通過手機調度桌面Agent。
Computer Use則讓Agent具備操作圖形界面的能力,通過截圖識別屏幕內容,模擬鼠標和鍵盤操作本地軟件。那些沒有命令行接口的任務,比如改系統偏好設置、操作本地設計工具、在多個應用間手動搬運數據,現在都可以交給Agent完成。
MiniMax展示了幾個IM與Computer Use組合使用的場景。
1、遠程找文件。
提示詞:幫我看下我桌面上是不是有一個2025 report的PDF?找到并發給我。
![]()
▲Agent遠程找文件(來源:MiniMax)
這是一個比較基礎的應用場景。Agent在用戶電腦桌面上定位到目標文件后,直接回傳到IM對話中。整個流程不需要用戶打開電腦。從實際演示來看,Agent能準確識別文件名中的關鍵詞并完成定位,通過對話將正確的文件發給用戶。
2、操作本地應用與系統設置,執行定時任務。
提示詞:幫我打開系統設置,找到鎖定屏幕,把不活躍時啟動屏幕保護程序設為永不。然后打開Pocket客戶端執行每日定時任務,完成后給我一張截圖。
![]()
![]()
由于系統偏好設置沒有公開的命令行接口,這些操作只能通過圖形界面完成。Agent基于Computer Use打開系統設置、定位到“鎖定屏幕”面板、調整下拉菜單,隨后啟動客戶端執行任務,最后截圖回傳。整個過程可在IM中完整查看Agent的每一步操作,后續也按照要求完成了定時任務。
二、技術實現:桌面操作拆分,可調度工具總數超60個
目前主流的Computer Use實現方式是給Agent一個統一的“computer”工具,所有操作都靠截圖加像素坐標完成,先截一張屏幕,識別出目標位置的像素坐標,再模擬點擊。這種方式結構簡單,但精度有限,比如讓模型去數像素點一個按鈕,不如直接調用系統接口來得準。
MiniMax的做法是把桌面操作拆分成四個獨立的工作:
1、Desktop Control負責截圖、鼠標操作(含修飾鍵組合)、鍵盤輸入、滾動、拖拽;
2、Window Manager負責窗口列表查詢、聚焦、最小化/最大化、關閉、移動縮放及應用啟動;
3、Browser Engine負責DOM操作、CSS選擇器定位、JavaScript執行和結構化導航;
4、Clipboard負責系統剪貼板讀寫。
Agent執行任務時會根據場景自動選擇最合適的工具,比如切換窗口直接調系統接口,不用先截圖再找窗口按鈕在哪。這四套工具再加上飛書、企業微信、mmx三套平臺工具以及命令行工具,Agent可調度的工具總數超過60個。
屏幕適配方面,不同用戶的顯示器分辨率差異很大,同一個按鈕在4K屏上和1080p屏上的像素位置完全不同。MiniMax的處理方式是讓模型只輸出相對位置,由系統自動換算成實際坐標。截圖也會根據模型能處理的畫面上限做縮放,避免高分屏信息過載、低分屏畫面模糊。
三、截圖驗證每一步,敏感操作需IM確認
真實任務往往需要數十步甚至上百步連續操作,單步偏差可能導致后續全部失敗。MiniMax為此給每一步桌面操作接入了驗證環節:操作執行完后立刻自動截圖,由模型判斷該步是否成功。
符合預期則推進下一步;未達預期則進入診斷流程,識別失敗原因并嘗試替代方案,比如鼠標點不到的按鈕換用鍵盤快捷鍵。若在一定重試次數內仍未解決,Agent會主動告知用戶具體卡在哪一步,而非繼續盲目嘗試。
安全權限方面,當Agent準備執行文件刪除等敏感操作時,會先暫停,將該步的具體內容推送到用戶的IM對話中。在飛書和Slack中會彈出一張交互卡片,用戶點擊即可授權或拒絕;微信等不支持交互組件的平臺則通過文本指令完成授權。任務執行過程中,用戶也可隨時發送指令中止Agent。
結語:Agent操作電腦從演示走向產品化
從OpenClaw爆火,Anthropic推出Computer Use,到如今MiniMax將類似能力落地到桌面端并接入IM,AI Agent“操作電腦”正在從技術演示走向實際場景。但從目前各家的進展來看,這項能力仍處于早期,復雜界面下的識別精度、長任務中的穩定性、面對陌生軟件時的泛化能力,都是共性難題。
MiniMax這次更新提供了一條具體的產品化路徑:用IM做入口降低使用門檻,用工具域拆分提升操作精度,用逐步驗證兜住多步任務的可靠性。至于這套方案在真實用戶場景中能走多遠,還需要更大范圍的使用反饋來驗證。
來源:MiniMax
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.