![]()
最近,Anthropic對(duì)旗下Claude Cowork與Claude Code桌面端進(jìn)行更新,推出桌面操控功能Computer Use,被外界譽(yù)為是另一版“龍蝦”。
據(jù)官方介紹,該功能核心是讓AI直接操控電腦,表示“任何你坐在電腦前可以做的事情,Claude都能使用電腦幫你完成”,可模擬鼠標(biāo)、鍵盤操作,完成打開文件、使用瀏覽器等任務(wù)。
目前它處于研究預(yù)覽階段,僅向訂閱用戶開放,暫為macOS獨(dú)占,Windows和Linux版本將后續(xù)推出。
一些體驗(yàn)過Claude版龍蝦的用戶斷言,這款產(chǎn)品“絕殺了OpenClaw”。但筆者體驗(yàn)和了解后發(fā)現(xiàn),Claude版龍蝦的技術(shù)路線并非獨(dú)創(chuàng)。
為何先行者們“生不逢時(shí)”?因?yàn)榧夹g(shù)難題可以破解,但公司利益和現(xiàn)實(shí)風(fēng)險(xiǎn)卻難以逾越。
Claude的“小龍蝦”
我們向剛了解這個(gè)領(lǐng)域的讀者再介紹下Claude,其母公司為Anthropic,是一家專注于大語言模型研發(fā)的科技企業(yè)。
作為Anthropic的核心產(chǎn)品,Claude在全球主流大模型榜單中表現(xiàn)突出。筆者在《國(guó)外大模型更好用?我們做了一下專門研究》中提到過claude opus 4.6霸榜第一,明顯領(lǐng)先于國(guó)內(nèi)一流模型;在專門衡量AI智能體任務(wù)能力的PinchBench榜單中,Claude Opus 4.6以82.5%的任務(wù)成功率蟬聯(lián)第一。
憑借在代碼開發(fā)、復(fù)雜推理領(lǐng)域的優(yōu)勢(shì),國(guó)內(nèi)字節(jié)跳動(dòng)、騰訊等大廠均將Claude用于內(nèi)部輔助研發(fā),技術(shù)實(shí)力獲得行業(yè)廣泛認(rèn)可。
而Claude推出的Computer Use,明顯對(duì)標(biāo)開源社區(qū)的OpenClaw(俗稱“小龍蝦”),二者核心定位均為AI自主操控設(shè)備,但基于雙方官方框架的原生能力差異明顯:
![]()
可以看到,Claude Computer Use作為一個(gè)閉源付費(fèi)產(chǎn)品,易用性、安全性、功能上明顯更強(qiáng)。
專門的絕活
但最值得關(guān)注的,是Claude這款桌面工具采用的視覺操控技術(shù)路線——這也是它能真正打破應(yīng)用壁壘的關(guān)鍵。
OpenClaw等智能體之所以能進(jìn)行操作,傳統(tǒng)方式大多是依賴應(yīng)用提供的API接口,相當(dāng)于軟件廠商主動(dòng)“開門”,讓AI能直接對(duì)接內(nèi)部功能。
但Claude的Computer Use走了另一條路:它像人一樣“看”屏幕,通過實(shí)時(shí)截圖、OCR識(shí)別和視覺解析,看懂屏幕上的按鈕、文本和界面布局,再模擬鼠標(biāo)點(diǎn)擊、鍵盤輸入等動(dòng)作,完成操作,形成“觀察-決策-執(zhí)行-反饋”的完整循環(huán)。
這正是典型的OODA循環(huán)邏輯,也是它能高效完成任務(wù)的核心。
這種視覺操控的最大優(yōu)勢(shì),就是能適配那些不提供API接口的軟件。
我們?nèi)粘J褂玫暮芏嘬浖绕涫且恍┬”姽ぞ摺I(yè)軟件,廠商往往出于安全、利益考慮不愿開放接口的應(yīng)用,AI靠傳統(tǒng)的API方式根本無法操控。
而Claude的視覺操控,不需要軟件廠商配合,只要能在屏幕上顯示,AI就能識(shí)別并操作,相當(dāng)于繞開了“開門”的限制,自己找到“窗戶”,真正實(shí)現(xiàn)了跨應(yīng)用、全場(chǎng)景的自動(dòng)化。比如一些沒有開放接口的專業(yè)設(shè)計(jì)軟件、小眾辦公工具,它都能輕松上手,這也是它相比傳統(tǒng)AI工具的核心突破。
了解了這些細(xì)節(jié)后,我們就可以清晰梳理出當(dāng)前AI智能體操控其他工具的兩種核心方式:一種是API調(diào)用,相當(dāng)于軟件廠商主動(dòng)開放接口,AI通過接口“精準(zhǔn)對(duì)接”,高效且穩(wěn)定,就像汽車自動(dòng)駕駛的激光雷達(dá)方案,靠精準(zhǔn)的傳感器獲取信息;另一種就是視覺操控,AI通過“看”屏幕來識(shí)別和操作,無需廠商配合,通用性極強(qiáng),類似自動(dòng)駕駛的視覺方案,靠攝像頭捕捉環(huán)境信息,自主判斷路徑。
這兩種方式,其實(shí)沒有絕對(duì)的優(yōu)劣之分,技術(shù)上也都有成熟的路徑可走——如今的AI視覺識(shí)別能力、動(dòng)作模擬精度,已經(jīng)能滿足大部分日常場(chǎng)景的需求,只要持續(xù)優(yōu)化,技術(shù)層面的瓶頸不難突破。
真正的壁壘
其實(shí),這種“視覺識(shí)別+模擬操作”的技術(shù)路線,并不是Claude首創(chuàng)——早在去年年底,一度火爆全網(wǎng)的豆包手機(jī)助手,就已經(jīng)采用了幾乎完全相同的思路。
當(dāng)時(shí),豆包手機(jī)助手一經(jīng)推出就引發(fā)轟動(dòng),它能通過視覺識(shí)別手機(jī)屏幕,模擬人手觸摸、點(diǎn)擊,實(shí)現(xiàn)跨APP自動(dòng)化操作,比如一句話完成“請(qǐng)假+訂高鐵+訂酒店”的連貫任務(wù),一度讓人們看到了AI助手的未來形態(tài)。
可惜的是,豆包手機(jī)助手終究生不逢時(shí),沒能持續(xù)火下去,很快就因廠商間的壁壘問題迅速走下神壇。
它的困境,本質(zhì)上是技術(shù)理想與商業(yè)現(xiàn)實(shí)的碰撞:一方面,它需要獲取手機(jī)系統(tǒng)級(jí)的高危權(quán)限,才能實(shí)現(xiàn)模擬觸摸操作,這被微信、支付寶等超級(jí)APP判定為“安全風(fēng)險(xiǎn)”,紛紛采取風(fēng)控措施,導(dǎo)致賬號(hào)異常、功能禁用;另一方面,各大手機(jī)廠商有自己的AI助手,不愿開放系統(tǒng)權(quán)限,而淘寶、美團(tuán)等APP則擔(dān)心它跳過廣告、推薦環(huán)節(jié),沖擊自身的流量變現(xiàn)模式,紛紛“拉黑”它。
更關(guān)鍵的是,AI操作的責(zé)任界定模糊,一旦出現(xiàn)誤操作導(dǎo)致用戶損失,責(zé)任難以劃分,這也讓很多廠商選擇直接禁用相關(guān)功能。
最終,這款本該改變手機(jī)交互方式的工具,只能無奈收縮功能,逐漸淡出大眾視野。
但真正難以逾越的,從來不是技術(shù)這座高山,而是各個(gè)廠商之間的利益與風(fēng)險(xiǎn)壁壘。
就像豆包手機(jī)助手,不是技術(shù)不夠先進(jìn),而是觸動(dòng)了手機(jī)廠商、應(yīng)用廠商的既得利益:手機(jī)廠商不愿放棄系統(tǒng)入口的控制權(quán),應(yīng)用廠商不愿失去流量和變現(xiàn)渠道,大家都在維護(hù)自己的“圍墻花園”,不愿為了技術(shù)創(chuàng)新而讓步。
事實(shí)上,Claude的桌面工具目前只支持macOS,未來要拓展到Windows、Linux,同樣會(huì)面臨各類權(quán)限、生態(tài)兼容的問題;而OpenClaw作為開源項(xiàng)目,雖然靈活,但也會(huì)受到廠商的權(quán)限限制,難以實(shí)現(xiàn)全場(chǎng)景無障礙使用。
說到底,AI智能體要真正走進(jìn)我們的日常,實(shí)現(xiàn)“一句話讓AI替我們干活”的愿景,技術(shù)的進(jìn)步只是基礎(chǔ),更重要的是打破廠商間的利益壁壘,建立起兼顧安全、利益與創(chuàng)新的行業(yè)規(guī)則。否則,再先進(jìn)的技術(shù),也只能被困在“圍墻”之內(nèi),難以發(fā)揮真正的價(jià)值。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.