又是羨慕Mac用戶的一天。
今天凌晨,OpenAI正式發(fā)布適用于macOS的新版Codex,并附文:
Codex for (almost) everything.
It can now use apps on your Mac, connect to more of your tools, create images, learn from previous actions, remember how you like to work, and take on ongoing and repeatable tasks.
Codex (幾乎) 無所不能。
它現(xiàn)在可以調(diào)度 Mac 上的應用程序,連接更多生產(chǎn)力工具,并具備圖像生成能力。此外,Codex 能夠通過歷史行為進行學習,記憶您的工作偏好,并自主承接持續(xù)性及重復性的任務。
一言蔽之:Mac版的“原生龍蝦”上線了。
自2月中旬將OpenClaw(龍蝦)的創(chuàng)始人招攬進公司后,OpenAI在后續(xù)的兩個月里就一直在搗鼓把OpenClaw的能力融入Codex中,如今終于看到了成效,而且一上線就是“王炸”。
![]()
接下來就讓雷科技(ID:leitech)帶大家看看,最新的Mac版Codex都能做什么。
從開發(fā)者到維護者,Codex已實全自動化
OpenAI公布的Codex演示視頻,首先展示了Codex在Mac環(huán)境下的自主開發(fā)、自主debug的能力。
用戶向Codex下達指令:測試一個“井字棋”應用并修復所有的Bug。在接收到指令后,Codex自主打開Mac上的本地Xcode工程,并且依次點擊井字棋項目的網(wǎng)格,最終定位到程序代碼的位置并執(zhí)行啟動指令。
![]()
從這里就能看出來,Codex并非通過后端的API直接調(diào)用測試代碼,而是真正通過圖形界面(GUI)像普通用戶一樣去“使用”這個應用。兩者的區(qū)別在于:前者只是代表其解決了指令理解和代碼執(zhí)行問題,本質(zhì)上依賴于應用本身的開放API;后者則無需調(diào)用應用的API,即可通過圖形識別來完成任務。
這意味著,Codex具有真正意義上的“通用執(zhí)行能力”,因為很多第三方應用壓根就不會給你開放API。對于以前的AI來說,這些應用就是一個“黑盒”,它知道對方的存在,卻不能操作也不能讀取。
而且,這里也展示了OpenAI強大的多模態(tài)視覺識別與坐標映射能力。Codex能夠“看懂”模擬器上的UI元素,并決定鼠標應該點擊屏幕上的哪個像素坐標來完成下棋動作。
接下來Codex自動進入測試,然后直接識別到了Bug:“人類走一步,電腦對手會走兩步”。這是整個演示中最讓人驚艷的地方,因為Codex沒有參考任何的錯誤文檔,而是完全通過視覺觀察和游戲規(guī)則的邏輯推理,判斷出了應用在行為表現(xiàn)上的Bug。
![]()
某種程度上,這說明Codex已經(jīng)具備一定的自主決策和“擬人”推理能力,在確定問題后,它開始著手修復井字棋程序,然后重新編譯運行程序并確認Bug已經(jīng)修復。而在另一個視頻里,Codex還利用代碼輔助插件,在沒有明確文件路徑提示的情況下,自主探索本地的前端項目,并且給出了改動范圍最小的代碼修改方案。
可以說,OpenAI通過簡單的兩個案例,直觀展示了Codex從前端到后端的完整工作流程能力。而且這一切都是通過對圖形界面的視覺識別完成的,說明其已經(jīng)具備幾乎涵蓋所有開發(fā)環(huán)境的全流程閉環(huán)開發(fā)能力。
說實話,這真的有點可怕了。如果說以前用Codex開發(fā)應用,你還要懂一點編程知識去解決API接入等問題,那么現(xiàn)在可以直接跳過這些流程,讓Codex像“真人”一樣操作電腦并生成你想要的程序。
不只是“生產(chǎn)者”,更是“協(xié)作者”
另一視頻則展示了Codex在多模態(tài)層面的執(zhí)行能力。在這個視頻中,用戶要求Codex為網(wǎng)頁的主視覺區(qū)生成一張圖片,這個要求里甚至沒有具體的圖片風格提示詞。
那么Codex是怎么做的呢?它沒有直接生成一張不相關(guān)的圖片,而是首先讀取了本地項目文件,然后結(jié)合圖形界面讀取的信息,確定了網(wǎng)頁的主題基調(diào)是“費城深夜快餐”,并以此為基準生成了一張“漢堡+薯條+深夜燈光”的圖片。
![]()
而且Codex還進一步分析了“主視覺區(qū)”的排版需求。為了不遮擋左側(cè)的文案文字,生成的圖片需要在左側(cè)留出足夠的空余,并且視覺重心要偏向右側(cè)。僅這一項就是以前的AI難以做到的,因為大多數(shù)輔助開發(fā)工具都還在“純文本代碼生成”階段,不僅無法理解網(wǎng)頁中的“視覺元素”,甚至連圖片生成和路徑引入都要用戶手動指定。
![]()
而在確定圖片符合要求后,Codex自動執(zhí)行指令將生成的圖片移動到本地的項目文件夾中,并著手修改HTML文件,用真實的圖片標簽及本地路徑替換了原有的占位符;同時順手微調(diào)了CSS樣式,確保圖片能夠完美適配網(wǎng)頁的大小,最后還刷新了內(nèi)置瀏覽器的網(wǎng)頁,展示最終的網(wǎng)頁效果。
OpenAI還展示了Codex是如何完全自主搭建一個網(wǎng)頁的。在接收到用戶的“樂高追蹤網(wǎng)頁應用”開發(fā)需求后,Codex調(diào)用開發(fā)軟件完成代碼編寫,并自動在本地啟動了開發(fā)服務器,在Codex自帶的瀏覽器面板上加載了頁面。
隨后,用戶可以將自己的任意需求直接告訴Codex,它會根據(jù)圖形識別等獲取的數(shù)據(jù),調(diào)整網(wǎng)頁的對應元素。比如在視頻中,用戶只是在對應編輯框給出了“縮小字體”的需求,Codex就自動完成了字體縮小、重新排版等一系列步驟,真正做到了“所見即所得”。
![]()
對于網(wǎng)頁開發(fā)者來說,Codex的身份其實已經(jīng)發(fā)生了轉(zhuǎn)變。以前大家更多將其視作debug和網(wǎng)頁框架搭建的“代碼生產(chǎn)者”,最終的整合還是需要人類插手。
現(xiàn)在,它已經(jīng)變成了你的“協(xié)作者”,你可以將更多的工作交給它。即使這涉及到具體的視覺元素修改和UI微調(diào)——以前AI可能難以準確理解你的意圖,現(xiàn)在卻不同了,因為它也能“看”到網(wǎng)頁。
專屬私人助理上線
在最后兩個視頻的演示里,OpenAI則是打算讓Codex變成你的“私人助理”。視頻中用戶僅用一句話,就讓Codex同時檢索了Slack、Gmail、Google Calendar和Notion等四個截然不同的SaaS平臺。
接著,Codex基于其語義理解能力,自主分析各平臺的通知與信息,并根據(jù)優(yōu)先級進行排序,將信息分類為“急需處理”和“可以暫緩”;同時根據(jù)信息的具體內(nèi)容,提醒用戶某些信息雖然看起來只是日常匯報,但是涉及到需要審批的事項,需要額外留意。
![]()
在總結(jié)并分類完信息后,用戶又下達了新的指令“持續(xù)留意并通知我”。Codex直接建立了一個名為“Teammate - Hourly”的后臺任務,并且自動設(shè)定該后臺任務的具體運行規(guī)則:每小時檢查一次各個SaaS平臺,僅在有實質(zhì)性信息增加(或無法獲取最新信息)時提醒用戶。
這個功能實際上也是之前OpenClaw爆火的原因——全自動的掛機“員工”。只需要下達指令,Codex就會在后臺持續(xù)監(jiān)控和執(zhí)行相關(guān)任務,并不需要用戶去主動操作,從而將AI從“被動響應”變成了“主動協(xié)助”。
而且,Codex現(xiàn)在的自動化操作可以在同一線程中運行,只需要打開對應聊天框,就能讓AI重復或繼續(xù)執(zhí)行之前的任務,并不需要你重新給它安排一遍工作。所以,別看視頻演示簡單就不當回事,實際上只要給的指令足夠詳細,Codex也能像OpenClaw那樣執(zhí)行復雜的自動化工作流程。
視頻演示中還展示了Codex在監(jiān)控到新的郵件后,直接給出了郵件內(nèi)容的概括,并詢問用戶是否需要幫忙草擬回復,這也是其根據(jù)用戶的不同任務要求自行推理和設(shè)定的。
![]()
而在最后一個視頻中,Codex則是根據(jù)用戶的要求,通過插件訪問企業(yè)的內(nèi)部知識庫并找到對應的產(chǎn)品報告,然后生成了一份面向高管的簡報。在整個過程中,用戶都只是給出了產(chǎn)品的名稱,以及需要Codex做的事情,并沒有提及產(chǎn)品報告保存在什么地方、如何查找。
全自動尋址、快速檢索大量不同的文檔和圖片、提煉關(guān)鍵信息并生成文檔。用戶僅需一句話,Codex就自主分拆和執(zhí)行了多個步驟;而且它并不需要企業(yè)給出私有API接口,僅通過用戶已有的權(quán)限去調(diào)用文檔,最大程度地降低了企業(yè)的數(shù)據(jù)外泄等風險。
當然,Codex如今也擁有了直接創(chuàng)建對應文檔的能力。在視頻中,Codex直接將網(wǎng)頁端GitHub項目的最近Issue按主題整理出電子表格,然后轉(zhuǎn)成Excel表格文件輸出。結(jié)合此前提到的能力,實際上你可以將其當做一個高效的“數(shù)據(jù)收集員”,從私有庫到公有數(shù)據(jù),都可以讓Codex收集并匯總成對應的文檔,然后在其他工作中直接調(diào)用。
目前,Codex已經(jīng)集成了九十多個主流辦公及開發(fā)插件,用戶可以在聊天框中隨意調(diào)用,這還能說啥呢,干就完事了。
為什么是Mac?
說實話,OpenAI的最新版Codex要比OpenClaw更適合大多數(shù)用戶。因為其并不需要用戶提供系統(tǒng)底層權(quán)限,以讓渡安全性和隱私性來換取便利性,而是借助macOS完善的輔助功能API和底層沙箱控制,實現(xiàn)穩(wěn)定且安全的運行。這是目前Windows端做不到的(權(quán)限管理復雜且API混亂)。
而且,Codex明顯針對Apple的官方開發(fā)工具做了深度整合。不僅可以直接讀取Xcode的項目結(jié)構(gòu),還能直接搞定Swift軟件包依賴以及模擬器狀態(tài)等設(shè)置,同時自動調(diào)用Apple官方的開發(fā)文檔和API規(guī)范,進行實時糾錯(這對于蘋果開發(fā)者來說至關(guān)重要)。
另外還有個非常關(guān)鍵的因素——Apple生態(tài)。很多人在討論AI Agent的時候,都會忽略硬件生態(tài)的影響。試想一下,如果你在Windows上讓AI執(zhí)行一個任務時,忘記打開遠程桌面程序,那么基本上就得走到電腦前進行操作;而Mac與iPhone、iPad的協(xié)同生態(tài),讓用戶可以在移動設(shè)備上輕松查看Codex的工作成果,并且輕松下達新的指令。
![]()
當你安排Codex在家里干活,自己跑出去快活時,原生的遠程管理功能體驗無疑比第三方工具更好(不過Apple Remote Desktop是真的貴)。
總而言之,Mac版Codex的發(fā)布,基本上標志著這個AI工具正式跨越了“被動助手”的階段,開始成為直接接管系統(tǒng)桌面的“全能智能體(Agent)”。
它不再是一個需要你絞盡腦汁去解決API接口和各種使用問題的工具,而是一個能看懂屏幕、能自主操作不同軟件、甚至能替你統(tǒng)籌安排跨平臺工作的“賽博同事”(突然想到,Codex能幫我通關(guān)賽博朋克2077嗎?)。
反正現(xiàn)在壓力給到macOS的老對手微軟了,Windows到底什么時候能上線同樣的功能?Copilot折騰了一兩年都還是那個樣子,屬實對不起微軟砸的這么多資源。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.