![]()
75%對72.4%。這組數(shù)字在上周二的數(shù)據(jù)復(fù)盤會上被丟進Slack時,整個頻道安靜了四分鐘。不是那種"大家在忙沒看消息"的安靜,是那種"所有人都盯著屏幕,手指懸在鍵盤上不知道打什么"的安靜。
說話的是我的高級分析師Maria。她平時發(fā)消息帶表情包,這次只甩了一個鏈接和那句"Have you seen what GPT-5.4 scored on OSWorld-V?"
我回了句"晚點聊",然后關(guān)掉通知,繼續(xù)講Q1的歸因模型。但說實話,那48小時我一直在想:該怎么跟團隊開口。
OSWorld-V是什么,以及為什么75%這個數(shù)字很扎心
先解釋這個 benchmark。OSWorld-V 不是那種"解數(shù)學(xué)題"或者"寫代碼"的測試,它模擬的是真實的桌面辦公場景:打開Excel拉數(shù)據(jù)、跨應(yīng)用復(fù)制粘貼、整理文件夾、生成報告、處理郵件附件。簡單說,就是你我每天早上坐到電腦前干的那些雜活。
人類基線72.4%,來自對200名知識工作者的實測。這些人有3-8年工作經(jīng)驗,分布在咨詢、金融、運營等崗位。測試環(huán)境完全開放,允許Google搜索、允許試錯、允許"哎呀這個快捷鍵我忘了"的真實狀態(tài)。
GPT-5.4的75%,是在相同條件下跑的。模型自己操作虛擬桌面,自己決定點哪里、輸入什么、什么時候保存。沒人給它寫腳本,沒人告訴它"第3步要按Ctrl+Shift+V"。
Maria后來私下問我:這算"超過人類"嗎?
我當(dāng)時的回答是:算,也不算。75%對72.4%在統(tǒng)計上確實顯著,但OSWorld-V的測試時長只有90分鐘。真實工作不是90分鐘的閉卷考試,是8小時里不斷被打斷、重新進入心流、再被打斷的馬拉松。模型現(xiàn)在還不能處理"老板突然插進來的緊急任務(wù)"或者"同事在Slack上@你問一個蠢問題"這種上下文切換。
但我說完這段話,自己也沒底氣。因為2024年GPT-4在同樣測試里只有12%,2025年中某個版本跳到34%,現(xiàn)在75%。這個斜率讓我失眠。
我的團隊真實水平,以及我為什么不敢公開聊
我們的數(shù)據(jù)團隊12人,平均工齡4年。我讓他們匿名做了OSWorld-V的簡化版——去掉一些需要企業(yè)內(nèi)網(wǎng)權(quán)限的任務(wù),保留核心流程。平均分72%,中位數(shù)71%,最高81%來自一個工作6年的老分析師。
也就是說,我們團隊的中位數(shù)比GPT-5.4低4個百分點。最高分比模型高6個百分點,但那是全組經(jīng)驗最豐富的人,而模型是批量生產(chǎn)的。
我在周會上沒提這個內(nèi)部測試。只說了官方數(shù)字,然后補了一句:"大家注意,benchmark是benchmark,實際業(yè)務(wù)場景復(fù)雜得多。"
這句話是事實,但也是逃避。我沒說的是:我們正在評估的3個自動化項目,原本計劃招2個初級分析師,現(xiàn)在預(yù)算被凍結(jié)了。我沒說的是,CTO上周問我"數(shù)據(jù)團隊明年能不能縮編30%"。
最諷刺的是,我自己就是那個推動用AI做數(shù)據(jù)清洗的人。2024年我們上了自動化pipeline,3個ETL工程師轉(zhuǎn)崗去做分析。當(dāng)時我覺得這是"升級",現(xiàn)在看可能是"預(yù)演"。
GPT-5.4能做什么,以及它還不能做什么
為了驗證邊界,我讓Maria設(shè)計了一個真實任務(wù):從Salesforce導(dǎo)出Q1客戶數(shù)據(jù),匹配HubSpot的營銷互動記錄,按行業(yè)分組計算CAC(客戶獲取成本),輸出PPT格式的摘要。
她給模型的是完全開放的虛擬機,安裝了和我們一樣的軟件棧,但沒有任何預(yù)配置。
GPT-5.4的表現(xiàn)分三個階段:
前20分鐘,它像剛?cè)肼毜膶嵙?xí)生。Salesforce的界面改版了,它找了3分鐘才定位到導(dǎo)出按鈕。HubSpot的API調(diào)用次數(shù)限制讓它卡住,它嘗試了4種不同的分頁策略,最后選擇最笨的手動翻頁——和人類一樣。
中間40分鐘進入狀態(tài)。匹配兩個數(shù)據(jù)源時,它主動發(fā)現(xiàn)HubSpot的日期格式是MM/DD/YYYY,Salesforce是YYYY-MM-DD,自己寫了轉(zhuǎn)換公式。計算CAC時,它注意到有個行業(yè)的樣本量只有3個,在輸出里加了置信度說明。
最后30分鐘翻車。PPT模板有公司品牌規(guī)范,字體、配色、Logo位置都是固定的。模型生成的內(nèi)容是對的,但版式完全不對,它嘗試了7次調(diào)整都沒get到"標(biāo)題必須左對齊且距離頂部2cm"這種非結(jié)構(gòu)化規(guī)則。最后Maria接手花了15分鐘手工調(diào)整。
總耗時87分鐘,任務(wù)完成度約80%。我們的老分析師做同樣任務(wù),熟練的話45分鐘,不熟練的新人要2小時且需要問人。
關(guān)鍵發(fā)現(xiàn):模型在"需要理解隱性規(guī)則"的環(huán)節(jié)明顯吃力。品牌規(guī)范、跨部門協(xié)作的默認流程、"這個數(shù)據(jù)看起來不對"的直覺——這些沒有寫成文檔的東西,是它和人類差距最大的地方。但問題是,我們公司有多少工作真的依賴這些?可能比我想象的少。
我在團隊會議上實際說了什么
周四的all-hands,我準(zhǔn)備了3頁PPT。第一頁是OSWorld-V的分數(shù)對比,第二頁是我們內(nèi)部測試的結(jié)果,第三頁是空白,只寫了一個問題。
我的原話:
「75%這個數(shù)字是真的,72.4%的人類基線也是真的。但這兩個數(shù)字比較的時候,有一個隱藏變量:人類測試者是"被要求完成任務(wù)",模型是"被設(shè)計來完成這類任務(wù)"。動機結(jié)構(gòu)不一樣,疲勞曲線不一樣,對"完成"的定義也可能不一樣。」
「我們內(nèi)部測試72%,比官方人類基線略低。這可能說明我們團隊平均水平低于200人樣本,也可能說明我的測試設(shè)計有偏差。我不確定哪個解釋更安慰人。」
「接下來兩個季度,我們會做三件事:第一,所有重復(fù)性報告任務(wù)必須評估自動化可行性;第二,每個人要認領(lǐng)一個"AI做不到"的領(lǐng)域,深度發(fā)展;第三,我會和HR談轉(zhuǎn)崗培訓(xùn)預(yù)算,不是裁員預(yù)備,是能力升級預(yù)備。」
第三句是謊話。預(yù)算確實是裁員預(yù)備,但我需要團隊先動起來。
會后一個入職兩年的分析師問我:「Claudio,你覺得三年后我們團隊還在嗎?」
我說:「我覺得三年后"數(shù)據(jù)團隊"的定義會完全不一樣。但具體怎么不一樣,誠實講,我在等比我們更聰明的人給出答案。」
我沒說出口的,以及整個行業(yè)沒聊的
Medium這篇文章的評論區(qū)有個高贊回復(fù),來自某個AI公司的產(chǎn)品經(jīng)理:「72.4%是人類基線,不是人類上限。頂尖分析師能做到90%以上,模型短期內(nèi)追不上。」
這個安慰劑我咀嚼了很久,最后吐了。因為OSWorld-V的設(shè)計者明確說過,測試任務(wù)是從真實工作流中采樣,不是故意選"簡單的"。如果模型已經(jīng)超過平均人類,而"平均人類"就是勞動力市場的供給主體,那"頂尖人類"的稀缺性能不能支撐整個行業(yè)的就業(yè)?
另一個我沒跟團隊提的數(shù)字:GPT-5.4的API成本,處理一個OSWorld-V級別任務(wù),約0.17美元。我們的初級分析師時薪換算過來,同樣時長的任務(wù)成本是23美元。不是23%的差距,是135倍。
成本結(jié)構(gòu)會重塑一切。不是"AI能不能做",是"AI做壞了再讓人修,還是直接讓人做"的決策閾值在移動。
我還在想那個空白PPT上的問題。開會時我沒讓人回答,現(xiàn)在也不想在這里寫出標(biāo)準(zhǔn)答案。因為標(biāo)準(zhǔn)答案可能根本不存在,或者存在但說出來太殘忍。
只是每次路過那個分析師的工位,看他還在手動調(diào)整PPT的2cm邊距,我就會想:這個動作,明年還需要人做嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.