網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

GPT-5.4拿下75%人類基準(zhǔn)測試，我的團隊只拿了72

2026-04-06 16:03:57　來源: 字節(jié)漫游指南

北京舉報

分享至

75%對72.4%。這組數(shù)字在上周二的數(shù)據(jù)復(fù)盤會上被丟進Slack時，整個頻道安靜了四分鐘。不是那種"大家在忙沒看消息"的安靜，是那種"所有人都盯著屏幕，手指懸在鍵盤上不知道打什么"的安靜。

說話的是我的高級分析師Maria。她平時發(fā)消息帶表情包，這次只甩了一個鏈接和那句"Have you seen what GPT-5.4 scored on OSWorld-V?"

我回了句"晚點聊"，然后關(guān)掉通知，繼續(xù)講Q1的歸因模型。但說實話，那48小時我一直在想：該怎么跟團隊開口。

OSWorld-V是什么，以及為什么75%這個數(shù)字很扎心

先解釋這個 benchmark。OSWorld-V 不是那種"解數(shù)學(xué)題"或者"寫代碼"的測試，它模擬的是真實的桌面辦公場景：打開Excel拉數(shù)據(jù)、跨應(yīng)用復(fù)制粘貼、整理文件夾、生成報告、處理郵件附件。簡單說，就是你我每天早上坐到電腦前干的那些雜活。

人類基線72.4%，來自對200名知識工作者的實測。這些人有3-8年工作經(jīng)驗，分布在咨詢、金融、運營等崗位。測試環(huán)境完全開放，允許Google搜索、允許試錯、允許"哎呀這個快捷鍵我忘了"的真實狀態(tài)。

GPT-5.4的75%，是在相同條件下跑的。模型自己操作虛擬桌面，自己決定點哪里、輸入什么、什么時候保存。沒人給它寫腳本，沒人告訴它"第3步要按Ctrl+Shift+V"。

Maria后來私下問我：這算"超過人類"嗎？

我當(dāng)時的回答是：算，也不算。75%對72.4%在統(tǒng)計上確實顯著，但OSWorld-V的測試時長只有90分鐘。真實工作不是90分鐘的閉卷考試，是8小時里不斷被打斷、重新進入心流、再被打斷的馬拉松。模型現(xiàn)在還不能處理"老板突然插進來的緊急任務(wù)"或者"同事在Slack上@你問一個蠢問題"這種上下文切換。

但我說完這段話，自己也沒底氣。因為2024年GPT-4在同樣測試里只有12%，2025年中某個版本跳到34%，現(xiàn)在75%。這個斜率讓我失眠。

我的團隊真實水平，以及我為什么不敢公開聊

我們的數(shù)據(jù)團隊12人，平均工齡4年。我讓他們匿名做了OSWorld-V的簡化版——去掉一些需要企業(yè)內(nèi)網(wǎng)權(quán)限的任務(wù)，保留核心流程。平均分72%，中位數(shù)71%，最高81%來自一個工作6年的老分析師。

也就是說，我們團隊的中位數(shù)比GPT-5.4低4個百分點。最高分比模型高6個百分點，但那是全組經(jīng)驗最豐富的人，而模型是批量生產(chǎn)的。

我在周會上沒提這個內(nèi)部測試。只說了官方數(shù)字，然后補了一句："大家注意，benchmark是benchmark，實際業(yè)務(wù)場景復(fù)雜得多。"

這句話是事實，但也是逃避。我沒說的是：我們正在評估的3個自動化項目，原本計劃招2個初級分析師，現(xiàn)在預(yù)算被凍結(jié)了。我沒說的是，CTO上周問我"數(shù)據(jù)團隊明年能不能縮編30%"。

最諷刺的是，我自己就是那個推動用AI做數(shù)據(jù)清洗的人。2024年我們上了自動化pipeline，3個ETL工程師轉(zhuǎn)崗去做分析。當(dāng)時我覺得這是"升級"，現(xiàn)在看可能是"預(yù)演"。

GPT-5.4能做什么，以及它還不能做什么

為了驗證邊界，我讓Maria設(shè)計了一個真實任務(wù)：從Salesforce導(dǎo)出Q1客戶數(shù)據(jù)，匹配HubSpot的營銷互動記錄，按行業(yè)分組計算CAC（客戶獲取成本），輸出PPT格式的摘要。

她給模型的是完全開放的虛擬機，安裝了和我們一樣的軟件棧，但沒有任何預(yù)配置。

GPT-5.4的表現(xiàn)分三個階段：

前20分鐘，它像剛?cè)肼毜膶嵙?xí)生。Salesforce的界面改版了，它找了3分鐘才定位到導(dǎo)出按鈕。HubSpot的API調(diào)用次數(shù)限制讓它卡住，它嘗試了4種不同的分頁策略，最后選擇最笨的手動翻頁——和人類一樣。

中間40分鐘進入狀態(tài)。匹配兩個數(shù)據(jù)源時，它主動發(fā)現(xiàn)HubSpot的日期格式是MM/DD/YYYY，Salesforce是YYYY-MM-DD，自己寫了轉(zhuǎn)換公式。計算CAC時，它注意到有個行業(yè)的樣本量只有3個，在輸出里加了置信度說明。

最后30分鐘翻車。PPT模板有公司品牌規(guī)范，字體、配色、Logo位置都是固定的。模型生成的內(nèi)容是對的，但版式完全不對，它嘗試了7次調(diào)整都沒get到"標(biāo)題必須左對齊且距離頂部2cm"這種非結(jié)構(gòu)化規(guī)則。最后Maria接手花了15分鐘手工調(diào)整。

總耗時87分鐘，任務(wù)完成度約80%。我們的老分析師做同樣任務(wù)，熟練的話45分鐘，不熟練的新人要2小時且需要問人。

關(guān)鍵發(fā)現(xiàn)：模型在"需要理解隱性規(guī)則"的環(huán)節(jié)明顯吃力。品牌規(guī)范、跨部門協(xié)作的默認流程、"這個數(shù)據(jù)看起來不對"的直覺——這些沒有寫成文檔的東西，是它和人類差距最大的地方。但問題是，我們公司有多少工作真的依賴這些？可能比我想象的少。

我在團隊會議上實際說了什么

周四的all-hands，我準(zhǔn)備了3頁PPT。第一頁是OSWorld-V的分數(shù)對比，第二頁是我們內(nèi)部測試的結(jié)果，第三頁是空白，只寫了一個問題。

我的原話：

「75%這個數(shù)字是真的，72.4%的人類基線也是真的。但這兩個數(shù)字比較的時候，有一個隱藏變量：人類測試者是"被要求完成任務(wù)"，模型是"被設(shè)計來完成這類任務(wù)"。動機結(jié)構(gòu)不一樣，疲勞曲線不一樣，對"完成"的定義也可能不一樣。」

「我們內(nèi)部測試72%，比官方人類基線略低。這可能說明我們團隊平均水平低于200人樣本，也可能說明我的測試設(shè)計有偏差。我不確定哪個解釋更安慰人。」

「接下來兩個季度，我們會做三件事：第一，所有重復(fù)性報告任務(wù)必須評估自動化可行性；第二，每個人要認領(lǐng)一個"AI做不到"的領(lǐng)域，深度發(fā)展；第三，我會和HR談轉(zhuǎn)崗培訓(xùn)預(yù)算，不是裁員預(yù)備，是能力升級預(yù)備。」

第三句是謊話。預(yù)算確實是裁員預(yù)備，但我需要團隊先動起來。

會后一個入職兩年的分析師問我：「Claudio，你覺得三年后我們團隊還在嗎？」

我說：「我覺得三年后"數(shù)據(jù)團隊"的定義會完全不一樣。但具體怎么不一樣，誠實講，我在等比我們更聰明的人給出答案。」

我沒說出口的，以及整個行業(yè)沒聊的

Medium這篇文章的評論區(qū)有個高贊回復(fù)，來自某個AI公司的產(chǎn)品經(jīng)理：「72.4%是人類基線，不是人類上限。頂尖分析師能做到90%以上，模型短期內(nèi)追不上。」

這個安慰劑我咀嚼了很久，最后吐了。因為OSWorld-V的設(shè)計者明確說過，測試任務(wù)是從真實工作流中采樣，不是故意選"簡單的"。如果模型已經(jīng)超過平均人類，而"平均人類"就是勞動力市場的供給主體，那"頂尖人類"的稀缺性能不能支撐整個行業(yè)的就業(yè)？

另一個我沒跟團隊提的數(shù)字：GPT-5.4的API成本，處理一個OSWorld-V級別任務(wù)，約0.17美元。我們的初級分析師時薪換算過來，同樣時長的任務(wù)成本是23美元。不是23%的差距，是135倍。

成本結(jié)構(gòu)會重塑一切。不是"AI能不能做"，是"AI做壞了再讓人修，還是直接讓人做"的決策閾值在移動。

我還在想那個空白PPT上的問題。開會時我沒讓人回答，現(xiàn)在也不想在這里寫出標(biāo)準(zhǔn)答案。因為標(biāo)準(zhǔn)答案可能根本不存在，或者存在但說出來太殘忍。

只是每次路過那個分析師的工位，看他還在手動調(diào)整PPT的2cm邊距，我就會想：這個動作，明年還需要人做嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.