<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      GPT-5.4拿下75%人類基準(zhǔn)測試,我的團隊只拿了72

      0
      分享至


      75%對72.4%。這組數(shù)字在上周二的數(shù)據(jù)復(fù)盤會上被丟進Slack時,整個頻道安靜了四分鐘。不是那種"大家在忙沒看消息"的安靜,是那種"所有人都盯著屏幕,手指懸在鍵盤上不知道打什么"的安靜。

      說話的是我的高級分析師Maria。她平時發(fā)消息帶表情包,這次只甩了一個鏈接和那句"Have you seen what GPT-5.4 scored on OSWorld-V?"

      我回了句"晚點聊",然后關(guān)掉通知,繼續(xù)講Q1的歸因模型。但說實話,那48小時我一直在想:該怎么跟團隊開口。

      OSWorld-V是什么,以及為什么75%這個數(shù)字很扎心

      先解釋這個 benchmark。OSWorld-V 不是那種"解數(shù)學(xué)題"或者"寫代碼"的測試,它模擬的是真實的桌面辦公場景:打開Excel拉數(shù)據(jù)、跨應(yīng)用復(fù)制粘貼、整理文件夾、生成報告、處理郵件附件。簡單說,就是你我每天早上坐到電腦前干的那些雜活。

      人類基線72.4%,來自對200名知識工作者的實測。這些人有3-8年工作經(jīng)驗,分布在咨詢、金融、運營等崗位。測試環(huán)境完全開放,允許Google搜索、允許試錯、允許"哎呀這個快捷鍵我忘了"的真實狀態(tài)。

      GPT-5.4的75%,是在相同條件下跑的。模型自己操作虛擬桌面,自己決定點哪里、輸入什么、什么時候保存。沒人給它寫腳本,沒人告訴它"第3步要按Ctrl+Shift+V"。

      Maria后來私下問我:這算"超過人類"嗎?

      我當(dāng)時的回答是:算,也不算。75%對72.4%在統(tǒng)計上確實顯著,但OSWorld-V的測試時長只有90分鐘。真實工作不是90分鐘的閉卷考試,是8小時里不斷被打斷、重新進入心流、再被打斷的馬拉松。模型現(xiàn)在還不能處理"老板突然插進來的緊急任務(wù)"或者"同事在Slack上@你問一個蠢問題"這種上下文切換。

      但我說完這段話,自己也沒底氣。因為2024年GPT-4在同樣測試里只有12%,2025年中某個版本跳到34%,現(xiàn)在75%。這個斜率讓我失眠。

      我的團隊真實水平,以及我為什么不敢公開聊

      我們的數(shù)據(jù)團隊12人,平均工齡4年。我讓他們匿名做了OSWorld-V的簡化版——去掉一些需要企業(yè)內(nèi)網(wǎng)權(quán)限的任務(wù),保留核心流程。平均分72%,中位數(shù)71%,最高81%來自一個工作6年的老分析師。

      也就是說,我們團隊的中位數(shù)比GPT-5.4低4個百分點。最高分比模型高6個百分點,但那是全組經(jīng)驗最豐富的人,而模型是批量生產(chǎn)的。

      我在周會上沒提這個內(nèi)部測試。只說了官方數(shù)字,然后補了一句:"大家注意,benchmark是benchmark,實際業(yè)務(wù)場景復(fù)雜得多。"

      這句話是事實,但也是逃避。我沒說的是:我們正在評估的3個自動化項目,原本計劃招2個初級分析師,現(xiàn)在預(yù)算被凍結(jié)了。我沒說的是,CTO上周問我"數(shù)據(jù)團隊明年能不能縮編30%"。

      最諷刺的是,我自己就是那個推動用AI做數(shù)據(jù)清洗的人。2024年我們上了自動化pipeline,3個ETL工程師轉(zhuǎn)崗去做分析。當(dāng)時我覺得這是"升級",現(xiàn)在看可能是"預(yù)演"。

      GPT-5.4能做什么,以及它還不能做什么

      為了驗證邊界,我讓Maria設(shè)計了一個真實任務(wù):從Salesforce導(dǎo)出Q1客戶數(shù)據(jù),匹配HubSpot的營銷互動記錄,按行業(yè)分組計算CAC(客戶獲取成本),輸出PPT格式的摘要。

      她給模型的是完全開放的虛擬機,安裝了和我們一樣的軟件棧,但沒有任何預(yù)配置。

      GPT-5.4的表現(xiàn)分三個階段:

      前20分鐘,它像剛?cè)肼毜膶嵙?xí)生。Salesforce的界面改版了,它找了3分鐘才定位到導(dǎo)出按鈕。HubSpot的API調(diào)用次數(shù)限制讓它卡住,它嘗試了4種不同的分頁策略,最后選擇最笨的手動翻頁——和人類一樣。

      中間40分鐘進入狀態(tài)。匹配兩個數(shù)據(jù)源時,它主動發(fā)現(xiàn)HubSpot的日期格式是MM/DD/YYYY,Salesforce是YYYY-MM-DD,自己寫了轉(zhuǎn)換公式。計算CAC時,它注意到有個行業(yè)的樣本量只有3個,在輸出里加了置信度說明。

      最后30分鐘翻車。PPT模板有公司品牌規(guī)范,字體、配色、Logo位置都是固定的。模型生成的內(nèi)容是對的,但版式完全不對,它嘗試了7次調(diào)整都沒get到"標(biāo)題必須左對齊且距離頂部2cm"這種非結(jié)構(gòu)化規(guī)則。最后Maria接手花了15分鐘手工調(diào)整。

      總耗時87分鐘,任務(wù)完成度約80%。我們的老分析師做同樣任務(wù),熟練的話45分鐘,不熟練的新人要2小時且需要問人。

      關(guān)鍵發(fā)現(xiàn):模型在"需要理解隱性規(guī)則"的環(huán)節(jié)明顯吃力。品牌規(guī)范、跨部門協(xié)作的默認流程、"這個數(shù)據(jù)看起來不對"的直覺——這些沒有寫成文檔的東西,是它和人類差距最大的地方。但問題是,我們公司有多少工作真的依賴這些?可能比我想象的少。

      我在團隊會議上實際說了什么

      周四的all-hands,我準(zhǔn)備了3頁PPT。第一頁是OSWorld-V的分數(shù)對比,第二頁是我們內(nèi)部測試的結(jié)果,第三頁是空白,只寫了一個問題。

      我的原話:

      「75%這個數(shù)字是真的,72.4%的人類基線也是真的。但這兩個數(shù)字比較的時候,有一個隱藏變量:人類測試者是"被要求完成任務(wù)",模型是"被設(shè)計來完成這類任務(wù)"。動機結(jié)構(gòu)不一樣,疲勞曲線不一樣,對"完成"的定義也可能不一樣。」

      「我們內(nèi)部測試72%,比官方人類基線略低。這可能說明我們團隊平均水平低于200人樣本,也可能說明我的測試設(shè)計有偏差。我不確定哪個解釋更安慰人。」

      「接下來兩個季度,我們會做三件事:第一,所有重復(fù)性報告任務(wù)必須評估自動化可行性;第二,每個人要認領(lǐng)一個"AI做不到"的領(lǐng)域,深度發(fā)展;第三,我會和HR談轉(zhuǎn)崗培訓(xùn)預(yù)算,不是裁員預(yù)備,是能力升級預(yù)備。」

      第三句是謊話。預(yù)算確實是裁員預(yù)備,但我需要團隊先動起來。

      會后一個入職兩年的分析師問我:「Claudio,你覺得三年后我們團隊還在嗎?」

      我說:「我覺得三年后"數(shù)據(jù)團隊"的定義會完全不一樣。但具體怎么不一樣,誠實講,我在等比我們更聰明的人給出答案。」

      我沒說出口的,以及整個行業(yè)沒聊的

      Medium這篇文章的評論區(qū)有個高贊回復(fù),來自某個AI公司的產(chǎn)品經(jīng)理:「72.4%是人類基線,不是人類上限。頂尖分析師能做到90%以上,模型短期內(nèi)追不上。」

      這個安慰劑我咀嚼了很久,最后吐了。因為OSWorld-V的設(shè)計者明確說過,測試任務(wù)是從真實工作流中采樣,不是故意選"簡單的"。如果模型已經(jīng)超過平均人類,而"平均人類"就是勞動力市場的供給主體,那"頂尖人類"的稀缺性能不能支撐整個行業(yè)的就業(yè)?

      另一個我沒跟團隊提的數(shù)字:GPT-5.4的API成本,處理一個OSWorld-V級別任務(wù),約0.17美元。我們的初級分析師時薪換算過來,同樣時長的任務(wù)成本是23美元。不是23%的差距,是135倍。

      成本結(jié)構(gòu)會重塑一切。不是"AI能不能做",是"AI做壞了再讓人修,還是直接讓人做"的決策閾值在移動。

      我還在想那個空白PPT上的問題。開會時我沒讓人回答,現(xiàn)在也不想在這里寫出標(biāo)準(zhǔn)答案。因為標(biāo)準(zhǔn)答案可能根本不存在,或者存在但說出來太殘忍。

      只是每次路過那個分析師的工位,看他還在手動調(diào)整PPT的2cm邊距,我就會想:這個動作,明年還需要人做嗎?

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      退役11年,周薪仍超9萬鎊!亨利這是妥妥的人生贏家

      退役11年,周薪仍超9萬鎊!亨利這是妥妥的人生贏家

      樂道足球
      2026-04-07 17:17:10
      美伊停火協(xié)議細節(jié)公布!黃金直線拉升,國際油價大跳水,股市巨震

      美伊停火協(xié)議細節(jié)公布!黃金直線拉升,國際油價大跳水,股市巨震

      魯中晨報
      2026-04-07 07:21:14
      韓國政府就特朗普涉韓不滿言論作出回應(yīng):已向美方詢問其有關(guān)言論的真實意圖

      韓國政府就特朗普涉韓不滿言論作出回應(yīng):已向美方詢問其有關(guān)言論的真實意圖

      財聯(lián)社
      2026-04-07 17:58:12
      里夫斯+東契奇都去歐洲,湖人:這就有點離譜

      里夫斯+東契奇都去歐洲,湖人:這就有點離譜

      體育新角度
      2026-04-07 18:53:49
      張?zhí)m生日!情緒低落發(fā)文,兒子兒媳沒送祝福,只有一人記得她生日

      張?zhí)m生日!情緒低落發(fā)文,兒子兒媳沒送祝福,只有一人記得她生日

      好賢觀史記
      2026-04-07 16:41:38
      潘石屹再預(yù)言未來樓市,前兩次已應(yīng)驗,今明兩年或大概率也是對的

      潘石屹再預(yù)言未來樓市,前兩次已應(yīng)驗,今明兩年或大概率也是對的

      專業(yè)聊房君
      2026-04-06 17:35:09
      一個飛行員,美國為什么下這么大血本?1979年的教訓(xùn),至今不敢忘

      一個飛行員,美國為什么下這么大血本?1979年的教訓(xùn),至今不敢忘

      文史達觀
      2026-04-07 06:45:06
      湖北發(fā)布社會公眾風(fēng)險提示:強對流來襲,局地有冰雹

      湖北發(fā)布社會公眾風(fēng)險提示:強對流來襲,局地有冰雹

      界面新聞
      2026-04-07 13:32:37
      周總理好心建議賀龍搬出中南海,賀龍:我沒想到把我看成這種人

      周總理好心建議賀龍搬出中南海,賀龍:我沒想到把我看成這種人

      北海史記
      2026-04-07 17:16:32
      高明沒想到,兒子去世一年后,沒有帶娃改嫁的兒媳,成了他的救贖

      高明沒想到,兒子去世一年后,沒有帶娃改嫁的兒媳,成了他的救贖

      米果說識
      2026-04-07 14:43:21
      現(xiàn)役球員進NBA名人堂的概率!4人100%,哈登99%,利拉德出乎意料

      現(xiàn)役球員進NBA名人堂的概率!4人100%,哈登99%,利拉德出乎意料

      麥子的籃球故事
      2026-04-07 17:44:51
      1977年,李敏見到失散多年的親姐楊月花,楊月花卻向李敏提一要求

      1977年,李敏見到失散多年的親姐楊月花,楊月花卻向李敏提一要求

      磊子講史
      2025-12-23 20:04:20
      中美俄雷達差距太大!俄預(yù)警6000公里,美5500公里,中國令人意外

      中美俄雷達差距太大!俄預(yù)警6000公里,美5500公里,中國令人意外

      阿器談史
      2026-04-02 15:36:40
      攤牌了?勇士潛在3換1交易,巴特勒或成犧牲品,庫卡欲聯(lián)手沖冠

      攤牌了?勇士潛在3換1交易,巴特勒或成犧牲品,庫卡欲聯(lián)手沖冠

      毒舌NBA
      2026-04-07 09:07:23
      “最美趙敏”,去世3天才被發(fā)現(xiàn)!

      “最美趙敏”,去世3天才被發(fā)現(xiàn)!

      大中國
      2026-04-07 15:10:47
      緬甸變天!敏昂萊上位總統(tǒng),對中國意味著什么?

      緬甸變天!敏昂萊上位總統(tǒng),對中國意味著什么?

      古事尋蹤記
      2026-04-07 07:16:38
      伊朗宣布決定,霍爾木茲海峽通航,高人指點,打起石油持久戰(zhàn)

      伊朗宣布決定,霍爾木茲海峽通航,高人指點,打起石油持久戰(zhàn)

      諦聽骨語本尊
      2026-04-07 12:19:22
      中國網(wǎng)友冤枉松島輝空了!非故意不與王楚欽握手:當(dāng)時根本沒法握

      中國網(wǎng)友冤枉松島輝空了!非故意不與王楚欽握手:當(dāng)時根本沒法握

      風(fēng)過鄉(xiāng)
      2026-04-07 19:32:29
      打虎!王文靈被查

      打虎!王文靈被查

      新京報政事兒
      2026-04-07 17:49:08
      瑞幸咖啡緊急撤下羅永浩代言廣告,網(wǎng)友:數(shù)據(jù)影響下的現(xiàn)實切割!

      瑞幸咖啡緊急撤下羅永浩代言廣告,網(wǎng)友:數(shù)據(jù)影響下的現(xiàn)實切割!

      玖宇維
      2026-04-07 15:12:41
      2026-04-07 21:51:00
      字節(jié)漫游指南
      字節(jié)漫游指南
      有態(tài)度網(wǎng)友ytd
      1200文章數(shù) 14關(guān)注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      臺灣一些人被指準(zhǔn)備"潤" 賴清德曾稱兒子在美"學(xué)功夫"

      頭條要聞

      臺灣一些人被指準(zhǔn)備"潤" 賴清德曾稱兒子在美"學(xué)功夫"

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產(chǎn)

      財經(jīng)要聞

      10萬億財政轉(zhuǎn)移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態(tài)體驗

      態(tài)度原創(chuàng)

      游戲
      手機
      數(shù)碼
      公開課
      軍事航空

      模組救場還是官方重做?GTA4重制版引發(fā)玩家激烈爭論

      手機要聞

      4月21日的手機圈,不敢想象會有多刺激

      數(shù)碼要聞

      1999元就能買Mini LED電視 海信Vidda小鋼炮S Mini開售

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美軍營救飛行員出動155架飛機

      無障礙瀏覽 進入關(guān)懷版