<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.4發布,AI的最強之爭已經結束了!

      0
      分享至

      GPT-5.4發布了。

      說實話,我猶豫了半天要不要寫這篇。真的被模型發布搞疲了。隔幾周一個新版本,每次都是「史上最強」,但你真用起來,體感差異越來越小??颗芤粌蓚€benchmark,已經越來越難測出模型的真實能力了,需要更長時間的日常使用才有體感。
      而且就拿我最常用的agentic能力和coding能力來說,我不太相信GPT一個小版本的更新能超過Claude。所以對我日常使用最多的模型,其實沒什么影響。

      但看完GPT-5.4的數據之后,我還是決定寫。不是因為它有多強,而是因為我發現了一個更有意思的事。我打開了三個網頁:OpenAI的博客、Anthropic的定價頁、Google的Gemini文檔,把三家的數據攤在一起看。

      結論讓我有點意外:它們已經不在同一條賽道上了。

      先說結論:不再有「最好的AI」

      一年前,「哪個AI最好」還是個合理的問題。各家模型能力分布還比較均勻,都在同一條賽道上跑。

      現在這個問題過時了。

      想操控電腦、做PPT、跑知識工作?GPT-5.4。想寫代碼、跑Agent、做復雜開發?Claude Opus 4.6。想要最強推理、圖片視頻理解、最大上下文、最低價格?Gemini 3.1 Pro。

      我自己就是這么用的。平時寫代碼,左邊開著Codex做審查,中間跑Claude Code寫實際代碼,右邊還有個Cursor兜底。Codex的上下文工程優化比Claude Code好不少,能在一個窗口下不停布置任務不用擔心上下文撐爆。但Opus的天花板更高,獨立解決復雜問題的能力沒有對手。所以日常就是混著用,各取所長。

      說個更直觀的數據:我今年和ChatGPT的對話量比去年減少了90%以上。不是ChatGPT變差了,是我的需求被Claude Code、Cursor、Gemini分走了。不同任務交給不同模型,你不會拿錘子去擰螺絲。

      之前有人問我:「花叔,你推薦哪個AI?」

      我的回答是:這取決于你是誰。

      產品經理或分析師,日常做報告、處理數據?ChatGPT Plus大概率是你的最優解,GPT-5.4的知識工作能力確實強。

      開發者,寫代碼是主要需求?Claude Code + Opus 4.6,目前沒有對手。YC剛公布的Winter 26批次數據也印證了這一點:Anthropic占比52%,首次超過OpenAI。去年OpenAI還占90%以上,一年完全逆轉了。

      對價格敏感,或者需要處理超長文本、音視頻分析?Gemini。$2/$12的價格加2M token上下文,性價比無敵。

      如果你是資深用戶,可能最終會像我一樣:三個都用,看菜下鍋。

      結論說完了。下面看看GPT-5.4到底做了什么,以及三家是怎么走到這一步的。

      GPT-5.4到底做了什么

      先過一遍GPT-5.4的數據。說實話,有幾個確實讓我眼前一亮。

      Computer Use,就是讓AI直接操控你的電腦。GPT-5.4在OSWorld基準測試上拿到75.0%,超過了人類基準的72.4% 。這是所有AI模型第一次在這個測試上超越人類。上一代GPT-5.2才47.3%,一個版本漲了快一倍,這個提升幅度我覺得是這次最值得關注的。


      知識工作也很猛。GDPval達到83.0%,意思是在44個職業的專業任務里,GPT-5.4有八成以上能打平或超越行業專家。投行建模從68.4%跳到87.3%,做PPT時人類評審有68%的概率更喜歡GPT-5.4的版本。這個數據要是真的,華爾街的junior analyst該緊張了。


      上下文窗口拉到了100萬token,OpenAI迄今最大。還出了個叫Tool Search的新功能,跑Agent的時候不用把所有工具定義塞進prompt了,模型自己按需查找,token消耗直接減了47%。做Agent開發的應該會很開心。

      但你仔細看,這些最亮眼的提升都指向同一個方向:讓AI替你干白領的活。操控電腦、做PPT、投行建模、知識工作。OpenAI押的注很明確:AI不只是聊天工具,它要做你的數字員工。

      但編程呢?

      這是我最關心的部分,也是最有意思的部分。

      GPT-5.4在SWE-Bench Pro上的成績是57.7%。上一代GPT-5.2是56.8%。

      提升了0.9個百分點。

      你沒看錯。一個做了Computer Use超越人類、1M上下文、投行建模87%的模型,編程能力只漲了0.9%。Claude Opus 4.6在SWE-Bench Verified上是80.8%,依然世界第一。(這倆是不同難度的測試,Pro更難,但0.9%的提升本身就說明問題。)


      OpenAI不是做不好,是選擇把資源放在了別的地方。

      這和我實際用下來的感受完全對得上。Codex的gpt-5.2-codex選high模式時,后端能力確實強,能跑一個多小時完全沒bug。但速度太慢了,思考時間過久,審美也差,讓它做前端基本不行。Opus雖然貴,但處理創意代碼工作時天花板明顯更高,經常能獨立解決我好幾個月沒搞定的功能問題。

      所以我日常就是混著用:Opus處理需要創造力的代碼,Codex做規劃和審查。

      但我不覺得OpenAI是「編程不行」或「不想打這仗」。恰恰相反,OpenAI的野心比編程大得多,它想替代的是更廣泛的白領工作。你看它這次選的benchmark就知道了:Computer Use、投行建模、PPT評審、44個職業的知識工作。編程只是其中一個,甚至不是最重要的那個。

      三張成績單

      我把三家的數據都扒了一遍,攤在一起看,格局就很清楚了。


      GPT-5.4贏了Computer Use和知識工作,Claude Opus 4.6贏了編程和Agent,Gemini 3.1 Pro贏了推理和性價比。沒有一家全贏。GPT-5.4贏了5個benchmark類別,Gemini贏了4個,Opus贏了3個。

      但比誰贏了什么更有意思的,是各自的短板。

      GPT-5.4編程就不說了,0.9%的提升。定價也是三家最貴的,Pro版輸出$180/百萬token,是Opus的7倍多。你用Pro版跑一個稍微復雜的Agent任務,賬單看了可能會心疼。


      Claude Opus 4.6呢,上下文窗口只有200K(1M還在beta),也沒有原生Computer Use。寫代碼無敵,但你讓它幫你操作電腦,目前還不行。

      Gemini 3.1 Pro沒有Computer Use,編程也不如前兩家。但推理能力真的強,ARC-AGI-2上77.1%,甩了另外兩家一條街。多模態理解也是三家最強,圖片視頻分析這塊沒對手。加上$2/$12的定價和2M token上下文,Google這波性價比打得很猛。

      看到這,你可能和我一樣想到了一件事:三家的強項和短板,剛好指向了三條完全不同的路。

      三條路

      GPT-5.4走的是白領替代路線

      操控電腦、做PPT、投行建模、知識工作。ChatGPT付費用戶超過千萬,這些人不寫代碼,他們寫報告、做分析、處理數據。GPT-5.4就是為他們做的。

      Claude走的是開發者搭檔路線。

      編程世界第一、Claude Code在開發者圈子里口碑炸裂、Agent能力最強。我自己從去年8月開始用Claude Code搭了自動化寫作工作流,現在寫文章的效率提升太多了。Anthropic不追求ChatGPT那種C端規模,在開發者生態里做到不可替代就夠了。

      Gemini走的是推理+多模態+性價比路線

      推理能力領先,多模態理解也是三家最強的。我現在分析圖片、理解視頻內容都交給Gemini做,這塊確實沒對手。加上2M上下文和$2/$12的定價,性價比碾壓。國內字節的Seed 2.0模型也在往這個方向走,多模態+低價正在成為一條清晰的賽道。

      為什么Google敢定最低價、給最大上下文?因為Gemini不需要單獨賺錢。Google有搜索、有YouTube、有Android,Gemini的作用是讓整個生態更強。它的ROI不是用API收入算的。

      三條路,三種賭注。


      但OpenAI最大的問題不是技術

      GPT-5.4技術上確實強。但OpenAI現在面對的最大挑戰,和模型能力無關。

      2月28日,OpenAI和美國國防部簽了正式合同。幾天前Anthropic剛剛公開拒絕了同一份合同,理由是五角大樓不愿加入「明確禁止自主武器部署」的條款。然后QuitGPT運動就爆發了。

      超過250萬人取消了ChatGPT訂閱或承諾停用,OpenAI舊金山總部門口有了抗議,900多名OpenAI和Google員工聯名簽公開信。

      時機很微妙。GPT-5.4恰好在QuitGPT最高潮的時候發布。ChatGPT的市場份額已經從高峰期的87%降到約68% ,Gemini從不到5%漲到18%以上。模型做得再好,用戶在流失,這個問題比任何benchmark都嚴重。

      最強之爭,結束了

      過去三年,AI的故事一直是「通用智能」:一個模型什么都能做,而且越來越強。

      GPT-5.4打破了這個敘事。

      它確實強,但它強的方式說明了一件事:即便是最頂尖的AI公司,也得做取舍了。Computer Use超越人類,但編程只漲了0.9%。Claude編程無敵,但上下文只有競品的五分之一。Gemini推理最強價格最低,但Agent和Computer Use都不行。

      每家都在自己選的賽道上做到了極致,同時接受了其他賽道的平庸。

      我之前寫GPT-5發布時說過,AI的iPhone 4時刻已經過去了?,F在回頭看,不只是「Wow時刻」沒了,連「誰是最強」這個問題本身都過時了。

      對我們這些日常在用AI的人來說,這反而是好事。不用再糾結「到底選哪個」,根據自己的需求選就行。寫代碼用Claude,做知識工作用ChatGPT,省錢或跑長文本用Gemini。就像你不會只用一把刀做所有菜。

      GPT-5.4發布了。但AI的「最強之爭」,已經結束了。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      吉林財大食堂“發瘋120秒”視頻流出:新型巨嬰,別出來害人了

      吉林財大食堂“發瘋120秒”視頻流出:新型巨嬰,別出來害人了

      小椰子專欄
      2026-04-08 13:03:26
      突然,跳水!剛剛,以色列宣布:已擊斃

      突然,跳水!剛剛,以色列宣布:已擊斃

      中國基金報
      2026-04-09 16:25:48
      澳大利亞等7國發表聯合聲明:“以最強烈措辭”譴責造成聯合國維和人員死亡等行徑

      澳大利亞等7國發表聯合聲明:“以最強烈措辭”譴責造成聯合國維和人員死亡等行徑

      環球網資訊
      2026-04-09 14:51:06
      “雪餅猴”王鐵柱,順流而下

      “雪餅猴”王鐵柱,順流而下

      新京報
      2026-04-10 08:17:15
      “留學回來,15次相親失敗”,杭州女孩被拆穿:連繁殖能力都沒有

      “留學回來,15次相親失敗”,杭州女孩被拆穿:連繁殖能力都沒有

      千言娛樂記
      2026-04-09 09:17:50
      收下中國26萬桶柴油后,馬科斯給南沙131處島礁改名!菲律賓變臉

      收下中國26萬桶柴油后,馬科斯給南沙131處島礁改名!菲律賓變臉

      趣文說娛
      2026-04-09 20:17:07
      16歲四肢癱瘓女孩誤購2000元鄧紫棋演唱會門票 平臺稱售出不退:需證明無民事行為能力

      16歲四肢癱瘓女孩誤購2000元鄧紫棋演唱會門票 平臺稱售出不退:需證明無民事行為能力

      閃電新聞
      2026-04-09 14:22:12
      男子復試時被HR說35歲年齡不符后,怒懟:我是突然就35歲了嗎?

      男子復試時被HR說35歲年齡不符后,怒懟:我是突然就35歲了嗎?

      行者聊官
      2026-04-10 07:16:47
      國家衛健委主任給了5條“防癌建議”,太接地氣了,今天就能做!

      國家衛健委主任給了5條“防癌建議”,太接地氣了,今天就能做!

      路醫生健康科普
      2026-04-08 21:20:03
      為什么沒人聯合打以色列,答案很簡單:不是沒人想打,是沒人敢打

      為什么沒人聯合打以色列,答案很簡單:不是沒人想打,是沒人敢打

      混沌錄
      2026-04-07 17:48:09
      “屎尿詩人”賈淺淺被調查,可別讓人失望哦!

      “屎尿詩人”賈淺淺被調查,可別讓人失望哦!

      大漠行舟
      2026-04-09 18:39:17
      故事:749局退休高人口述:陸家嘴有人渡劫的真相,讓人毛骨悚然

      故事:749局退休高人口述:陸家嘴有人渡劫的真相,讓人毛骨悚然

      詭譎怪談
      2025-01-18 14:09:34
      劍指沙霸、礦霸等!中央定調、全國聯動 掃黑除惡再升級

      劍指沙霸、礦霸等!中央定調、全國聯動 掃黑除惡再升級

      砂石骨料網
      2026-04-09 15:39:43
      違規使用劣質螺栓!致13死3失聯!川青鐵路在建大橋重大垮塌事故原因公布

      違規使用劣質螺栓!致13死3失聯!川青鐵路在建大橋重大垮塌事故原因公布

      閃電新聞
      2026-04-09 14:10:58
      三位市長升任市委書記!三地黨委主要領導調整

      三位市長升任市委書記!三地黨委主要領導調整

      上觀新聞
      2026-04-09 22:30:06
      奉陪到底,中方專機抵朝前,朝鮮亮出集束彈頭,日韓防長緊急通話

      奉陪到底,中方專機抵朝前,朝鮮亮出集束彈頭,日韓防長緊急通話

      共工之錨
      2026-04-10 01:25:50
      震驚!網傳282群群主是上海經管學校2009屆,網友:必須繩之以法

      震驚!網傳282群群主是上海經管學校2009屆,網友:必須繩之以法

      火山詩話
      2026-04-10 06:20:37
      27省份公布去年常住人口數據,為何這些地方出現增長

      27省份公布去年常住人口數據,為何這些地方出現增長

      澎湃新聞
      2026-04-09 20:14:35
      黃貫中大大方方曬了他和夫人朱茵的近照,沒有美顏

      黃貫中大大方方曬了他和夫人朱茵的近照,沒有美顏

      陳意小可愛
      2026-04-09 02:12:31
      80后,正在成為全社會最隱形的高危人群

      80后,正在成為全社會最隱形的高危人群

      經濟學教授V
      2026-04-09 18:19:13
      2026-04-10 09:28:49
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      182文章數 109關注度
      往期回顧 全部

      科技要聞

      程序員驚喜,每月100美元!OpenAI推新套餐

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

      體育要聞

      8萬人面前心臟驟停 現在他還站在球場上

      娛樂要聞

      金莎官宣結婚 與老公孫丞瀟相差18歲

      財經要聞

      AI短劇"買臉"成風 肖像生意成灰色產業

      汽車要聞

      文飛掌舵,給神行者帶來了什么?

      態度原創

      時尚
      房產
      本地
      數碼
      軍事航空

      越來越流行的松弛感穿搭,照著穿就很好看

      房產要聞

      利潤暴跌44%!那個春節被罵慘了的海峽股份 正在經歷什么?

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      數碼要聞

      華為多款新品在路上:Pura 90、闊折疊、AI眼鏡、平板耳機全都有

      軍事要聞

      黎真主黨發射火箭彈 回應以違反停火協議

      無障礙瀏覽 進入關懷版