![]()
新智元報道
編輯:Aeneas KingHZ
【新智元導讀】昨夜,GPT-5.5果然按期發布了,全網沒有白等。更炸裂的是,就在同一天,DeepSeek-V4緊隨其后發布了!實測后,結果出人意料。
2026年4月24日,這是屬于全球AI開發者的「瘋狂星期五」,也是科技史上注定被銘記的一天。
凌晨時分,OpenAI的GPT-5.5如約空降,試圖以絕對的參數再次定義智能邊界。
然而,就在大洋彼岸的余震還未平息時,那個曾經數次單挑閉源巨頭的國產「價格屠夫」與「效率天才」——DeepSeek,帶著全新的V4系列來正面硬剛了!
當GPT-5.5還在試圖用更昂貴的算力堆砌未來時,DeepSeek-V4已經用1M超長上下文、比肩頂級閉源模型的Agent能力,以及僅為前代10%的KV緩存占用,直接把大模型推向了「平民化智能」的極境。
一邊是科技春晚般的華麗登場,一邊是開源領域近乎「掀桌子」的絕地反擊。我們見證了一場精彩的「暴力美學」與「算法巧思」的巔峰對決。
通往AGI的賽道,瞬間被這兩大巨頭縮短了不少。
接下來,中國開源之光DeepSeek-V4和GPT-5.5,要來一場真刀實槍的實測大PK了。
GPT-5.5和DeepSeek-V4巔峰對決
第一題,一道可以肉眼判斷模型差異的電梯謎題,測的是「真假話+身份推理」。
有四個人 A、B、C、D,其中只有一個人偷了寶石。
他們分別說了下面四句話: A:不是我偷的。 B:是C偷的。 C:是D偷的。 D:B在說謊。
已知: 1. 四句話中恰好有兩句是真的。 2. 小偷說的話一定是假話。 3. 非小偷不一定說真話,也可能說假話。
請問:誰偷了寶石?
這道題看似簡單,但其實,在給出的條件下,B和C都滿足。因此,這是一道故意設計的「陷阱題」:如果模型直接給出唯一答案C,說明它沒有認真驗證唯一性。
真正想測的是,模型會不會發現題目本身不充分。
更強模型應該回答:無法唯一確定,小偷可能是B或C。題目條件不足。
這道題給GPT-5.5后,它成功發現了陷阱。
![]()
把這道題給DeepSeek-V4后,一個直觀感受就是:它的思考過程,真的十分長長長長長。
GPT-5.5十幾秒就出了答案,四分鐘了DeepSeek-V4還在跑。
不過好在,V4最終也給出了正確答案。結果是好的,就是過程比較慢。
![]()
第二題,我們用數字競賽題,來測試CoT的思考上限。重點比拼兩個模型的數學邏輯推理和思考模式效能。
既然DeepSeek-V4宣稱在STEM和競賽型代碼上比肩頂級閉源模型,那我們就看看V4和GPT-5.5在面對人類智力天花板題目時,誰的推導過程更嚴密,誰會出現更多幻覺。
我們選了去年國際奧數決賽的一道真題:
Alice和Bob正在玩一個名為inekoalaty的雙人游戲,這個游戲的規則依賴于一個雙方都知道的正實數λ。
在游戲的第n輪(從n=1開始),會發生以下情況:
? 如果n是奇數,Alice選擇一個非負實數x?,使得x? + x? + ? + x?的總和不超過λn。
? 如果n是偶數,Bob選擇一個非負實數x?,使得x?2 + x?2 + ? + x?2的總和不超過n。
如果一個玩家無法選擇一個合適的x?,游戲結束,另一個玩家獲勝。如果游戲無限進行下去,沒有玩家獲勝。所有選定的數字對兩個玩家都是已知的。
需要確定的是,哪些λ的值能確保Alice有獲勝策略,以及哪些λ的值能確保Bob有獲勝策略。
![]()
原題和答案:https://web.evanchen.cc/exams/IMO-2025-notes.pdf
在進階思考深度下,GPT-5.5得到了正確答案:
![]()
全程耗時2分鐘51秒,思路清晰,輸出格式也很漂亮。
![]()
在專家模式下,開啟思考模式,同樣的題目輸入DeepSeek──
![]()
DeepSeek在思考過程結束前,沒有給出明確的輸出。
點擊繼續后,DeepSeek也發現了答案的線索:
![]()
最后,DeepSeek也成功證明了這道IMO決賽真題。
![]()
可以看出,DeepSeek推理能力、思考深度的確進步明顯。
接下來,我們考驗一下兩個模型的可視化能力。
生成一個HTML網頁介紹人類的起源和生物的進化,要圖文并茂,好理解。
DeepSeek這次效果更佳,GPT-5.5生成格式有些問題。
![]()
![]()
![]()
接下來,要求兩個模型開發一個游戲網站,測試它們在動態圖形、3D空間交互、碰撞檢測和整體游戲架構方面的能力。
通過最終呈現,可以清晰對比兩個模型在2D細膩特效與3D場景構建、光照與實時粒子系統方面的代碼生成能力、架構合理性以及視覺審美水平。
跟上面一樣,GPT-5.5很快完成了這個任務,在預覽中呈現了網站效果。
![]()
上下滾動查看更多
![]()
DeepSeek-V4的思考時間不長,最終效果不如GPT-5.5,這一輪V4完敗。
![]()
![]()
GPT-5.5:更像個人了
接下來,我們還搜羅了一波AI大V和開發者們對GPT-5.5的實測。
在今天發布之前,多位早期測試者已經用了兩周。他們的結論高度一致:在編程、推理、長任務三個維度上,GPT-5.5全面登頂。
但真正讓人坐不住的不是它更聰明了,是它更「像個人」了。
更貴的單價,反而更省錢;更強的能力,反而更會聊天;更高的自主性,反而更聽話。這一次,OpenAI拆掉了舊時代的發動機,直接給模型裝上了「靈魂」。
Codex,直接淘汰「AI輔助編程」!
可以說,GPT-5.5的Codex模式,直接把「AI輔助編程」這個詞淘汰了。
一位測試者扔給它一份完整的PRD文檔,只說了一個詞:go。
幾個小時后,GPT-5.5就獨立完成了整個項目構建。
更關鍵的,是GPT-5.5的工作方式。
它并不是寫完代碼等人審,而是自己形成了閉環——構建,視覺檢查,發現問題,再迭代。
這種自主性,在其他模型上從未見過。
OpenAI研究員Noam Brown的反饋,相信大家都已經看過了。
用他的話說,「有了GPT-5.5,我的IC效率比以往任何時候都高。我現在可以像專業人士一樣編寫CUDA kernels,可以依靠它來運行我的研究實驗。」
![]()
后端開發、復雜Bug定位、大型代碼庫理解,GPT-5.5在這些維度全面領先。
有測試者專門讓它用Svelte寫了一個自定義虛擬滾動實現,完美調用了所有bind原語。
他的評價是:「我見過AI寫出的最好的代碼,來自這個模型。」
在世界上最難的電子表格任務上,GPT-5.5實現全新SOTA:速度最快、效率最高。
![]()
![]()
更狠的是,GPT-5.5的持續研究能力,已有跡象表明AI已經能勝任研究合作者——
人類研究人員只需要提出構想,全程無需寫一行代碼,GPT-5.5全部自主完成。
![]()
甚至可以自主運行31個小時!
![]()
這意味著,AI正從「助理」變為「雇傭兵」。你不需要告訴它怎么走,你只需要給它一個終點。
不過短板同樣存在。
前端設計仍然不如Opus,響應速度不如Opus 4.6 Fast。
![]()
復雜布局有時候直接甩一張img了事,SVG硬編碼把自己繞暈。
而且變得過度謹慎——動不動就問你問題,prompt稍有不慎就會觸發「瘋狂寫單元測試」模式。
總結就是:能力很強,但需要馴服。
沃頓商學院的教授Ethan Mollick測試了GPT-5.5好幾周,得出結論:目前,GPT-5.5 Pro就是解決復雜問題的最佳模型。
![]()
更貴的模型,怎么反而更便宜
GPT-5.5的定價比5.4更高。
![]()
紙面上看不是好消息。
但一位深度測試兩周的開發者給出了關鍵數據:達到GPT-5.4同等智能水平,GPT-5.5消耗的Token顯著更少。綜合算下來,整體運行成本反而更低。
「這可能比大多數人意識到的更重要。」
![]()
在Artificial Analysis指數的成本性能前沿上,GPT-5.5模型系列占據絕對主導地位。
![]()
速度端的提升,就更加直觀了。
早期測試者的實測數據擺在這里——
GPT-5.5 Thinking Heavy模式,2分鐘出的答案,比GPT-5.4 Thinking Heavy花10分鐘出的更好。
GPT-5.5 Pro,8分鐘的輸出質量,超過GPT-5.4 Pro花30分鐘的結果。
同樣的活,時間砍了80%,質量還漲了。
Token效率這件事為什么重要?因為它直接決定了AI Agent的經濟可行性。
一個每跑一次任務就燒掉幾美元Token的模型,沒法大規模部署到真實工作流里。現在,GPT-5.5把這個門檻往下壓了一大截。
![]()
為什么GPT-5.5感覺不一樣?
GPT-5.5建立在一次新的預訓練(pre-train)之上。
所謂預訓練,就是那種規模龐大、成本高昂的基礎訓練過程:在指令微調、工具使用和推理腳手架等后訓練步驟加入之前,它先教會基礎模型底層模式。
后訓練可以讓模型更聽話、更安全,或者更具智能體能力;但一次新的預訓練,則可能改變模型本身的「重心」。
其實,OpenAI已經通過GPT-5.4證明,自己重新具備了強競爭力。
GPT-5.4使用的仍然是早期GPT-5.x模型的同一套預訓練。
而現在發布一個新的預訓練。
![]()
此外,有國外科技媒體報道,GPT-5.5也就是Spud「將是更智能的預訓練模型」。
![]()
現在,GPT-5.5的正式發布,更貴反而更便宜,編程效果又好得出奇,推測GPT-5.5可能只是新預訓練模型的初始強化學習Checkpoint。
![]()
奧特曼直接攤牌了:GPT-5.5還會快速迭代。
![]()
這說明OpenAI想繼續向Anthropic施壓:它押注的是,回應Claude的下一步,不只是圍繞同一個底座做更好的腳手架,而是換一個不同的基礎模型。
GPT-5.5就是GPT-5.5,但無人關心了
整個GPT-5.5發布中,最重要的成果可能是前所未有的網絡安全能力:
在一次網絡攻防評估中,GPT-5.5在10次試驗中有1次成功接管了模擬的企業網絡,預算為1億個token。
![]()
此前,唯一能夠完成此任務的模型Claude Mythos,它在10次嘗試中成功了3次。
Opus 4.6和Opus 4.7都做不到,GPT-5.4、GPT-5.3-Codex也做不到。
在衡量AI長時間跨度內經營業務能力的Vending-Bench Arena中,GPT-5.5再次擊敗Opus 4.7。
![]()
而Opus 4.7依舊延續Opus 4.6的策略:撒謊賴賬,拒不退貨;GPT-5.5贏得堂堂正正。
這說明GPT的對齊和能力同步提升,堪稱「德才兼備、文武雙全」。
![]()
GPT終于通關《寶可夢》!
![]()
GPT-5.4曾在一個循環迷宮里反復讀檔,像個陷入算法死循環的孤魂。
而GPT-5.5不僅第一次嘗試就輕松打贏了勁敵,甚至展現出真正的「人類邏輯」——它會主動拿取道具、購物、規劃路徑,而不是暴力試錯。
在網友定制的超級難度的《寶可夢 水晶》中,GPT-5.5依舊輕松通關。
![]()
別被版本號里的「+0.1」騙了,GPT-5.5是一次重大更新。
詭異的是,對于99%的用戶而言,這些都不重要。
最重要的亮點在于能力范圍。GPT-5.5彌補了GPT系列在某些方面的不足:
基于現有上下文進行設計、iOS/原生Mac應用、安全等方面。
![]()
這次發布有一種心理上很奇怪的地方。
GPT-5感覺像一次相變,因為它抬高了「可能性」的天花板。
GPT-5.3-Codex感覺像一次相變,因為它讓長時間運行的自主工程在操作層面變得真實可用。
GPT-5.5并非如此。
它更像把粗糙邊緣磨平,讓薄弱類別不再那么弱,讓模型在更多真實世界的混亂工作中變得更有用。
它并不完美,它沒有突然變成最好的設計模型,它不是魔法。
如果你想認真完成重要工作,你仍然需要給它明確目標、真實上下文和驗證方式。
對大多數人、在大多數任務上,GPT-5.5與其說是一種全新能力,不如說是讓現有能力變得更寬、更安全、更可靠。它把這個模型補圓了。
參考資料:
https://x.com/nicochristie/status/2047476237464211721
https://x.com/MatthewBerman/status/2047375703516361174
https://www.oneusefulthing.org/p/sign-of-the-future-gpt-55
https://www.reddit.com/r/singularity/comments/1sttcbf/is_the_ai_subscription_bubble_starting_to_crack/
https://x.com/ArtificialAnlys/status/2047378419282034920
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.