<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek-V4和GPT-5.5第一波實測對決,結果出人意料!

      0
      分享至


      新智元報道

      編輯:Aeneas KingHZ

      【新智元導讀】昨夜,GPT-5.5果然按期發布了,全網沒有白等。更炸裂的是,就在同一天,DeepSeek-V4緊隨其后發布了!實測后,結果出人意料。

      2026年4月24日,這是屬于全球AI開發者的「瘋狂星期五」,也是科技史上注定被銘記的一天。

      凌晨時分,OpenAI的GPT-5.5如約空降,試圖以絕對的參數再次定義智能邊界。

      然而,就在大洋彼岸的余震還未平息時,那個曾經數次單挑閉源巨頭的國產「價格屠夫」與「效率天才」——DeepSeek,帶著全新的V4系列來正面硬剛了!

      當GPT-5.5還在試圖用更昂貴的算力堆砌未來時,DeepSeek-V4已經用1M超長上下文、比肩頂級閉源模型的Agent能力,以及僅為前代10%的KV緩存占用,直接把大模型推向了「平民化智能」的極境。

      一邊是科技春晚般的華麗登場,一邊是開源領域近乎「掀桌子」的絕地反擊。我們見證了一場精彩的「暴力美學」與「算法巧思」的巔峰對決。

      通往AGI的賽道,瞬間被這兩大巨頭縮短了不少。

      接下來,中國開源之光DeepSeek-V4和GPT-5.5,要來一場真刀實槍的實測大PK了。

      GPT-5.5和DeepSeek-V4巔峰對決

      第一題,一道可以肉眼判斷模型差異的電梯謎題,測的是「真假話+身份推理」。

      有四個人 A、B、C、D,其中只有一個人偷了寶石。

      他們分別說了下面四句話: A:不是我偷的。 B:是C偷的。 C:是D偷的。 D:B在說謊。

      已知: 1. 四句話中恰好有兩句是真的。 2. 小偷說的話一定是假話。 3. 非小偷不一定說真話,也可能說假話。

      請問:誰偷了寶石?

      這道題看似簡單,但其實,在給出的條件下,B和C都滿足。因此,這是一道故意設計的「陷阱題」:如果模型直接給出唯一答案C,說明它沒有認真驗證唯一性。

      真正想測的是,模型會不會發現題目本身不充分。

      更強模型應該回答:無法唯一確定,小偷可能是B或C。題目條件不足。

      這道題給GPT-5.5后,它成功發現了陷阱。


      把這道題給DeepSeek-V4后,一個直觀感受就是:它的思考過程,真的十分長長長長長。

      GPT-5.5十幾秒就出了答案,四分鐘了DeepSeek-V4還在跑。

      不過好在,V4最終也給出了正確答案。結果是好的,就是過程比較慢。


      第二題,我們用數字競賽題,來測試CoT的思考上限。重點比拼兩個模型的數學邏輯推理和思考模式效能。

      既然DeepSeek-V4宣稱在STEM和競賽型代碼上比肩頂級閉源模型,那我們就看看V4和GPT-5.5在面對人類智力天花板題目時,誰的推導過程更嚴密,誰會出現更多幻覺。

      我們選了去年國際奧數決賽的一道真題:

      Alice和Bob正在玩一個名為inekoalaty的雙人游戲,這個游戲的規則依賴于一個雙方都知道的正實數λ。

      在游戲的第n輪(從n=1開始),會發生以下情況:

      ? 如果n是奇數,Alice選擇一個非負實數x?,使得x? + x? + ? + x?的總和不超過λn。

      ? 如果n是偶數,Bob選擇一個非負實數x?,使得x?2 + x?2 + ? + x?2的總和不超過n。

      如果一個玩家無法選擇一個合適的x?,游戲結束,另一個玩家獲勝。如果游戲無限進行下去,沒有玩家獲勝。所有選定的數字對兩個玩家都是已知的。

      需要確定的是,哪些λ的值能確保Alice有獲勝策略,以及哪些λ的值能確保Bob有獲勝策略。


      原題和答案:https://web.evanchen.cc/exams/IMO-2025-notes.pdf

      在進階思考深度下,GPT-5.5得到了正確答案:


      全程耗時2分鐘51秒,思路清晰,輸出格式也很漂亮。


      在專家模式下,開啟思考模式,同樣的題目輸入DeepSeek──


      DeepSeek在思考過程結束前,沒有給出明確的輸出。

      點擊繼續后,DeepSeek也發現了答案的線索:


      最后,DeepSeek也成功證明了這道IMO決賽真題。


      可以看出,DeepSeek推理能力、思考深度的確進步明顯。

      接下來,我們考驗一下兩個模型的可視化能力。

      生成一個HTML網頁介紹人類的起源和生物的進化,要圖文并茂,好理解。

      DeepSeek這次效果更佳,GPT-5.5生成格式有些問題。




      接下來,要求兩個模型開發一個游戲網站,測試它們在動態圖形、3D空間交互、碰撞檢測和整體游戲架構方面的能力。

      通過最終呈現,可以清晰對比兩個模型在2D細膩特效與3D場景構建、光照與實時粒子系統方面的代碼生成能力、架構合理性以及視覺審美水平。

      跟上面一樣,GPT-5.5很快完成了這個任務,在預覽中呈現了網站效果。


      上下滾動查看更多


      DeepSeek-V4的思考時間不長,最終效果不如GPT-5.5,這一輪V4完敗。



      GPT-5.5:更像個人了

      接下來,我們還搜羅了一波AI大V和開發者們對GPT-5.5的實測。

      在今天發布之前,多位早期測試者已經用了兩周。他們的結論高度一致:在編程、推理、長任務三個維度上,GPT-5.5全面登頂。

      但真正讓人坐不住的不是它更聰明了,是它更「像個人」了。

      更貴的單價,反而更省錢;更強的能力,反而更會聊天;更高的自主性,反而更聽話。這一次,OpenAI拆掉了舊時代的發動機,直接給模型裝上了「靈魂」。

      Codex,直接淘汰「AI輔助編程」!

      可以說,GPT-5.5的Codex模式,直接把「AI輔助編程」這個詞淘汰了。

      一位測試者扔給它一份完整的PRD文檔,只說了一個詞:go。

      幾個小時后,GPT-5.5就獨立完成了整個項目構建。

      更關鍵的,是GPT-5.5的工作方式。

      它并不是寫完代碼等人審,而是自己形成了閉環——構建,視覺檢查,發現問題,再迭代。

      這種自主性,在其他模型上從未見過。

      OpenAI研究員Noam Brown的反饋,相信大家都已經看過了。

      用他的話說,「有了GPT-5.5,我的IC效率比以往任何時候都高。我現在可以像專業人士一樣編寫CUDA kernels,可以依靠它來運行我的研究實驗。」


      后端開發、復雜Bug定位、大型代碼庫理解,GPT-5.5在這些維度全面領先。

      有測試者專門讓它用Svelte寫了一個自定義虛擬滾動實現,完美調用了所有bind原語。

      他的評價是:「我見過AI寫出的最好的代碼,來自這個模型。」

      在世界上最難的電子表格任務上,GPT-5.5實現全新SOTA:速度最快、效率最高。



      更狠的是,GPT-5.5的持續研究能力,已有跡象表明AI已經能勝任研究合作者——

      人類研究人員只需要提出構想,全程無需寫一行代碼,GPT-5.5全部自主完成。


      甚至可以自主運行31個小時!


      這意味著,AI正從「助理」變為「雇傭兵」。你不需要告訴它怎么走,你只需要給它一個終點。

      不過短板同樣存在。

      前端設計仍然不如Opus,響應速度不如Opus 4.6 Fast。


      復雜布局有時候直接甩一張img了事,SVG硬編碼把自己繞暈。

      而且變得過度謹慎——動不動就問你問題,prompt稍有不慎就會觸發「瘋狂寫單元測試」模式。

      總結就是:能力很強,但需要馴服。

      沃頓商學院的教授Ethan Mollick測試了GPT-5.5好幾周,得出結論:目前,GPT-5.5 Pro就是解決復雜問題的最佳模型。


      更貴的模型,怎么反而更便宜

      GPT-5.5的定價比5.4更高。


      紙面上看不是好消息。

      但一位深度測試兩周的開發者給出了關鍵數據:達到GPT-5.4同等智能水平,GPT-5.5消耗的Token顯著更少。綜合算下來,整體運行成本反而更低。

      「這可能比大多數人意識到的更重要。」


      在Artificial Analysis指數的成本性能前沿上,GPT-5.5模型系列占據絕對主導地位。


      速度端的提升,就更加直觀了。

      早期測試者的實測數據擺在這里——

      GPT-5.5 Thinking Heavy模式,2分鐘出的答案,比GPT-5.4 Thinking Heavy花10分鐘出的更好。

      GPT-5.5 Pro,8分鐘的輸出質量,超過GPT-5.4 Pro花30分鐘的結果。

      同樣的活,時間砍了80%,質量還漲了。

      Token效率這件事為什么重要?因為它直接決定了AI Agent的經濟可行性。

      一個每跑一次任務就燒掉幾美元Token的模型,沒法大規模部署到真實工作流里。現在,GPT-5.5把這個門檻往下壓了一大截。


      為什么GPT-5.5感覺不一樣?

      GPT-5.5建立在一次新的預訓練(pre-train)之上。

      所謂預訓練,就是那種規模龐大、成本高昂的基礎訓練過程:在指令微調、工具使用和推理腳手架等后訓練步驟加入之前,它先教會基礎模型底層模式。

      后訓練可以讓模型更聽話、更安全,或者更具智能體能力;但一次新的預訓練,則可能改變模型本身的「重心」。

      其實,OpenAI已經通過GPT-5.4證明,自己重新具備了強競爭力。

      GPT-5.4使用的仍然是早期GPT-5.x模型的同一套預訓練。

      而現在發布一個新的預訓練。


      此外,有國外科技媒體報道,GPT-5.5也就是Spud「將是更智能的預訓練模型」。


      現在,GPT-5.5的正式發布,更貴反而更便宜,編程效果又好得出奇,推測GPT-5.5可能只是新預訓練模型的初始強化學習Checkpoint。


      奧特曼直接攤牌了:GPT-5.5還會快速迭代。


      這說明OpenAI想繼續向Anthropic施壓:它押注的是,回應Claude的下一步,不只是圍繞同一個底座做更好的腳手架,而是換一個不同的基礎模型。

      GPT-5.5就是GPT-5.5,但無人關心了

      整個GPT-5.5發布中,最重要的成果可能是前所未有的網絡安全能力:

      在一次網絡攻防評估中,GPT-5.5在10次試驗中有1次成功接管了模擬的企業網絡,預算為1億個token。


      此前,唯一能夠完成此任務的模型Claude Mythos,它在10次嘗試中成功了3次。

      Opus 4.6和Opus 4.7都做不到,GPT-5.4、GPT-5.3-Codex也做不到。

      在衡量AI長時間跨度內經營業務能力的Vending-Bench Arena中,GPT-5.5再次擊敗Opus 4.7。


      而Opus 4.7依舊延續Opus 4.6的策略:撒謊賴賬,拒不退貨;GPT-5.5贏得堂堂正正。

      這說明GPT的對齊和能力同步提升,堪稱「德才兼備、文武雙全」。


      GPT終于通關《寶可夢》!


      GPT-5.4曾在一個循環迷宮里反復讀檔,像個陷入算法死循環的孤魂。

      而GPT-5.5不僅第一次嘗試就輕松打贏了勁敵,甚至展現出真正的「人類邏輯」——它會主動拿取道具、購物、規劃路徑,而不是暴力試錯。

      在網友定制的超級難度的《寶可夢 水晶》中,GPT-5.5依舊輕松通關。


      別被版本號里的「+0.1」騙了,GPT-5.5是一次重大更新。

      詭異的是,對于99%的用戶而言,這些都不重要。

      最重要的亮點在于能力范圍。GPT-5.5彌補了GPT系列在某些方面的不足:

      基于現有上下文進行設計、iOS/原生Mac應用、安全等方面。


      這次發布有一種心理上很奇怪的地方。

      GPT-5感覺像一次相變,因為它抬高了「可能性」的天花板。

      GPT-5.3-Codex感覺像一次相變,因為它讓長時間運行的自主工程在操作層面變得真實可用。

      GPT-5.5并非如此。

      它更像把粗糙邊緣磨平,讓薄弱類別不再那么弱,讓模型在更多真實世界的混亂工作中變得更有用。

      它并不完美,它沒有突然變成最好的設計模型,它不是魔法。

      如果你想認真完成重要工作,你仍然需要給它明確目標、真實上下文和驗證方式。

      對大多數人、在大多數任務上,GPT-5.5與其說是一種全新能力,不如說是讓現有能力變得更寬、更安全、更可靠。它把這個模型補圓了。

      參考資料:

      https://x.com/nicochristie/status/2047476237464211721

      https://x.com/MatthewBerman/status/2047375703516361174

      https://www.oneusefulthing.org/p/sign-of-the-future-gpt-55

      https://www.reddit.com/r/singularity/comments/1sttcbf/is_the_ai_subscription_bubble_starting_to_crack/

      https://x.com/ArtificialAnlys/status/2047378419282034920

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      廣東省副省長、梅州市委書記馬正勇調任四川省政府黨組成員

      廣東省副省長、梅州市委書記馬正勇調任四川省政府黨組成員

      澎湃新聞
      2026-04-24 23:42:26
      很難聽,但這是實話!詹寧斯:杜蘭特沒有任何球隊領導力!

      很難聽,但這是實話!詹寧斯:杜蘭特沒有任何球隊領導力!

      愛體育
      2026-04-24 23:10:29
      楊樂樂后悔全職帶娃落淚,在婚姻中不快樂,汪涵:為什么要和我比

      楊樂樂后悔全職帶娃落淚,在婚姻中不快樂,汪涵:為什么要和我比

      童叔不飆車
      2026-04-23 22:38:35
      我倆真沒談!王濛罕見首次澄清和周洋的真實關系:她是我唯一好友

      我倆真沒談!王濛罕見首次澄清和周洋的真實關系:她是我唯一好友

      安寧007
      2026-04-24 19:02:36
      要求全隊統一吃早餐!請假還得拍吃飯照!麥基拒絕參加!

      要求全隊統一吃早餐!請假還得拍吃飯照!麥基拒絕參加!

      籃球大圖
      2026-04-24 20:24:54
      員工存錢觸發反洗錢,絕味藏7億被查,635億市值崩塌股東買單!

      員工存錢觸發反洗錢,絕味藏7億被查,635億市值崩塌股東買單!

      老特有話說
      2026-04-11 17:23:21
      三個航母打擊群或將同時部署中東,美軍伙食就這?

      三個航母打擊群或將同時部署中東,美軍伙食就這?

      每日經濟新聞
      2026-04-24 14:36:35
      萬達廣場女子墜樓身亡

      萬達廣場女子墜樓身亡

      地產微資訊
      2026-04-25 10:47:43
      一個家庭如果父親懦弱,母親強勢,那么孩子基本上也就定型了

      一個家庭如果父親懦弱,母親強勢,那么孩子基本上也就定型了

      藝鑒在線
      2026-04-24 04:29:52
      94年我送師長時路遇自己家,師長讓我探親,誰知門開后師長竟哭了

      94年我送師長時路遇自己家,師長讓我探親,誰知門開后師長竟哭了

      紅豆講堂
      2025-04-07 10:23:17
      八十歲后,老人能活到以下狀態,就是人生贏家,便是圓滿!

      八十歲后,老人能活到以下狀態,就是人生贏家,便是圓滿!

      小談食刻美食
      2026-04-22 07:33:20
      一杯水里藏著一個“反常”的宇宙:為什么水讓科學家都頭疼?

      一杯水里藏著一個“反常”的宇宙:為什么水讓科學家都頭疼?

      半解智士
      2026-04-23 10:04:34
      我挨了小姑子三巴掌后,全家才想起她老公的工作是我求來的

      我挨了小姑子三巴掌后,全家才想起她老公的工作是我求來的

      曉艾故事匯
      2026-04-20 08:17:42
      可以毫不夸張的說,華人移民美國的人幾乎全部失敗了!

      可以毫不夸張的說,華人移民美國的人幾乎全部失敗了!

      西樓知趣雜談
      2026-04-25 07:09:43
      德國百年巨頭倒下時,浙江修鞋匠花4500萬買下,如今年入70億

      德國百年巨頭倒下時,浙江修鞋匠花4500萬買下,如今年入70億

      毒sir財經
      2026-04-19 22:12:53
      東南亞“小龍”變異:當警察接管政治局,越南在玩火還是涅槃?

      東南亞“小龍”變異:當警察接管政治局,越南在玩火還是涅槃?

      七分日記
      2026-04-23 23:42:28
      弟弟首付差30萬,我準備借錢卻聽到弟媳說:姐那筆錢早晚是別人的

      弟弟首付差30萬,我準備借錢卻聽到弟媳說:姐那筆錢早晚是別人的

      紅豆講堂
      2025-10-31 20:00:08
      二十幾歲女性為何被年長男性吸引?關鍵看這三個信號

      二十幾歲女性為何被年長男性吸引?關鍵看這三個信號

      時光慢郵啊
      2026-04-24 09:45:47
      賭狗的話能信嗎網友說早些年百度貼吧有個戒賭吧是最大的一個貼吧

      賭狗的話能信嗎網友說早些年百度貼吧有個戒賭吧是最大的一個貼吧

      侃神評故事
      2026-04-22 17:25:03
      信任崩塌!馬斯克親口承認:400萬輛特斯拉無法實現無人駕駛!

      信任崩塌!馬斯克親口承認:400萬輛特斯拉無法實現無人駕駛!

      燦若銀爛
      2026-04-23 19:23:14
      2026-04-25 13:31:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15058文章數 66800關注度
      往期回顧 全部

      科技要聞

      Anthropic剛拿亞馬遜250億美元,又拿谷歌400億

      頭條要聞

      媒體:三航母準備圍逼伊朗 結果美國海軍后院先"炸"了

      頭條要聞

      媒體:三航母準備圍逼伊朗 結果美國海軍后院先"炸"了

      體育要聞

      火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

      娛樂要聞

      鄧超最大的幸運,就是遇見孫儷

      財經要聞

      90%訂單消失,中東旺季沒了

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      家居
      旅游
      游戲
      公開課
      軍事航空

      家居要聞

      自然肌理 溫潤美學

      旅游要聞

      活化千年文脈 擘畫大河新篇

      育碧再出王炸!《AC黑旗》重制版登頂8大地區PS商店

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美防長:戰事不會“沒完沒了”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 婷婷久香综合在线| 饥渴的熟妇张开腿呻吟视频| 亚洲AV成人片不卡无码| 日本强好片久久久久久aaa| 国产成人一区二区三区小说| 人人妻人人玩人人澡人人爽| 免青青草免费观看视频在线| 国产午夜福利精品视频| 国产精品久久久影视青草| 99re在线| 日韩精品人妻在线| 亚欧美闷骚院| 蜜桃av抽搐高潮一区二区| 国产午夜成人av在线播放| 亚洲欧美日韩中文v在线| 亚洲欧美一区二区三区在线| 国产性爱网| 人人网aV| 91激情| 在线a人片免费观看| julia无码中文字幕一区| 热思思久久免费视频| 国产在线精品一区二区不卡麻豆 | 午夜福利影院不卡影院| julia无码中文字幕一区| 69精品国产久热在线观看| 亚洲人午夜精品射精日韩| 成人看的污污超级黄网站免费| 老女老肥熟国产在线视频 | 亚洲精品人妻系列| 日本边添边摸边做边爱| 国产日产免费高清欧美一区| 一区二区三区四区在线不卡高清 | 无码人妻久久久一区二区三区| 欧韩一区| 超碰在线91| 中文字幕av久久爽Av| 大香蕉欧美| 国产成人无码网站m3u8| 精品一区二区三区免费播放| 精品国产乱码久久久久APP下载|