網易首頁 > 網易號 > 正文申請入駐

GPT-5.2被罵“降智石頭”全網差評炸鍋，奧特曼緊急拉響紅色警報

2025-12-15 14:12:07　來源: 魏家東

北京舉報

分享至

三年前，OpenAI憑借ChatGPT橫空出世，搶走谷歌AI時代的風頭，改寫了全球科技競爭格局；三年后，2025年終歲末，這場AI巨頭的巔峰對決迎來反轉劇情。OpenAI緊急祭出代號“大蒜”的GPT-5.2這張“年度王牌”，卻未能復制往日榮光，在多項基準測試中不敵谷歌Gemini3系列，陷入“雷聲大、雨點小”的尷尬境地。從開發者吐槽到第三方評測墊底，從預訓練瓶頸到用戶體驗滑坡，OpenAI的年終沖刺為何折戟？谷歌又憑何逆襲重回AI浪潮之巔？這場牽動全球科技圈的“年終之戰”，不僅關乎兩大巨頭的市場地位，更預示著AI行業的發展新方向。

一、GPT-5.2倉促登場：王牌不“王”，槽點滿滿

2025年末，OpenAI突然發布GPT-5.2，代號“大蒜”（Garlic），據爆料該模型原計劃于2026年初亮相，此次提前發布被外界解讀為應對谷歌Gemini3的“緊急應戰”。發布當天，OpenAICEO奧特曼高調宣稱，GPT-5.2的API調用量已超萬億token，增長速度驚人。然而，這份“開門紅”并未持續太久，隨著第三方評測結果出爐和用戶實測反饋，GPT-5.2的諸多短板逐漸暴露。

在核心能力評估上，EpochAI的最新報告顯示，GPT-5.2的能力指數（ECI）僅得152分，僅次于Gemini3Pro，未能實現“全線霸榜”。在陶哲軒聯手百位數學家打造的FrontierMath考題中，GPT-5.2僅在T1-T3級題目中表現突出，而最高難度的T4級別仍被Gemini3牢牢占據高地。更令人意外的是，在SimpleQAVerified測試中，GPT-5.2的表現甚至不及前一代GPT-5.1，意味著迭代后的模型可信度不升反降。

在實際應用場景中，GPT-5.2的短板更為明顯。視覺推理領域，Gemini3Pro實現全面碾壓；3D模型生成方面，GPT-5.2不僅速度慢，成本還更高；即便是OpenAI傳統優勢的代碼生成領域，在健身儀表盤首頁設計的實測中，GPT-5.2在53萬網友的討論中幾乎次次墊底，最終Gemini3憑借更貼合需求的設計成為贏家。此外，用戶吐槽集中爆發：“語氣冰冷堪比北極”“自然語言越改越離譜，滿是辱罵和說教”，有GPT-5重度用戶甚至直言“GPT-5.2距離成為一塊石頭也不遠了”。

二、Gemini3強勢逆襲：谷歌的“復仇之戰”

與GPT-5.2的倉促應戰形成鮮明對比的是谷歌Gemini3系列的穩扎穩打。三年前，谷歌因過度顧慮AI“說錯話”的風險，在ChatGPT橫空出世時錯失先機，創始人謝爾蓋?布林近日重返斯坦福演講時公開承認：“我們搞砸了——太怕AI說錯話，結果輸掉一個時代。”如今，谷歌憑借Gemini3Pro+NanoBananaPro的組合拳，成功實現逆襲，重回AI浪潮之巔。

第三方評測數據見證了Gemini3的硬實力。在OCR-Arena、simple-bench、Live-Bench等多個權威基準測試中，Gemini3Pro均排名前列，而GPT-5.2甚至落后于ClaudeOpus4.5。在長程任務性能測試中，Gemini3Pro以4.9小時的續航能力遠超GPT-5.2的3.5小時和Opus4.5的2.6小時，成為頂尖AI大模型中長程任務的最強者。工程師DanMac一語道破關鍵：“Gemini3Pro之所以擁有更深入的智能，核心在于谷歌的預訓練技術最強。”

在細分領域，Gemini3的優勢同樣顯著。越界小說生成（涉及禁忌、黑暗題材的文學創作）中，Gemini3Pro超越GPT-5.2、Claude4.5Opus等模型位居前列；CAIS（人工智能安全中心）發布的AIDashboard顯示，Gemini3Pro在文本和視覺能力指數上全面勝出，僅在風險指數上落后于GPT-5.2；在終端智能體能力測試平臺Terminus上，Gemini3.0Pro與GPT-5.2的高推理模式幾乎持平，但仍以0.2%的微弱優勢領先。博彩網站Ploymarket的數據更能反映市場態度：大部分網友認為谷歌將擁有2025年底最好的AI模型。

三、OpenAI的困境：預訓練瓶頸與戰略搖擺

GPT-5.2的“滑鐵盧”并非偶然，背后暴露的是OpenAI深層次的發展困境。最核心的問題在于預訓練環節的Scaling瓶頸（規模擴展瓶頸）。此前有硅谷消息透露，“OpenAI預訓練已終結，GPT-5.1可能基于4o后訓練而來，因此提升不大”。盡管OpenAI聲稱在GPT-5.2研發中解決了預訓練的關鍵問題，整合了“Shallotpeat”項目期間修復的Bug，但從實際表現來看，底層技術并未實現突破式進展。

與谷歌在預訓練上的深耕不同，GPT-5.2的優勢更多集中在后訓練優化帶來的“專用智能”，而非底層的通用智能提升。這種“偏科”導致模型在需要深度推理、跨領域整合的任務中表現乏力，難以與Gemini3的全面性抗衡。為了挽回頹勢，OpenAI已拉響“紅色警報”，將ChatGPT優化提升至最高優先級，甚至極端到暫停AGI研發和Sora項目八周，擺出“破釜沉舟”的姿態。

戰略層面的“雙線作戰”也讓OpenAI分散了精力。目前，OpenAI同時推進2B（企業端）和2C（消費端）業務，一邊試圖優化ChatGPT的用戶體驗，一邊探索廣告、電商等新賽道，計劃通過ChatGPT聊天完成購物并從中抽成，同時將AI技術引入企業軟件領域。盡管ChatGPT仍保持著每周8億用戶、76%市場份額的絕對優勢，但在谷歌等競爭對手的強勢沖擊下，消費級AI的“護城河”已出現松動——過去12個月，全球多家AI初創公司已開發出能與OpenAI匹敵甚至超越的技術。

四、年終之戰未落幕：2026初將迎終極對決？

盡管GPT-5.2表現不及預期，但這場2025AI年終之戰并未塵埃落定。據《紐約時報》爆料，OpenAI并未放棄，接下來幾周將集中精力優化ChatGPT，并籌備2026年初的更大規模發布。此外，奧特曼在GPT-5.2發布當天還預告了“圣誕禮物”，外界猜測可能是下一代圖像模型GPTImagev2，不過從開發者實測來看，這款疑似基于GPT-4o基底的模型表現并不樂觀，存在黃色色調失衡、邏輯性差、圖像質量低等問題，遠落后于Gemini3加持的NanoBananaPro。

谷歌方面，憑借Gemini3的勝利，已重新掌握AI競爭的主動權，但能否持續領跑仍存變數。OpenAI在消費端的龐大用戶基礎、成熟的生態體系仍是其核心優勢，而預訓練技術的瓶頸若能在2026年初的發布中突破，不排除“翻盤”的可能。值得注意的是，除了OpenAI和谷歌，ClaudeOpus4.5等模型也在多個測試中表現亮眼，AI行業的競爭已從“雙雄爭霸”逐漸走向“群雄逐鹿”。

結語：AI競爭的核心，從來都是技術與初心

2025年的AI年終之戰，以GPT-5.2的折戟和Gemini3的逆襲暫告一段落，但這并非終局，而是新競爭階段的開始。谷歌用三年時間彌補了曾經的失誤，證明了預訓練技術深耕的價值；OpenAI則在沖刺中暴露了瓶頸與焦慮，也展現了破釜沉舟的決心。這場對決背后，我們看到的不僅是技術的較量，更是戰略選擇的博弈——是追求短期性能優化，還是深耕底層技術突破？是聚焦核心業務，還是多元化擴張？

對于用戶而言，AI模型的好壞終究要回歸體驗本身：能否解決實際問題、是否足夠智能易用、是否尊重用戶需求。GPT-5.2的吐槽潮告訴我們，技術迭代若脫離用戶體驗，再高的API調用量也只是曇花一現；Gemini3的成功則印證了，扎實的技術積累和對用戶需求的洞察，才是贏得市場的關鍵。2026年初的更大規模發布即將到來，OpenAI能否實現“王者歸來”？谷歌能否守住領先優勢？AI行業的競爭還將帶來哪些驚喜？讓我們拭目以待。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.