作者 | 辰辰
出品 | 網易科技
強得可怕,也無聊得要命。
奧特曼在推特上慶祝GPT-5.2 “首日消耗萬億Token”,但這三天里,評論區卻翻車了。
用戶們并不買賬。面對GPT-5.2,大家最直觀的感受不是“被顛覆”,而是“被敷衍”。“詞符不等于情誼,指標不等于記憶”——這句網友的高贊吐槽,精準道出了公眾對這次“救火式升級”的集體冷漠。
![]()
(圖片由AI生成)
但真相果真如此不堪嗎?
在各方深度試用三天,并橫向對比了Claude 4.5和Gemini 3之后,我們得出了一個違背直覺的結論:它可能確實變“無聊”了,但這正是它變強的代價。
1.全網群嘲“無聊”?用戶可能真的誤讀了
這次倉促的發布并非源于計劃周密,而是源自危機感。消息人士透露,OpenAI宣布進入“紅色警戒”(Code Red)狀態,正是為了應對來自谷歌Gemini 3等競爭對手與日俱增的壓力,不得不加快發布速度。
然而,這場“救火式”的升級,并未在社交媒體上引發如GPT-4發布時的病毒式傳播狂潮。在Reddit和X上,充斥著“無聊”“冰冷”“變化甚微”的負面評價。
![]()
科技博主@melvynxdev甚至斷言 GPT 5.2的發布簡直是一場災難。
![]()
相比于OpenAI聲稱的“迄今為止最適合專業知識工作的系列模型”,公眾對GPT 5.2的普遍“冷漠”形成了巨大反差。
甚至當OpenAI CEO薩姆奧特曼(Sam Altman)透露 “GPT-5.2在API上線首日即突破萬億tokens使用量,且增長勢頭迅猛” 時,不少用戶紛紛跟帖吐槽:“詞符不等于情誼,指標不等于記憶”、“第一天就消耗了萬億Token,他們竟然還有臉歡呼雀躍”。
![]()
![]()
![]()
那么,GPT 5.2究竟是“史上最強工具”,還是被競爭對手逼出來的“雞肋”升級?我們深入挖掘了最新的專業評測和技術分析,發現互聯網上的批評聲浪,很可能完全搞錯了5.2的設計目標。
2. 理解“無聊”的真相——結果優先的產品哲學
資深產品經理KARO指出,如果將GPT 5.2視為一個用于演示、追求“掌聲”的模型,它可能會令人失望;但如果將GPT 5.2視為一個追求長期穩定性、需要實際部署的工具,它則超越了所有前輩。
![]()
OpenAI在GPT 5.2中做出了一個關鍵的產品決策:犧牲模型的部分表達自由和創意范圍,來換取可預測的可靠行為。
從“偶爾的驚艷”到“持續的可靠”
早期的AI模型可能在某一刻表現驚人,下一刻就錯得離譜。這種不穩定性,在處理起草政策、規范文件或進行嚴肅研究摘要等具有真實下游成本的任務時,是完全不可接受的。
![]()
(圖片由AI生成)
GPT 5.2的設計目標就是持續可靠,并減少失敗頻率。為了實現這一目標,它在以下三個關鍵維度進行了優化:
· 更嚴格的指令遵循: 模型能更忠實執行用戶指令。
· 長對話中減少脫軌: 即使對話非常長,模型也能保持主題不跑偏。
· 在多步驟任務中保持約束: 即使任務進行到幾十步,它也能記住用戶在第1步設定的規則。
![]()
(圖片由AI生成)
在一次高強度的專業測試中,研究人員加載了8100行原始研究數據,并設置了一個絕對的“絆索”規則:如果用戶提到“banana”,模型必須只輸出“yellow”。GPT 5.1最終在大約47分鐘后打破了規則,而 GPT 5.2在持續62分鐘語義誘導和上下文壓力后,仍能保持遵守規則,直至測試人員主動停止。 這證明GPT 5.2在復雜、非線性對話中堅守規則的能力極強。
![]()
動態推理與成本效率的平衡
GPT 5.2采用了“動態調整推理深度”的策略。針對用戶的簡單提示先走“快速路徑”;只有當不確定性超過某個閾值時,才會啟動更慢更深入的推理。這種方法能以最快、最便宜的方式回答問題。
盡管GPT 5.2的單位Token成本比5.1高出1.4倍,輸入成本為每百萬Token 1.75美元,輸出成本為每百萬Token 14美元,但得益于從前沿模型中提取優秀習慣進行蒸餾學習、緩存常用文本片段和采用效率優先的推理路徑,單次任務的成本有所降低。例如,GPT-5.2 Pro在ARC-AGI-1任務上的效率比一年前的預覽版提高了約390倍。
減少幻覺:寧愿說“我不知道”
GPT 5.2被施加了更高的懲罰機制,更大限度避免捏造引用、謊稱使用工具或編造未知事實的行為。這意味著新模型更傾向于承認“我不知道”,或請求用戶提供更多來源或搜索權限。這種看似“冷淡”或“保守”的行為,對于依賴其準確性的專業用戶來說,恰恰是信任的基礎。
![]()
(圖片由AI生成)
3. 專業領域的終極對決:數據分析、PPT與編碼
YouTube網紅博主埃利奧特·普林斯(Eliot Prince)則對三大模型進行了一番深度對比評測。他將GPT 5.2、Claude Opus 4.5和Google Gemini這三大模型置于復雜的專業任務中進行檢驗,包括制定SEO(搜索引擎優化)策略、生成PPT和編碼。
![]()
1、SEO策略與數據分析:Claude “一擊制勝”
測試人員上傳了數千行關鍵詞數據,要求模型制定一份完整的SEO專題權威性(Topical Authority)戰略和主題地圖。
· Claude Opus 4.5:表現最佳,速度最快,并且“一擊制勝”。 它利用Claude Skills自動應用品牌化設置,輸出了帶有品牌Logo、品牌顏色(紫色和石灰綠)的專業化表格,內容包含內容細分、搜索意圖、建議頁面類型和優先級信息。
· ChatGPT 5.2: 思考了大約15分鐘。最初輸出略顯混亂,需要第二次嘗試和提供模板(另一個電子表格)才輸出可用的、按內容主題分類的關鍵詞集群,其中能包含搜索量、關鍵詞難度等專業數據。這表明GPT 5.2具有很強的可引導性,但初始的自主性不如Opus。
· Google Gemini: 效果較差,難以利用。它只輸出了一個“可憐的”小文件,即使測試人員多次追問,也只給出CSV文本信息或Python代碼,需要用戶手動復制粘貼并進行文本分列處理,效率低下且體驗極差。
![]()
(圖片由AI生成,圖示不代表實際效果)
總結:在需要品牌化、一站式交付復雜數據分析結果的任務中,Claude Opus 4.5毫無疑問是贏家。
2、PPT生成:GPT 5.2的“史詩級”圖表
為了滿足客戶對視覺化策略的需求,測試人員要求三個模型分別生成PPT。
![]()
· ChatGPT 5.2:思考了14分鐘,但結果可謂“史詩級”(epic)。 盡管設計中規中矩,但成功生成動態的動畫圖表,能迅速展示流量機會,并且提供了詳細的30到45天可交付成果路線圖。
· Claude Opus 4.5: 完成速度很快。PPT成功應用了評測人員的品牌顏色(森林綠和石灰綠),并且布局精美。但其下一步行動的細節不如GPT 5.2詳盡。
· Google Gemini: 再次表現不佳,更傾向于輸出Python腳本或純文本。最終生成的PPT也是文本過多,圖表很少,看起來“很像AI生成的”,且難以導出到Google Slides進行編輯。
![]()
(圖片由AI生成,圖示不代表實際效果)
總結:三大模型在制作PPT方面相對膠著。GPT 5.2以圖表深度和功能性略勝一籌;Opus 4.5則憑借品牌化交付能力再次脫穎而出。
3、編碼能力:功能、速度與發布
測試人員要求三個模型分別扮演資深前端工程師的角色,根據網站截圖重建一個具有交互性的專業設計網頁。
![]()
· ChatGPT 5.2: 花費時間比其他兩個長了5到10分鐘。但最終功能性略勝一籌。它不僅實現了測試人員要求的分享、定價等全部按鈕,甚至生成了完整的訂單表單和預約表單,增加了額外的深度和功能,考慮到了更多細節。
· Claude Opus 4.5: 完成得非常快。生成的頁面支持發布生成“工件”(artifact)并復制鏈接,使其可以成為一個實時的網頁或登陸頁,功能非常實用。設計也很優秀,包含漂亮的懸停效果和貨幣切換功能。
· Google Gemini: 最先完成,但缺乏全屏預覽和發布功能,需要調用外部HTML編輯器查看。交互性較差,頁面上的按鈕只是占位符,不能執行任何操作。
![]()
(圖片由AI生成,圖示不代表實際效果)
總結:GPT 5.2雖然耗時最長,但因其在構建完整表單等方面的深度和功能性而略微領先。
4.創意、視覺與上下文的暗戰
在生成郵件主題行和開頭黃金鉤子(Hook)的日常任務中,評測結果顯示,所有模型的表現都非常相似,沒有哪個模型展現出壓倒性的創意優勢。
專業分析指出,GPT 5.2為了換取可靠性,確實犧牲了一些創意發揮余地。 因此,推薦用戶根據需求切換模型:對于“創造性頭腦風暴、草稿或情感基調”的任務,可以選用GPT 5.1;而對于“編輯、精簡、事實性寫作、編寫規范或編碼”等任務,則應選擇GPT 5.2。
需要注意的是,雖然GPT 5.1寫作能力并不驚艷,但在分析P&L報表等長時任務中表現突出,能連續工作兩小時并交付準確、結構良好的總結。
在圖像生成方面,Gemini則意外獲勝。
測試人員給出了涉及視覺、分析和創意融合的任務:根據他上傳的個人簡歷,以《星球大戰》為主題生成一份有趣的職業生涯信息圖。
![]()
· ChatGPT 5.2: 表現極差。它在遵循內容政策時遇到問題,并且生成的圖像質量低劣,甚至無法拼寫正確的名稱或文字。
· Google Gemini(Nano Banana): 絕對碾壓,取得勝利。 它提取信息良好,生成清晰、拼寫正確且設計精美的圖形,甚至能根據指令添加“全息效果”。
· Claude Opus 4.5: 沒有內置圖像生成功能,但它嘗試通過編寫代碼來解決問題。最終成功生成了一個可發布、可交互的網頁信息圖,將職業生涯映射到《星球大戰》編年史,展現出強大的編碼適應能力。
![]()
(圖片由AI生成,圖示不代表實際效果)
最終Gemini在Nano Banana的加持下取得了明顯的勝利。當然,OpenAI自己也強調,GPT-5.2在圖表推理和軟件界面理解上的錯誤率降低了一半,表明視覺能力雖有進步,但圖像生成仍是短板。
此外,在用戶交互測評方面,Claude Opus 4.5的上下文窗口處理能力更勝一籌。當對話持續進行時,Opus 4.5開始壓縮舊的對話內容,使其在更長的時間內保持可用,從而避免了用戶不得不重新開始新聊天的煩惱。
此外,Opus 4.5的訓練還包含了一個被內部稱為“靈魂文檔”(Soul Document)的文件,其中明確了Anthropic的使命——開發安全、有益和可理解的AI,并警惕提示詞攻擊,這解釋了為何Opus在安全性和指令遵循方面表現出色。
5. 總結:模型定位與用戶選擇
GPT 5.2的發布,標志著AI巨頭間的競爭已經從追求 “最高基準分數”轉向追求“信任、安全、速度和成本”的實用產品戰略。模型的進步越來越專業化。
![]()
(圖片由AI生成)
· GPT 5.2 可謂是可靠的工作主力,它約束保持力卓越,指令遵循更嚴格,適合內容編輯、規范制定、長文分析、深度功能編程等任務。
· Claude Opus 4.5 堪稱品牌與數據大師,它速度快,且上下文窗口大幅優化,能一擊制勝。更適合復雜數據分析、創意草案、需要品牌化輸出的任務
· Google Gemini 則是視覺與效率方面的潛力股,更擅長圖像和信息圖生成、PDF數據提取等任務。視覺能力優秀,但專業任務的交付質量較低。
![]()
(圖片由AI生成)
所以,GPT-5.2到底值不值得用?答案很簡單:如果你需要一個嚴謹的“執行者”,請毫不猶豫地擁抱它;如果你需要一個靈動的“創作者”,請轉身尋找Claude。
OpenAI并沒有輸,它只是換了一條賽道。而作為用戶的我們,也該從“看熱鬧”的心態中走出來,開始思考如何用好這些越來越專業的“數字員工”了。
