<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.2首發評測:大神深度體驗兩周,強到離譜,但慢得抓狂

      0
      分享至


      ↑閱讀之前記得關注+星標??,,每天才能第一時間接收到更新

      為了緊急對抗谷歌的Gemini 3 ,OpenAI 剛剛推出了GPT-5.2,sam Altman 叫喊這是很長時間以來最大的更新


      基準測試分數官方的發布博客文章都有,跑分屠榜,編程能力非常強,但現在的這些分數看看就好了,感興趣的看這里

      https://openai.com/index/introducing-gpt-5-2/


      GPT-5.2 的幻覺減少了大約 30-40%


      價格更貴了


      另外圣誕節還有發布,估計是圖像模型更新?ChatGPT 的“成人模式”目前計劃于明年第一季度推出


      這里我分享一下大神OthersideAI CEO Matt Shumer 對 GPT-5.2 深度評測,這哥們已經拿到內測兩周了

      核心要點先放在前面:

      指令遵循和任務意愿:GPT-5.2 Thinking 在指令遵循和嘗試完成困難任務的意愿上,邁出了有意義的一步

      代碼生成能力提升巨大:比 GPT-5.1 好得多。能力更強、更自主、更謹慎,并且愿意編寫多得多的代碼

      視覺和長上下文:大幅改進,尤其是在理解圖像中的位置和處理大型代碼庫方面

      速度是主要缺點:作者體驗中,Thinking 模式在處理大多數問題時都非常慢(盡管其他測試者反饋不一)。他幾乎從不使用 Instant 模式

      GPT-5.2 Pro:在深度推理方面強到離譜,但速度很慢,而且偶爾會陷入長時間思考后仍然失敗的境地

      Codex CLI:GPT-5.2 是作者在命令行工具中使用過的最接近 Pro 級編碼能力的模型,但實現這一能力的高級推理模式有時需要漫長的等待

      以下是詳細評測內容。

      GPT-5.2 Thinking:直覺的提升

      GPT-5.2 最引人注目的地方在于它遵循指令的方式——不是基礎的“我說你做”,而是“真正完成我所描述的整個任務”

      作者舉了一個例子。在測試創意寫作時,他要求模型先想出50個情節構思,然后再選出最好的一個來寫故事。大多數模型會走捷徑,可能只給出10個想法,選一個就開始。

      而 GPT-5.2 確實生成了全部50個構思,然后才進行選擇。這聽起來是小事,但并非如此。在進行創意工作或研究時,多出來的40個想法中可能就包含了那個真正有趣的火花。模型信任流程,而不是為了速度而優化,這一點至關重要。

      作者進一步測試,要求它寫一本200頁的書。雖然書頁內容本身很弱且簡短,模型還無法一次性寫出可出版的小說,但令人印象深刻的是,它確實嘗試去做了。它構建了整本書的結構,甚至設置成了PDF格式。大多數模型會假設自己做不到,甚至不會嘗試,它們會告訴你“這太長了”,或者只給你一個大綱

      GPT-5.2 則是直接上手。這種愿意嘗試宏大任務(即便不完美)的意愿,開啟了新的工作流。

      代碼生成:真正的進步

      GPT-5.2 在代碼生成方面確實比以前的模型有了巨大進步。它寫的代碼質量更高,能處理的任務也更龐大

      例如,作者用 Three.js 動畫來壓力測試其空間推理能力。他要求模型構建一個棒球場景,它生成的風格比大多數模型更逼真(紋理/光照效果很棒),但空間感知和物體放置仍有很大改進空間


      此外,該模型愿意編寫比之前版本多得多的代碼,并且能持續工作更長時間不中斷。這是實實在在的能力提升。

      視覺和長上下文

      5.2 版本的視覺能力有顯著提升。它對圖像的理解,特別是位置和空間關系,有了很大的不同(盡管空間生成能力仍在開發中)。這對操作計算機的智能體來說是個好消息。

      它的長上下文能力也很出色。在處理大型代碼庫、大量數據和長篇分析時感覺比以前更穩定,這也是 GPT-5.2 在智能體編碼工作流中表現出色的原因之一。

      作者在這里吐槽了一點:模型已經變得如此強大,但 OpenAI 的 ChatGPT 界面卻完全沒跟上。例如,ChatGPT 中的 Canvas 界面仍然無法處理大量代碼。他最初在 Canvas 中嘗試 Three.js 測試,但模型輸出的代碼量超出了 Canvas 的處理能力

      另外,Pro 模式仍然只能在 ChatGPT 內部使用,而不能在 Codex CLI 中使用,這讓作者持續感到沮喪。為了解決這個問題,他使用一個叫 RepoPrompt 的工具:將本地代碼庫轉成提示詞粘貼給 5.2 Pro,再把模型的回答粘貼回 RepoPrompt,由后者將變更應用到代碼庫。雖然多了一個步驟,但這讓他能在真實代碼庫上利用 Pro 級別的推理能力。

      風格

      用過 OpenAI 模型的人都知道它們對項目符號(bullet points)的執著。GPT-5.2 延續了這一傳統。當你讓它解釋某件事時,往往會得到一個項目符號列表,而其實幾段清晰的文字效果會更好。通過精心設計提示詞(比如明確要求流暢的散文風格),可以規避這個問題。

      除了項目符號,寫作風格整體有所改善。雖然不是對 GPT-5.1 的巨大飛躍,但確實更好了一些

      積極的一面是,GPT-5.2 學會了在回答中保持簡潔。當我問一些簡單問題時,偶爾能得到簡單的答案。作者表示,雖然這還沒成為默認行為,但已是進步。

      速度問題

      這一點影響了作者的日常使用:標準的 GPT-5.2 Thinking 很慢。根據他的經驗,即使是簡單直接的問題,速度也非常非常慢。不過,他也提到其他測試者報告了不同的速度表現,有些任務快,有些任務慢。

      在實際工作中,這意味著他很少使用 GPT-5.2 Thinking。他的工作流變成了:

      • ? 快速問題 → Claude Opus 4.5

      • ? 深度推理 → GPT-5.2 Pro

      標準的 Thinking 模型處于一個尷尬的中間地帶:比 Opus 慢,又沒有 Pro 完整的推理優勢。

      各模型橫向對比

      作者同時使用 Claude Opus 4.5、Gemini 3 Pro 和 GPT-5.2,它們在他的工作流中形成了明確分工:

      用于快速提問:“X的語法是什么”或“提醒我Y如何工作”這類問題Claude Opus 4.5 勝出。它更快,更直接。

      用于研究和復雜推理:GPT-5.2 Pro 明顯更勝一籌。當任務需要從多個角度思考、需要整合大量上下文時,Pro 的表現最優

      用于前端UI生成:GPT-5.2 Thinking 和 Pro 都比之前的 GPT 模型有進步,但兩者都不及 Gemini 3 Pro。這里的區別很微妙:Gemini 3 Pro 有最好的審美感,其 UI 看起來很棒。但它在布局和前端工程方面的可靠性稍差。所以,如果需要功能正確、能處理邊緣情況的UI,作者還是會用 Opus 或 GPT。如果只是追求漂亮,并愿意自己修復代碼,Gemini 3 Pro 是目前最佳選擇

      GPT-5.2 Pro:一個緩慢的天才

      Pro 模式是真正有趣的地方。它是一個獨立的系統,且只在 ChatGPT 中可用。

      簡而言之:Pro 聰明到離譜。Thinking 和 Pro 之間的智能差距立即可見。但比原始智能更重要的是 Pro 的思考意愿。它會花費比以往 Pro 模型長得多的時間來解決一個問題。對于研究任務,如果需要,它會進行極長時間的資料搜集。

      食譜測試

      作者舉了一個具體例子。他向模型尋求膳食計劃幫助,并強調自己“沒有時間做飯”,需要一個7天的計劃(每天三餐兩點)。

      Pro 提供了出色的食譜計劃,但最突出的是它的配料表——比其他模型建議的簡單得多。它理解了“沒時間”不僅限制了烹飪時間,也限制了購物的復雜性、準備工作和心力開銷。它領會了作者的心態,而不僅僅是字面請求。

      作者表示,看到這種程度的理解相當令人震驚。他把同樣的提示發給了所有其他前沿模型,沒有一個考慮到這一點。

      提示詞編寫

      GPT-5.2 非常擅長編寫提示詞,這對于充分利用 AI 模型和構建集成 LLM 的軟件都很有幫助。它寫的提示詞考慮周到,并且能預見到作者未曾考慮的邊緣情況。在這方面,它與 Claude Opus 4.5 不相上下,并且明顯優于 Gemini 3 Pro。

      Codex CLI 實測

      在 Codex CLI 中,作者對 GPT-5.2 進行了廣泛測試,結果是越用越印象深刻。這是他所見過的在命令行中最接近 Pro 級模型的體驗。它一次性做對的頻率遠超其他工具。美中不足的是,他只能使用“超高推理模式”,這個模式有時會花費漫長的時間,甚至比 Pro 還慢。

      其自主性比以前的模型有明顯提升。但真正的區別在于它收集上下文的方式。Claude Opus 4.5 傾向于在完全理解問題前就開始寫代碼,它會做出假設,然后碰壁。

      而 GPT-5.2 不會這樣。它會先提問、讀取文件、探索代碼庫。先收集上下文,再編寫代碼

      這改善了作者的工作流。他檢查模型工作的次數越來越少。除非任務至關重要(例如生產代碼),他常常讓它直接運行而不審查每一處更改。

      一些小怪癖

      作者也遇到了一些 Pro 模式的奇怪行為。它似乎會卡在相互沖突的指令之間,在猶豫幾分鐘后,把一個簡單的任務退回給用戶。偶爾,它會思考很長時間,然后仍然失敗,這非常浪費時間。據稱 OpenAI 已經知曉并正在調查。

      使用場景總結

      經過兩周測試,作者給出了他的實用分工:

      1. 1. 快速提問和日常任務Claude Opus 4.5 仍是首選。它快、準,不浪費時間。

      2. 2. 深度研究、復雜推理GPT-5.2 Pro 是目前最好的選擇。在這種場景下,正確性比速度更重要。

      3. 3. 前端樣式和UI美學Gemini 3 Pro 目前能生成最好看的結果,但需要準備好自己做一些工程清理工作。

      4. 4. 在 Codex CLI 中進行嚴肅的編碼工作GPT-5.2 是首選,其上下文收集行為和可靠性使其成為智能體編碼任務的默認選項。

      最后總結

      GPT-5.2 是一次真正的改進。指令遵循能力明顯提高,Pro 模式的智能和可靠性令人印象深刻。對于需要審慎推理的復雜任務,這是作者用過的最好的模型。

      然而,標準 Thinking 模型的速度問題使他日常很少使用。他最終的用法是:快速任務用 Opus 4.5,深度工作用 Pro。

      但對于那些 GPT-5.2 擅長的任務,它的表現確實非常亮眼

      source:

      https://shumer.dev/gpt52review

      --end--

      最后記得??我,每天都在更新:歡迎點贊轉發推薦評論,別忘了關注我

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      AI寒武紀 incentive-icons
      AI寒武紀
      專注于人工智能,科技領域
      1024文章數 393關注度
      往期回顧 全部

      專題推薦

      洞天福地 花海畢節 山水饋贈里的“詩與遠方

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 夜夜cao| www成人国产高清内射| 亚洲精品日韩在线观看| 中文字幕无码人妻aaa片| 国产大片黄在线观看| 丰腴饱满的极品熟妇| 日日躁狠狠躁| 翼城县| 人妻aⅴ久久久北条麻妃| 亚洲在线中文字幕| 国产一级真人做受| 人人妻人人狠人人爽| 99久久久国产精品消防器材| 艳妇荡女欲乱双飞两中年熟妇| 亚洲a∨无码无在线观看| 国产无遮挡吃胸膜奶免费看| 日本熟妇浓毛| 综合激情五月综合激情五月激情1| 一卡二卡三卡| 天堂无码av| 95在线一区| 亚洲精品国产一卡二卡| 131美女爱做视频| 亚洲av成人在线| 色欲人妻aaaaaaa无码| 激情欧美日韩一区二区| 337p日本欧洲亚洲大胆色噜噜| 天天色av| 无吗人妻一区二区| av中文在线| 国产v亚洲v天堂a无码| 国产乱人伦1区2区3区| 久热国产vs视频在线观看| 色欲色香综合网| 欧美怡春院| 中国老熟妇自拍hd发布| 乱码精品一区二区三区| 欧美v国产v亚洲v日韩九九| 亚洲熟妇无码八av在线播放| 在线视频精品中文无码| 国内精品国产三级国产99|