<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT5.2發布:屠榜?不,是OpenAI在補課

      0
      分享至


      作者 | 周一笑
      郵箱 | zhouyixiao@pingwest.com

      四個月前,GPT-5 發布時一堆人吐槽,跑分是高了,但聊天冷冰冰;一個月前,GPT-5.1 回應了這波差評,主打“更好聊、更好調”,算是把人味兒找回來了。

      結果還沒暖熱乎,Google 的 Gemini 3 就殺了過來,直接把 LMArena 榜單屠了個遍。緊接著 Anthropic 的 Claude Opus 4.5 也上線,在編程榜單上把 OpenAI 按在地上摩擦。

      于是就有了昨天凌晨的 GPT-5.2。

      這次發布的背景很微妙,就在幾天前,有媒體爆出 Sam Altman 在內部發了一封Code Red郵件,要求全公司集中資源改進 ChatGPT。雖然官方說 GPT?5.2 不是專門為 Gemini 3 趕出來的,但 Code Red 和發布時間點都說明:Gemini 3 至少加快了 OpenAI 把這版推向用戶的步伐。


      這一次,OpenAI 雖然繼續強調跑分相對5.1點提升,但還在反復突出一個關鍵詞:專業知識工作。

      換句話說,這次瞄準的不是“更好聊”,而是“更能干活”。

      1

      第一個在“真實工作”上打平人類專家的模型?

      這次 OpenAI 主推的新基準測試叫 GDPval:讓 AI 去做 44 種職業的真實工作任務,比如做 PPT、做表格、寫分析報告。

      成績是這樣的:



      • GPT-5.2 Thinking 在 70.9% 的任務上能打平或者贏過行業專家

      • 上一代 GPT-5 才 38.8%

      • Claude Opus 4.5 是 59.6%

      • Gemini 3 Pro 是 53.5%

      更夸張的是效率:速度快 11 倍,成本不到 1%

      當然,GDPval 是 OpenAI 自己搞的基準,還沒有被獨立驗證,所以這個打平人類專家的說法要打個問號。但即便打個折扣,從 38% 跳到 70%,這個提升幅度也很難忽視。

      Anthropic 的 Claude 最近在這類任務上同樣進步明顯,但從 5.2 的發力方向來看,OpenAI 顯然想在"AI 替代知識工作"這條賽道上搶先卡位。

      OpenAI官方也放了一些工作中的案例,比如,同樣是讓模型做一個勞動力規劃表格(包含員工人數、招聘計劃、流失率和預算影響),5.1 輸出的是一堆原始數據堆砌,5.2 則自動按部門分類、加上顏色標注和清晰的層級結構,看起來像是有人真的用心排過版。


      1

      Coding:前端又雙叒叕更強了

      編程能力也是 5.2 的重點宣傳方向。

      SWE-bench Pro:55.6%(5.1 是 50.8%,Gemini 3 Pro 是 43.3%,Claude Opus 4.5 是 52%)

      SWE-bench Verified:80%(和 Claude Opus 4.5 的 80.9% 基本打平,這個榜已經快刷到極限了)


      OpenAI 這次重點宣傳的是 SWE-bench Pro 而不是 Verified,角度是:Pro 版本場景更多樣、污染更少,更能反映真實的軟件工程能力。

      前端開發能力又上了一個臺階,特別是在 3D 場景渲染和復雜交互界面這塊。Cognition、Warp、JetBrains、Augment Code 這些合作伙伴都表示,5.2 在交互式編程、代碼審查和 bug 查找上都有可測量的提升。

      最直觀的是這個波浪模擬案例的對比,

      GPT-5.2 Thinking:

      Gemini 3 Pro:

      1

      更像數學家了

      數學能力是這次升級的另一個重頭戲。

      幾個關鍵數字:

      • FrontierMath(Tier 1-3):40.3%,創下新的行業紀錄,上一代 5.1 是 31%

      • AIME 2025:100%,滿分。這是第一個在不使用工具的情況下刷滿這個競賽數學基準的模型

      • GPQA Diamond(博士級科學問答):Thinking 版 92.4%,Pro 版 93.2%

      但最讓人印象深刻的,是 GPT-5.2 Pro 在一個真正的數學研究問題上的表現。

      OpenAI 在博客里提到,研究人員用 GPT-5.2 Pro 探索了一個統計學習理論中的開放問題,這個問題最早是在 2019 年的一個數學會議上提出的。在一個特定的高斯設定下,模型提出了一個證明思路,隨后被人類研究者驗證并擴展。

      這不是AI 從零發現物理定律那種科幻場景,但確實是一個 AI 在人類監督下提供了非平凡的數學洞見,而且經受住了專家審查。5.1 沒有被廣泛報道做到過這一點。

      用一位測試者的話說:5.1 像一個很強的數學家教和助手,5.2 開始有點"初級合作者"的意思了——尤其是配合代碼工具使用的時候。

      1

      API 漲價:OpenAI 的小心思

      5.2 的 API 漲價了。

      輸入輸出的單價都上調了約 40%:$1.75/百萬輸入,$14/百萬輸出。Pro 版本更貴,分別是 $21 和 $168。


      官方的解釋是:單價雖然漲了,但模型效率更高,完成同樣的任務消耗的 token 更少,所以"達到同等質量水平的總成本可能反而更低"。

      但如果花更少的 token 只能達到"同等質量",那升級的意義在哪兒?要是真的又好又省,直接說"更好更便宜"不就完了?

      說白了,模型確實變強了,但 OpenAI 選擇把效率提升的紅利收進自己口袋,而不是讓利給用戶。

      1

      幾個重點提升

      除了上面這些亮點,5.2 還有幾個實打實的提升:

      錯誤率降低 30%

      這一點其實很關鍵。很多人只盯著"智商"看,但實際用下來會發現,國產模型和海外頭部模型之間,幻覺控制的差距往往比純智力差距更影響體驗。5.2 的 Thinking 版本比 5.1 的錯誤率降低了 30%,在日常決策、研究和寫作場景下會更靠譜。


      長文能力提升

      以前長上下文是個老大難問題,塞太多內容進去模型就開始健忘。5.2 在 256k token 級別的測試中表現穩定,基本能把關鍵信息都記住。像合同審核、文獻梳理這種需要反復引用上文的場景,體驗會好很多。Box 反饋說,5.2 從長文檔中提取信息的速度快了 40%,推理準確率也提升了 40%。


      看圖能力

      圖表理解、軟件界面識別這塊錯誤率砍了一半。在 CharXiv Reasoning(科學論文圖表理解基準)上,5.2 Thinking 達到了 88.7%,比 5.1 提升了 8 個百分點以上。


      OpenAI 內部測試里,有人給模型一張低分辨率的主板照片,它能準確識別出關鍵元器件。這意味著以后扔給 AI 一張模糊的業務報表截圖,它大概率能直接把里面的數據結構化提取出來,這對做數據分析的人來說挺實用的,畢竟現在海外已經有不少人把 AI 當成數據分析的主力工具了。


      1

      Code Red 下的補課之作

      拉遠一點看,GPT-5.2 本質上是一次“補課”。

      從 8 月的 5.0 到 11 月的 5.1 再到 12 月的 5.2,四個月三個版本,這個節奏本身就說明問題:OpenAI 在被 Gemini 3 和 Claude Opus 4.5 逼著跑。結果就是PT?5.2 在 benchmark 上把很多榜單拉了回來,但真正有意義的是,它在長時知識工作、復雜編碼和 agent 工作流上的表現。

      另外也有觀點認為,這種緊急動員 + 小步快跑的節奏可能會成為常態,年底各家都可能還有新發布。好處是各家實驗室會被倒逼著把模型做得更快、更便宜、更能變現;壞處是大家都盯著短期 benchmark 卷,真正需要長期投入的基礎性突破可能會被擠壓。

      這次的社區的反饋也很多樣,做正事的用戶普遍覺得真香,長上下文、復雜推理確實更穩了;但陪聊黨和角色扮演玩家吐槽“5.2 冷冰冰的,像從好朋友變成了 HR”,人味兒又被收回去了,還有人吐槽說好的成人模式也遙遙無期。

      總結一下,如果你是 ChatGPT Pro 用戶,5.2 在需要深度分析、復雜推理的場景下值得一試——做 PPT、做表格、寫報告、啃長文檔,這些方面的進步是實打實的。

      但如果你期待的是日常聊天體驗的質變,可能要失望了。5.2 的真正價值,或許要等它接入 Codex 這類 agent 產品、開始真正替你跑腿干活的時候,才能完全釋放出來。

      屠榜不重要,能干活才重要。這一點,OpenAI 這次算是想明白了。


      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      人民日報社論《就是要徹底否定“文革”》刊發的臺前幕后

      人民日報社論《就是要徹底否定“文革”》刊發的臺前幕后

      紫京講談
      2025-12-31 09:49:43
      老話:元旦三不動,一動百財空,3不動分別指的是什么?答案來了

      老話:元旦三不動,一動百財空,3不動分別指的是什么?答案來了

      阿龍美食記
      2025-12-31 00:29:03
      融創中國成功賴賬600億元

      融創中國成功賴賬600億元

      地產微資訊
      2025-12-30 15:50:44
      36歲網紅“卡車西施”雪天行車不幸遇難!家里有植物人父親和兩孩

      36歲網紅“卡車西施”雪天行車不幸遇難!家里有植物人父親和兩孩

      火山詩話
      2025-12-30 13:28:04
      中資半導體企業,被英國政府強迫出售超80%股權!知情人士:預計損失重大,年底前需走完出售審批流程

      中資半導體企業,被英國政府強迫出售超80%股權!知情人士:預計損失重大,年底前需走完出售審批流程

      每日經濟新聞
      2025-12-31 00:46:25
      暴風雨的前夜——伊朗暴亂,代理人終結,以色列的警告:別惹我們

      暴風雨的前夜——伊朗暴亂,代理人終結,以色列的警告:別惹我們

      老王說正義
      2025-12-31 00:03:53
      河北農民為何舍不得開啟燃氣壁掛爐采暖了

      河北農民為何舍不得開啟燃氣壁掛爐采暖了

      且隨他
      2025-12-31 11:39:44
      高市早苗“嚇傻了”,我國正式宣布這一決定!網友:早該這樣了

      高市早苗“嚇傻了”,我國正式宣布這一決定!網友:早該這樣了

      瞳哥視界
      2025-12-30 20:19:20
      越南遭遇暴擊,從巔峰到崩盤僅僅8天!

      越南遭遇暴擊,從巔峰到崩盤僅僅8天!

      一個壞土豆
      2025-12-30 20:07:26
      2026國補來了!汽車消費補貼由“定額”改為“按比例”(附對照表)

      2026國補來了!汽車消費補貼由“定額”改為“按比例”(附對照表)

      每日經濟新聞
      2025-12-31 09:14:06
      期待的事終于發生!美武器運輸船和飛機被攔截?臺軍購路線或被斷

      期待的事終于發生!美武器運輸船和飛機被攔截?臺軍購路線或被斷

      科普100克克
      2025-12-30 18:18:40
      財政部、稅務總局:個人將購買2年以上的住房銷售,免征增值稅

      財政部、稅務總局:個人將購買2年以上的住房銷售,免征增值稅

      數據說經濟
      2025-12-30 20:09:40
      羅永浩凌晨發文稱患ADHD:如換藥失敗,或不能用鍛煉徹底改善體能問題,將不再舉辦大型活動;此前其“科技春晚”遲到40多分鐘才出現引熱議

      羅永浩凌晨發文稱患ADHD:如換藥失敗,或不能用鍛煉徹底改善體能問題,將不再舉辦大型活動;此前其“科技春晚”遲到40多分鐘才出現引熱議

      極目新聞
      2025-12-31 07:52:11
      雙臂勁刮、泡沫深凈,實測感受追覓T60 Ultra洗地機“權威實力”

      雙臂勁刮、泡沫深凈,實測感受追覓T60 Ultra洗地機“權威實力”

      中國家電網
      2025-12-30 13:22:01
      70后飛行員翻臉將小22歲情人告上法庭,讓其歸還700多萬元!女方堅稱無罪:十幾年的“情債”怎么變成我詐騙了?

      70后飛行員翻臉將小22歲情人告上法庭,讓其歸還700多萬元!女方堅稱無罪:十幾年的“情債”怎么變成我詐騙了?

      環球網資訊
      2025-12-31 07:42:37
      國家明令要求!2026年起,小區物業必須給業主發這5大補貼!

      國家明令要求!2026年起,小區物業必須給業主發這5大補貼!

      今朝牛馬
      2025-12-30 15:36:19
      1499元飛天茅臺登陸i茅臺,元旦起開放申購

      1499元飛天茅臺登陸i茅臺,元旦起開放申購

      觀察者網
      2025-12-30 19:52:16
      馬傳德:明眼人都知道,他們的財產來自哪里

      馬傳德:明眼人都知道,他們的財產來自哪里

      紫京講談
      2025-12-27 10:38:47
      世界級峽谷懸索橋矮寨大橋3顆螺栓松了?管養單位:巡檢已發現將維修,不影響結構安全

      世界級峽谷懸索橋矮寨大橋3顆螺栓松了?管養單位:巡檢已發現將維修,不影響結構安全

      上游新聞
      2025-12-30 12:40:06
      這是有多大的仇,才會氣急敗壞到這種程度!

      這是有多大的仇,才會氣急敗壞到這種程度!

      胖胖說他不胖
      2025-12-30 11:00:08
      2025-12-31 13:03:00
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      2758文章數 10424關注度
      往期回顧 全部

      科技要聞

      老羅,演砸了,也封神了?

      頭條要聞

      杭州一業主群來了豪氣鄰居 砸1600萬給小區外立面升級

      頭條要聞

      杭州一業主群來了豪氣鄰居 砸1600萬給小區外立面升級

      體育要聞

      2025全球射手榜:姆巴佩66球 梅西第6C羅第9

      娛樂要聞

      告別2025年!大S、方大同離世青春退場

      財經要聞

      朱光耀:美關稅政策正使WTO名存實亡

      汽車要聞

      奇瑞QQ3量產版曝光! 軸距2米7配8155芯片

      態度原創

      健康
      數碼
      教育
      房產
      公開課

      這些新療法,讓化療不再那么痛苦

      數碼要聞

      五部門:做好2026年家電以舊換新、數碼和智能產品購新補貼工作

      教育要聞

      新年獻詞——很多事兒,不到一定年齡想不明白

      房產要聞

      瘋了!2025海南拿地榜巨變:榜首狂砸80億,民企火力全開!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日产国产精品亚洲系列| 永寿县| 久久精品电影| 一区二区国产精品精华液| 18岁以下禁止观看的网站| 毛片内射久久久一区| 92久久精品一区二区| 昌图县| 专区国产无码| 香蕉久久国产AV一区二区| 久久精品国产精品亚洲毛片| 鄯善县| 在线亚洲国模九九| 99久久亚洲综合精品成人| 一本色道久久综合无码人妻 | 亚洲国产午夜精品福利| 99久久婷婷国产综合精品| 日韩精品成人一区二区三区| 国产九九在线| 苍井空大战黑人| 日韩成人无码| 欧美无人区码suv| 无码人妻aⅴ一区二区三区有奶水| 久久av高潮av| 蜜桃久久精品成人无码av| 各种少妇正面着bbw撒尿视频| 狂野欧美激情性xxxx| 超碰狠狠干| 丰满少妇被猛烈进入无码| 一本色道久久综合亚洲精品不卡| 99国内精品久久久久久久| 乱人伦??国语对白| 正在播放夫妇露脸自拍| 国产精品福利自产拍在线观看| 色一情一乱一伦一区二区三区| 夜夜躁狠狠躁日日躁视频| 攀枝花市| 黑丝足交在线| 亚洲青青草视频在线播放| 国产成人一区二区三区| 中文字幕少妇人妻|