<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.2 發布|信息全整理

      0
      分享至

      上周,

      剛剛,GPT-5.2 來了,包含三個版本

      • ? GPT-5.2 Instant :日常對話,快

      • ? GPT-5.2 Thinking :深度任務,代碼、長文檔、數學、規劃

      • ? GPT-5.2 Pro :最強,適合難題,愿意等

      模型肯定是更強的,比如在AIME 2025 中取得滿分,在 ARC-AGI-2 上拿到了 52.9%(和 Gemini3 相當)

      今天開始向付費用戶推送,API 已上線,標準版比 GPT-5.1 貴 40%


      GPT-5.2 核心評測

      如下圖所示,是 GPT-5.2 的相關核心數據


      GPT-5.2 Benchmark

      注意:

      • ? AIME 2025 滿分(無工具)

      • ? GPT-5.2 Pro 在 ARC-AGI-1 上達到 90.5%,是第一個突破 90% 的模型

      • ? ARC-AGI-2 從 17.6% 到 52.9%,翻了三倍

      處理真實工作

      GDPval 是 OpenAI 新出的 benchmark

      測的是 44 個職業的真實工作任務:
      做 PPT、做表格、寫分析報告

      GPT-5.2 Thinking 在 70.9% 的任務上勝過或打平行業專家
      GPT-5.2 Pro 更高,74.1%


      GDPval 知識工作

      速度是人類專家的 11 倍,成本不到 1%
      一個評審員的評價:
      「看起來像是一個有員工的專業公司做的,布局和建議都很專業,雖然還有一些小錯誤需要修正」

      在投行分析師的表格建模任務上
      比如給 Fortune 500 公司做三表模型、做 LBO 模型
      平均分從 59.1% 提升到 68.4%

      官方放了幾個對比
      GPT-5.2 做的表格和 PPT 比 GPT-5.1 精細很多


      Workforce Planner 對比,左邊 GPT-5.1,右邊 GPT-5.2

      要用這個功能,需要付費版(Plus、Pro、Business、Enterprise),選 GPT-5.2 Thinking 或 Pro

      復雜任務可能要跑好幾分鐘

      寫代碼

      SWE-Bench Pro 是新的代碼 benchmark
      比 SWE-bench Verified 更難

      測四種語言,不只是 Python,更接近真實軟件工程
      GPT-5.2 Thinking 55.6%,GPT-5.1 是 50.8%


      SWE-Bench Pro

      前端能力也提升了,尤其是 3D 和復雜 UI
      官方放了幾個 demo,單 prompt 生成的


      海浪模擬,單 prompt 生成

      對此,Windsurf 的 CEO 表示
      「這是 GPT-5 以來 agentic coding 最大的躍升,版本號的小幅升級低估了智能的大幅提升。我們會把它設為 Windsurf 和 Devin 核心工作流的默認模型」

      看圖

      視覺能力提升明顯,錯誤率基本減半


      CharXiv Reasoning

      CharXiv Reasoning:科學論文圖表問答,88.7%,GPT-5.1 是 80.3%

      ScreenSpot-Pro,GUI 截圖理解,86.3%,GPT-5.1 是 64.2%

      此外,一個很明顯的區別是:空間位置理解更強了
      官方放了個主板識別的對比:給一張低質量的主板圖片,讓模型標注各個組件的位置

      GPT-5.1 只能標幾個,位置也不太對


      GPT-5.1 主板識別

      GPT-5.2 能準確標注各個組件,位置基本對


      GPT-5.2 主板識別 長文檔

      OpenAI MRCRv2,測的是長文檔中多個信息點的整合能力
      在文檔里插入多個相同的「針/needl」,然后問模型第 n 個針的內容是什么

      4 needle 變體,GPT-5.2 Thinking 在 256k token 長度接近 100%
      GPT-5.1 在同樣長度只有 30% 左右

      這是第一個在 4-needle 變體上達到接近 100%(256k)的模型


      長上下文 4 needles

      8 needle 更難,GPT-5.2 也有顯著提升


      長上下文 8 needles

      API 還支持新的 /compact 端點,可以擴展有效上下文窗口,適合工具多、跑得久的任務

      工具調用

      Tau2-bench 測的是多輪對話中的工具使用,模擬客服場景
      Telecom 領域,GPT-5.2 Thinking 98.7%,GPT-5.1 是 95.6%
      Retail 領域,82.0%,GPT-5.1 是 77.9%


      工具調用

      官方舉了個例子
      用戶說:我從巴黎飛紐約的航班延誤了,錯過了轉機去奧斯汀,行李也丟了,需要在紐約過夜,還有醫療原因需要前排座位

      GPT-5.1 漏了好幾步


      GPT-5.1 工具調用

      GPT-5.2 一次性處理完:改簽、特殊座位、賠償,全部搞定


      GPT-5.2 工具調用 數學和科學

      AIME 2025 100%,滿分,無工具
      HMMT 2025 年 2 月 99.4%,Pro 版 100%
      GPQA Diamond 92.4%,Pro 版 93.2%
      FrontierMath Tier 1-3 40.3%,Tier 4 14.6%
      HLE(Humanity's Last Exam)34.5%(無工具),45.5%(有工具)


      數學&科學

      ARC-AGI 是測抽象推理的

      ARC-AGI-1,GPT-5.2 Thinking 86.2%,Pro 版 90.5%,第一個突破 90%

      ARC-AGI-2 更難,GPT-5.2 Thinking 52.9%,Pro 版 54.2%

      GPT-5.1 Thinking 在 ARC-AGI-2 上只有 17.6%


      ARC-AGI 幻覺

      在 ChatGPT 真實用戶查詢上測試

      有錯誤的回復比例從 8.8% 降到 6.2%,相對減少 30%


      幻覺率 價格

      漲了
      GPT-5.2 比 GPT-5.1 貴 40%;GPT-5.2 Pro 的價格,一如既往的貴到離譜


      每百萬 token 價格

      官方解釋:雖然單價更高,但 token 效率更高,達到同樣效果的總成本反而更低

      ChatGPT 訂閱價格不變

      可用性

      ChatGPT 今天開始向付費用戶推送:Plus、Pro、Go、Business、Enterprise
      如果還沒看到,過幾天再試

      GPT-5.1 在 ChatGPT 中還會保留三個月,之后下線
      API 已經上線:

      • ? gpt-5.2 :Thinking 版

      • ? gpt-5.2-chat-latest :Instant 版

      • ? gpt-5.2-pro :Pro 版

      在 PlayGround 里面,可以看到這些模型

      新增 xhigh reasoning effort,適合對質量要求最高的任務
      GPT-5.1、GPT-5、GPT-4.1 在 API 中暫時不會下線
      Codex 優化版即將推出

      安全

      延續了 GPT-5 的 safe completion 研究
      在自殺、自殘、心理健康、情感依賴等敏感對話上的表現改進了


      安全性評估

      開始部署年齡預測模型,18 歲以下用戶自動限制敏感內容
      官方說過度拒絕的問題還在改進中

      最后

      總結下本次發布的內容

      • ? Code Red 一周后,GPT-5.2 發布,三個版本

      • ? 性能更強,價格更貴

      • ? 今天開始向付費用戶推送,API 已上線


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      深夜大瓜!曝闞清子生下女兒沒保住,沒有膀胱和肛門,產前狀態差

      深夜大瓜!曝闞清子生下女兒沒保住,沒有膀胱和肛門,產前狀態差

      阿纂看事
      2025-12-24 09:19:51
      別說是成龍了,換作誰看到這顏值,都會笑得合不攏嘴吧!

      別說是成龍了,換作誰看到這顏值,都會笑得合不攏嘴吧!

      小椰的奶奶
      2025-12-25 00:41:16
      失業的人越來越多了

      失業的人越來越多了

      曹多魚的財經世界
      2025-12-24 14:56:20
      反轉!龐叔令《亞洲周刊》怒撕劉芳菲節目:請的龐氏后人是冒牌貨

      反轉!龐叔令《亞洲周刊》怒撕劉芳菲節目:請的龐氏后人是冒牌貨

      鋭娛之樂
      2025-12-24 15:51:40
      北斗、GPS同時被干擾!栗正杰:殺敵一千自損八千

      北斗、GPS同時被干擾!栗正杰:殺敵一千自損八千

      看看新聞Knews
      2025-12-21 20:41:10
      林詩棟新教練到位!王勵勤的“王牌”能帶他沖破天花

      林詩棟新教練到位!王勵勤的“王牌”能帶他沖破天花

      眼界看視野
      2025-12-24 20:48:02
      18場打入15球送出5次助攻,菲利克斯聽C羅的話去沙特,是對了

      18場打入15球送出5次助攻,菲利克斯聽C羅的話去沙特,是對了

      星耀國際足壇
      2025-12-24 23:39:03
      英國首富、戴森公司創始人將6.24億英鎊轉至新加坡,其英國實體股本被削減至1英鎊

      英國首富、戴森公司創始人將6.24億英鎊轉至新加坡,其英國實體股本被削減至1英鎊

      紅星新聞
      2025-12-24 21:58:21
      廣東臺的衰敗:從“萬人空巷”到“無人問津”,被誰奪走了靈魂

      廣東臺的衰敗:從“萬人空巷”到“無人問津”,被誰奪走了靈魂

      阿訊說天下
      2025-12-24 17:14:51
      被攻擊后 快手直播緊急拉閘前的兩小時

      被攻擊后 快手直播緊急拉閘前的兩小時

      新京報
      2025-12-24 09:39:29
      醫學博士:腫瘤越來越高發,我們究竟被隱瞞了什么?

      醫學博士:腫瘤越來越高發,我們究竟被隱瞞了什么?

      深度報
      2025-12-21 23:01:02
      降息,突發大消息!黃金直線跳水!中概股,拉升!

      降息,突發大消息!黃金直線跳水!中概股,拉升!

      證券時報e公司
      2025-12-24 23:23:36
      A股:股民站穩扶好,深夜傳來4大利好,周四將迎更大級別行情?

      A股:股民站穩扶好,深夜傳來4大利好,周四將迎更大級別行情?

      股市皆大事
      2025-12-24 19:55:36
      “荒唐”的事一直在發生,真是太諷刺了!

      “荒唐”的事一直在發生,真是太諷刺了!

      高三倒計時
      2025-12-24 15:21:26
      俄羅斯為何將烏克蘭兒童送往朝鮮

      俄羅斯為何將烏克蘭兒童送往朝鮮

      桂系007
      2025-12-24 23:56:30
      對手:很榮幸碰C羅!他是僅次于梅西的世界老二!致敬魯尼!

      對手:很榮幸碰C羅!他是僅次于梅西的世界老二!致敬魯尼!

      氧氣是個地鐵
      2025-12-24 17:10:11
      美日對中國最恐懼的是海南封關,如果成功,推廣全國就天下無敵了

      美日對中國最恐懼的是海南封關,如果成功,推廣全國就天下無敵了

      我心縱橫天地間
      2025-12-24 16:47:33
      蘿莉島的骯臟超乎想象,克林頓喜歡年輕女孩,科學家霍金竟是常客

      蘿莉島的骯臟超乎想象,克林頓喜歡年輕女孩,科學家霍金竟是常客

      趣文說娛
      2025-12-24 18:50:15
      斯普利特:楊瀚森在防守端犯了幾個錯誤,克林根保護籃板更好

      斯普利特:楊瀚森在防守端犯了幾個錯誤,克林根保護籃板更好

      懂球帝
      2025-12-24 15:05:06
      秦嵐的腳部照片在網上爆紅,這背后是否有利益鏈的爭議?

      秦嵐的腳部照片在網上爆紅,這背后是否有利益鏈的爭議?

      動物奇奇怪怪
      2025-12-22 05:25:09
      2025-12-25 02:03:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      224文章數 12關注度
      往期回顧 全部

      科技要聞

      智譜和MiniMax拿出了“血淋淋”的賬本

      頭條要聞

      幼兒園8人遇難學生家屬:女兒4歲 今年9月才入讀

      頭條要聞

      幼兒園8人遇難學生家屬:女兒4歲 今年9月才入讀

      體育要聞

      26歲廣西球王,在質疑聲中成為本土得分王

      娛樂要聞

      懷孕增重30斤!闞清子驚傳誕一女夭折?

      財經要聞

      北京進一步放松限購 滬深是否會跟進?

      汽車要聞

      “運動版庫里南”一月份亮相???或命名極氪9S

      態度原創

      親子
      藝術
      健康
      本地
      公開課

      親子要聞

      園長駕車送幼兒8人落水遇難:幼兒園已停業,學生分流至附近園所

      藝術要聞

      巨星劉德華1000萬善款建村,為何如今竟成山間“空心村”?

      這些新療法,讓化療不再那么痛苦

      本地新聞

      云游安徽|一川江水潤安慶,一塔一戲一城史

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 尤物yw午夜国产精品视频| 宜君县| v一区无码内射国产| 日日碰狠狠添天天爽| 女人被做到高潮视频| 久久精品国产99久久六动漫| 久久伊人中文字幕| 栖霞市| 国产一区二区三区乱码在线观看 | 亚洲国产成人精品女人久久久| 都市激情 在线 亚洲 国产| 欧美黑人巨大videos精品| 夜夜撸日日干| 在线色综合| 国产成人综合在线女婷五月99播放| 少妇熟女久久综合网色欲| 久久av色欲av久久蜜桃网| 一级黄视频| 日本女V片| 都市激情 在线 亚洲 国产| 久久高潮少妇视频免费| jizzjizz韩国| 99中文视频| 国产精品国产三级在线专区| 成人AV专区精品无码国产| 人妻精品久久久久中文字幕69| av免费网站| 男女做爰猛烈吃奶啪啪喷水网站 | 精品无人码麻豆乱码1区2区| 亚洲AV无码久久久久网站蜜桃| 亚洲第一成人网站| 亚洲精品二| 在线播放无码高潮的视频| 搡老熟女老女人一区二区| 香蕉97人妻免费碰碰碰| 一本久久伊人热热精品中文字幕| 男人j进入女人j内部免费网站| 爆乳日韩尤物无码一区| 白朗县| 白丝乳交内射一二三区| 国产喷水1区2区3区咪咪爱av|