【TechWeb】12月12日消息,OpenAI迎來10周年之際,一口氣官宣多項大事:
1、 發布GPT-5.2系列3款大模型。GPT?5.2系列在通用智能、長上下文理解、智能體工具調用以及視覺方面都有顯著提升,性能全面碾壓谷歌Gemini 3 Pro和Anthropic Claude Opus 4.5。
![]()
2、獲得迪士尼10億美元投資,雙方達成協議,迪士尼成為 Sora的第一個主要內容授權合作伙伴。
![]()
作為這項為期三年的新授權協議的一部分,Sora將能夠生成由用戶提示的短視頻,供粉絲觀看和分享,這些視頻將基于迪士尼、漫威、皮克斯和星球大戰品牌中超過 200 個動畫、面具和生物角色,包括服裝、道具、車輛和標志性環境。ChatGPT Images 也將能夠將用戶的幾句話在幾秒鐘內轉化為完整生成的圖像。該協議不包括任何人物肖像或聲音。
Sora和ChatGPT Images預計將在2026年初開始制作迪士尼多品牌授權角色的粉絲視頻。
除了許可協議,迪士尼還將成為OpenAI的主要客戶,使用其API構建新產品、工具和體驗,包括迪士尼+,并為員工部署ChatGPT。
OpenAI創始人Sam Altman在10周年的公開信中表示:“我從未對我們的研究和產品路線圖,以及通向使命的總體視野感到如此樂觀。再過十年,我幾乎確信我們將建成超級智能。2035年的人們將能夠做到一些我們現在難以輕易想象的事情。”
GPT-5.2 三款模型齊發
OpenAI 推出最新大模型系列 GPT-5.2,將其定位為迄今為止最適合日常專業使用的模型,同時被視為在愈發激烈的代理型 AI競爭中的關鍵一步。
GPT-5.2 系列一共3款模型,全部上線:
? GPT?5.2 Instant(即時版) 是一款高效而強大的日常工作與學習“主力模型”,在信息查詢、操作指南、步驟講解、技術寫作以及翻譯方面都有顯著提升,并延續了 GPT?5.1 Instant 更溫暖、更自然的對話風格。早期測試者特別指出,其解釋更清晰,能夠在一開始就呈現出關鍵信息。
? GPT?5.2 Thinking(思考版)專為更深入的工作而打造,幫助用戶以更高的完成度處理復雜任務,擅長編碼、長文檔總結、回答上傳文件相關問題、逐步推導數學與邏輯問題,以及通過更清晰的結構和更有用的細節支持規劃與決策。
? GPT?5.2 Pro(專業版)是應對高難度問題時最智能、最可靠的選擇,在需要高質量答案的場景中尤為適合。早期測試顯示,它的重大錯誤更少,在編程等復雜領域的表現也更為出色。
GPT-5.2 將從即日起陸續在 ChatGPT 中上線,率先向 ChatGPT Plus、Pro、Go、Business 和 Enterprise 等付費用戶開放。
![]()
![]()
在API價格方面,GPT-5.2的調用價格較上一代上調,輸入端1.75美元/百萬tokens(約合人民幣12.35元/百萬tokens)、輸出端14美元/百萬tokens(約合人民幣98.81元/百萬tokens)。GPT-5.2 Pro的定價為21美元與168美元/百萬tokens(約合人民幣148元與1185元/百萬tokens)。
GPT-5.2能力碾壓Gemini 3 Pro、超“專業打工人”
看一下GPT-5.2 系列的具體性能。
在OpenAI公布的SWE-Bench Pro、GPQA Diamond等8項基準測試中,GPT-5.2 Thinking的分數均超過谷歌Gemini 3 Pro和Anthropic Claude Opus 4.5。
OpenAI 表示,GPT?5.2 在通用智能、長上下文理解、智能體工具調用以及視覺方面都有顯著提升,使其在端到端執行復雜的真實任務時,比以往任何模型都更為出色。
相比 GPT-5.1,GPT-5.2 系列在制作電子表格、構建演示文稿、編寫代碼、理解長文本、處理圖像、調用工具以及執行復雜多步驟任務等方面都有明顯提升。該系列模型整體精度更高,幻覺更少,尤其是 Thinking 模型在專業場景下更適合用作高可靠性的智能代理內核。
從OpenAI 公開的數據來看,GPT?5.2 在眾多基準測試中都刷新了行業水平,包括 GDPval。
![]()
在GDPval 測試中,模型需要完成定義明確的知識型工作,內容涵蓋美國 GDP 貢獻度最高的9個行業中的44種職業。任務要求生成真實的工作成果,例如銷售演示文稿、會計表格、急診排班表、制造業圖表或短視頻。
在該評測中,GPT?5.2 Thinking 是首個達到或超過人類專家水平的模型。
根據人類專家評審的結果,GPT?5.2 Thinking 在 GDPval 的知識型任務中,那些人類專家耗費4-8小時完成的任務,有 70.9% 的對比項目表現優于頂尖行業專業人士或與其持平。這些任務包括制作演示文稿、電子表格以及其他專業產出。
同時,GPT?5.2 Thinking 的輸出速度比專家快 11 倍以上,成本卻不到人類專家的1%。
這表明,當與人類監督相結合時,GPT?5.2可以有效輔助完成日常由“白領”們來做的“專業工作”。
OpenAI舉例,在針對初級投資銀行分析師的內部電子表格建模任務的基準測試中(例如,為財富 500 強公司制作格式規范、引用完整的三表模型,或為私有化交易構建杠桿收購模型),GPT?5.2 Thinking 的平均任務得分較 GPT?5.1 提升了9.3%,由 59.1% 增至 68.4%。GPT?5.2 Thinking 生成的電子表格和幻燈片在復雜度與格式呈現上都有明顯提升。
編碼能力:
GPT-5.2 代表了自 GPT-5 以來在智能體編碼上的最大飛躍,并且在同價位中是業界領先的編碼模型。
![]()
GPT?5.2 Thinking 在評估真實軟件工程能力的基準測試 SWE-bench Pro 取得了 55.6% 的成績;在 SWEvbench Verified 測試中GPT?5.2 Thinking 取得了全新的最高成績80%。GPT?5.2 Thinking 在前端軟件工程方面也優于 GPT?5.1 Thinking。
長文本處理能力:
GPT?5.2 Thinking 在長上下文推理方面樹立了新的技術標桿。OpenAI MRCRv2 是一項用于測試模型整合長文檔中分散信息能力的評估,GPT?5.2 Thinking 在該評估中表現領先。在深度文檔分析,如需要跨數十萬 Token 關聯信息,GPT?5.2 Thinking 的準確性顯著高于 GPT?5.1 Thinking。在 4-needle MRCR 評測變體(最長可達 256k Token)中實現接近 100% 的準確率。
![]()
在實際應用中,這讓專業人士能夠使用 GPT?5.2 處理長文檔,例如報告、合同、研究論文、會議記錄和多文件項目,同時在數十萬 Token 的范圍內保持連貫性和準確性。因此,GPT?5.2 尤其適合深度分析、信息綜合以及復雜的多來源工作流程。
視覺能力:
GPT?5.2 Thinking是OpenAI目前最強的視覺模型,在圖表推理和軟件界面理解方面將錯誤率大幅降低,約減少了一半。
![]()
在日常專業場景中,GPT?5.2 Thinking能夠更準確地理解控制面板、產品截圖、技術圖示和可視化報告,從而支持金融、運營、工程、設計和客戶支持等以視覺信息為核心的工作流程。
工具調用能力:
GPT?5.2 Thinking 在 Tau2 bench Telecom 測試中取得了 98.7% 的全新優異成績,展示了它在長程、多輪任務中可靠使用工具的能力。
![]()
在對延遲敏感的場景中,GPT?5.2 Thinking 在 reasoning.effort=‘none’ 模式下也有顯著提升,性能大幅領先 GPT?5.1 和 GPT?4.1。
這意味著GPT?5.2 Thinking在處理端到端的工作流程更加穩健,例如處理客戶支持案例、從多個系統提取數據、執行分析以及生成最終結果,各步驟之間出現中斷的情況也會更少。
科學與數學能力:
GPT?5.2 Pro 和 GPT?5.2 Thinking 是OpenAI目前在科學和數學方面實力最強的模型。
在研究生級防 Google 問答基準測試 GPQA Diamond*中,GPT?5.2 Pro 取得了93.2%的成績,GPT?5.2 Thinking 緊隨其后,達到92.4%。
![]()
在專家級數學評測 FrontierMath (Tier 1–3)中,GPT?5.2 Thinking 樹立了新的技術標桿,解決了40.3%的問題。
隨著GPT-5.2大模型的發布,微軟董事長兼CEO Satya Nadella已在X平臺上發文宣布,GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系,并作為新的“默認推理模型”服務更多工作流場景。(宜月)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.