網易首頁 > 網易號 > 正文申請入駐

OpenAI十周年：獲迪士尼10億美元投資，發布“能搶白領工作”的GPT-5.2

2025-12-12 13:08:09　來源: TechWeb

北京舉報

分享至

【TechWeb】12月12日消息，OpenAI迎來10周年之際，一口氣官宣多項大事：

1、發布GPT-5.2系列3款大模型。GPT?5.2系列在通用智能、長上下文理解、智能體工具調用以及視覺方面都有顯著提升，性能全面碾壓谷歌Gemini 3 Pro和Anthropic Claude Opus 4.5。

2、獲得迪士尼10億美元投資，雙方達成協議，迪士尼成為 Sora的第一個主要內容授權合作伙伴。

作為這項為期三年的新授權協議的一部分，Sora將能夠生成由用戶提示的短視頻，供粉絲觀看和分享，這些視頻將基于迪士尼、漫威、皮克斯和星球大戰品牌中超過 200 個動畫、面具和生物角色，包括服裝、道具、車輛和標志性環境。ChatGPT Images 也將能夠將用戶的幾句話在幾秒鐘內轉化為完整生成的圖像。該協議不包括任何人物肖像或聲音。

Sora和ChatGPT Images預計將在2026年初開始制作迪士尼多品牌授權角色的粉絲視頻。

除了許可協議，迪士尼還將成為OpenAI的主要客戶，使用其API構建新產品、工具和體驗，包括迪士尼+，并為員工部署ChatGPT。

OpenAI創始人Sam Altman在10周年的公開信中表示：“我從未對我們的研究和產品路線圖，以及通向使命的總體視野感到如此樂觀。再過十年，我幾乎確信我們將建成超級智能。2035年的人們將能夠做到一些我們現在難以輕易想象的事情。”

GPT-5.2 三款模型齊發

OpenAI 推出最新大模型系列 GPT-5.2，將其定位為迄今為止最適合日常專業使用的模型，同時被視為在愈發激烈的代理型 AI競爭中的關鍵一步。

GPT-5.2 系列一共3款模型，全部上線：

? GPT?5.2 Instant（即時版）是一款高效而強大的日常工作與學習“主力模型”，在信息查詢、操作指南、步驟講解、技術寫作以及翻譯方面都有顯著提升，并延續了 GPT?5.1 Instant 更溫暖、更自然的對話風格。早期測試者特別指出，其解釋更清晰，能夠在一開始就呈現出關鍵信息。

? GPT?5.2 Thinking（思考版）專為更深入的工作而打造，幫助用戶以更高的完成度處理復雜任務，擅長編碼、長文檔總結、回答上傳文件相關問題、逐步推導數學與邏輯問題，以及通過更清晰的結構和更有用的細節支持規劃與決策。

? GPT?5.2 Pro（專業版）是應對高難度問題時最智能、最可靠的選擇，在需要高質量答案的場景中尤為適合。早期測試顯示，它的重大錯誤更少，在編程等復雜領域的表現也更為出色。

GPT-5.2 將從即日起陸續在 ChatGPT 中上線，率先向 ChatGPT Plus、Pro、Go、Business 和 Enterprise 等付費用戶開放。

在API價格方面，GPT-5.2的調用價格較上一代上調，輸入端1.75美元/百萬tokens（約合人民幣12.35元/百萬tokens）、輸出端14美元/百萬tokens（約合人民幣98.81元/百萬tokens）。GPT-5.2 Pro的定價為21美元與168美元/百萬tokens（約合人民幣148元與1185元/百萬tokens）。

GPT-5.2能力碾壓Gemini 3 Pro、超“專業打工人”

看一下GPT-5.2 系列的具體性能。

在OpenAI公布的SWE-Bench Pro、GPQA Diamond等8項基準測試中，GPT-5.2 Thinking的分數均超過谷歌Gemini 3 Pro和Anthropic Claude Opus 4.5。

OpenAI 表示，GPT?5.2 在通用智能、長上下文理解、智能體工具調用以及視覺方面都有顯著提升，使其在端到端執行復雜的真實任務時，比以往任何模型都更為出色。

相比 GPT-5.1，GPT-5.2 系列在制作電子表格、構建演示文稿、編寫代碼、理解長文本、處理圖像、調用工具以及執行復雜多步驟任務等方面都有明顯提升。該系列模型整體精度更高，幻覺更少，尤其是 Thinking 模型在專業場景下更適合用作高可靠性的智能代理內核。

從OpenAI 公開的數據來看，GPT?5.2 在眾多基準測試中都刷新了行業水平，包括 GDPval。

在GDPval 測試中，模型需要完成定義明確的知識型工作，內容涵蓋美國 GDP 貢獻度最高的9個行業中的44種職業。任務要求生成真實的工作成果，例如銷售演示文稿、會計表格、急診排班表、制造業圖表或短視頻。

在該評測中，GPT?5.2 Thinking 是首個達到或超過人類專家水平的模型。

根據人類專家評審的結果，GPT?5.2 Thinking 在 GDPval 的知識型任務中，那些人類專家耗費4-8小時完成的任務，有 70.9% 的對比項目表現優于頂尖行業專業人士或與其持平。這些任務包括制作演示文稿、電子表格以及其他專業產出。

同時，GPT?5.2 Thinking 的輸出速度比專家快 11 倍以上，成本卻不到人類專家的1%。

這表明，當與人類監督相結合時，GPT?5.2可以有效輔助完成日常由“白領”們來做的“專業工作”。

OpenAI舉例，在針對初級投資銀行分析師的內部電子表格建模任務的基準測試中（例如，為財富 500 強公司制作格式規范、引用完整的三表模型，或為私有化交易構建杠桿收購模型），GPT?5.2 Thinking 的平均任務得分較 GPT?5.1 提升了9.3%，由 59.1% 增至 68.4%。GPT?5.2 Thinking 生成的電子表格和幻燈片在復雜度與格式呈現上都有明顯提升。

編碼能力：

GPT-5.2 代表了自 GPT-5 以來在智能體編碼上的最大飛躍，并且在同價位中是業界領先的編碼模型。

GPT?5.2 Thinking 在評估真實軟件工程能力的基準測試 SWE-bench Pro 取得了 55.6% 的成績；在 SWEvbench Verified 測試中GPT?5.2 Thinking 取得了全新的最高成績80%。GPT?5.2 Thinking 在前端軟件工程方面也優于 GPT?5.1 Thinking。

長文本處理能力：

GPT?5.2 Thinking 在長上下文推理方面樹立了新的技術標桿。OpenAI MRCRv2 是一項用于測試模型整合長文檔中分散信息能力的評估，GPT?5.2 Thinking 在該評估中表現領先。在深度文檔分析，如需要跨數十萬 Token 關聯信息，GPT?5.2 Thinking 的準確性顯著高于 GPT?5.1 Thinking。在 4-needle MRCR 評測變體（最長可達 256k Token）中實現接近 100% 的準確率。

在實際應用中，這讓專業人士能夠使用 GPT?5.2 處理長文檔，例如報告、合同、研究論文、會議記錄和多文件項目，同時在數十萬 Token 的范圍內保持連貫性和準確性。因此，GPT?5.2 尤其適合深度分析、信息綜合以及復雜的多來源工作流程。

視覺能力：

GPT?5.2 Thinking是OpenAI目前最強的視覺模型，在圖表推理和軟件界面理解方面將錯誤率大幅降低，約減少了一半。

在日常專業場景中，GPT?5.2 Thinking能夠更準確地理解控制面板、產品截圖、技術圖示和可視化報告，從而支持金融、運營、工程、設計和客戶支持等以視覺信息為核心的工作流程。

工具調用能力：

GPT?5.2 Thinking 在 Tau2 bench Telecom 測試中取得了 98.7% 的全新優異成績，展示了它在長程、多輪任務中可靠使用工具的能力。

在對延遲敏感的場景中，GPT?5.2 Thinking 在 reasoning.effort=‘none’ 模式下也有顯著提升，性能大幅領先 GPT?5.1 和 GPT?4.1。

這意味著GPT?5.2 Thinking在處理端到端的工作流程更加穩健，例如處理客戶支持案例、從多個系統提取數據、執行分析以及生成最終結果，各步驟之間出現中斷的情況也會更少。

科學與數學能力：

GPT?5.2 Pro 和 GPT?5.2 Thinking 是OpenAI目前在科學和數學方面實力最強的模型。

在研究生級防 Google 問答基準測試 GPQA Diamond*中，GPT?5.2 Pro 取得了93.2%的成績，GPT?5.2 Thinking 緊隨其后，達到92.4%。

在專家級數學評測 FrontierMath (Tier 1–3)中，GPT?5.2 Thinking 樹立了新的技術標桿，解決了40.3%的問題。

隨著GPT-5.2大模型的發布，微軟董事長兼CEO Satya Nadella已在X平臺上發文宣布，GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系，并作為新的“默認推理模型”服務更多工作流場景。（宜月）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.