網易首頁 > 網易號 > 正文申請入駐

GPT-5能讓普通人變成博士，但魔法依舊沒有

2025-08-08 10:15:51　來源: 直面派

北京舉報

分享至

千呼萬喚始出來的GPT-5終于在昨天晚上1點問世，在持續了一個小時10分鐘的發布會上，OpenAI向世人展示了一個性能絕對強大，更加易用，甚至能夠理解或者說準確猜測用戶真實意圖并且交付符合預期的產品的大模型。

用Sam Altman在發布會上的話來說，GPT-5在各個領域都能達到博士的知識水平，能力可以比肩專業人士，從而讓普通人能夠完成以前自己無法想象的工作。

相比于OpenAI兩年前發布GPT-4時，整個世界對于大模型的認知和體驗已經充分得多。觀眾和用戶已經不會對模型能夠看懂網絡梗圖這種事情感到驚嘆不已。但是作為一個幾乎每天都會使用AI產品的人來說，GPT-5的發布依然足夠驚艷。

最重要的原因就是，從發布會上傳達出的內容，我能深切地感受到，OpenAI想讓大模型已經從一個“玩弄”語言和“智能”，不時讓人感受到驚喜和挫敗的大玩具，加速進化到一個生活中的可靠幫手。就像你的手機一樣，如果你離開它，你將深刻地感受到不方便，不習慣，甚至不安全。

下面我將用發布會的幾個瞬間來幫助大家理解這一切是怎么發生的。

孩子讓你給他解釋流體力學中的伯努利公式，以前的AI可能給你一篇文章，GPT-5能按照你的要求，一句話直接給你做一個可以互動的頁面。

你想學習法語，GPT-5能按照你的要求去生成一個像多鄰國一樣的學習應用，你可以用來背單詞，還能通過貪食蛇來幫你復習。如果你對生成的應用有不滿意的地方，也可以直接通過自然語言讓GPT-5幫你修改。

如果你是一個創業公司的CFO，你可以讓GPT-5用大概3分鐘的時間，根據你的所有數據，生成一個詳細的財務狀況的可互動的演示板。而你需要的僅僅是一個100字左右的描述。GPT-5可以從零生成代碼，保證完成，它能猜測你想呈現的形式并自動幫你優化代碼和呈現的效果。

最夸張的是，演示中OpenAI的工作人員直接用3段提示詞，就讓GPT-5生成了一個帶射擊小游戲功能的城堡3D模型，還能和城堡上的士兵聊天。你點擊周圍的氣球，就能發射彈藥把氣球打爆，同時還會伴隨爆炸的音效。

從演示中我們可以看出，GPT-5已經全面進化成為一個直接輸出專業產品的萬能百寶箱。

但是說實話，最讓我感到觸動的，是OpenAI關于醫療健康方面能力的介紹。OpenAI邀請了一個從3種癌癥中康復的患者，讓她聊了聊自己在抗癌過程中GPT-5給她的幫助。

她說，當她得到診斷結果的時候，醫生給她提供了幾種治療方案進行選擇。她在求助了GPT-5之后，才真正理解了自己面臨的情況，而將自己的情況和GPT-5詳細聊過之后，她做出了最適合自己的選擇，最終戰勝了病魔，獲得了重生。她很難想象如果沒有GPT-5的專業建議，完全沒有醫療專業知識的自己如何能夠理解醫生給她的方案和選擇，更不知道最后自己是否能挺過來。

看完發布會之后，能清晰地感覺到，大模型技術本身已經進入了一個相對穩定的發展曲線。GPT-5發布代表著OpenAI也沒有其他“魔法”，讓大模型能力產生跨越式的發展。而接下來的AI巨頭們的冷兵器戰爭，將會越加焦灼。

性能介紹

模型系統

GPT-5 不再是一個模型，而是一個模型系統：

? 自動切換器判斷查詢意圖

? 簡單問題路由到聊天版本（極速響應）

? 復雜問題路由到推理版本（深度思考）

256k token上下文窗口，支持文本和圖像輸入，支持函數調用和結構化輸出。

目前打開我自己的ChatGPT，發現左上角的模型選項已經默認為“GPT-5”，而且下拉選項中也不再能看到前代模型。正如奧特曼之前就承諾過的——GPT-5時代將不會再有繁瑣的模型選擇，由模型自行判斷用戶在當下情境是需要快速響應，還是需要深度思考和推理。

編碼和寫作

OpenAI將GPT-5稱為“我們迄今為止最強大的編碼模型”，在復雜的前端生成和大型代碼庫的調試方面表現出色。它通常只需一次提示就能創建美觀且響應迅速的網站、應用程序和游戲，并兼具美感，直觀而優雅地將創意轉化為現實。

此外，OpenAI也稱GPT-5是“我們迄今為止最強大的寫作工具”，可以寫出引人入勝、富有文學深度和節奏感的文本。它能夠更可靠地處理結構模糊的寫作，例如持續不押韻的抑揚格五音步或流暢自然的自由詩，將對形式的尊重與清晰的表達相結合。這意味著 ChatGPT 能夠更好地幫助用戶完成日常任務，例如起草和編輯報告、電子郵件、備忘錄等。

我們也淺淺嘗試了一下新模型的作詩能力，以“秋天的第一杯奶茶”為題，的確比GPT-4要自然很多（AI味兒沒那么重了）。

評估

GPT-5 的全面智能化程度顯著提升，這體現在它在學術和人工評估基準測試中的表現上，尤其是在數學、編碼、視覺感知和健康領域。

它在數學（AIME 2025 無需工具測試得分 94.6%）、真實世界編碼（SWE-bench Verified 得分 74.9%，Aider Polyglot 得分 88%）、多模態理解（MMMU 得分 84.2%）和健康（HealthBench Hard 得分 46.2%）方面均創下了新的最高水平——這些提升在日常使用中得到了充分體現。

憑借 GPT-5 pro 的擴展推理能力，該模型還在GPQA上創下了新的最高水平，無需工具測試得分高達 88.4%。

GPT-5已經在LMArean登頂。

在Intelligence Analysis獲得的預覽訪問中，GPT-5同樣獲得了第一名。

幻覺降低

在啟用搜索的情況下，GPT-5出現事實性錯誤的概率比GPT-4o降低約45%。在“思考（thinking）”模式下，這一概率比OpenAI o3降低80%。

除了事實性錯誤之外，AI還經常“睜著眼睛說瞎話”，比如明明做不到/沒有權限做的事情，它也許會元氣滿滿地告訴你已經搞定了，GPT-5在“欺騙”方面也表現得更好、更誠實。例如，為了測試這一點，OpenAI從多模態基準測試 CharXiv 的提示中刪除了所有圖像，結果發現 OpenAI o3 仍然能夠以 86.7% 的概率對不存在的圖像給出自信的答案，而 GPT-5 的這一比例僅為 9%。

更“高效”，更“節省”

在OpenAI的評估中，GPT-5（具備思考能力）的表現優于 OpenAI o3，在視覺推理、代理編碼和研究生水平的科學問題解決等功能上，輸出 token 數量減少了 50% 至 80%。

也就是說，GPT-5 用更少的思考時間實現了更大的價值。

API

API價格方面，GPT-5性能最強，價格卻低得離譜，看來OpenAI是掌握了跨代的優化方法。

OpenAI和奧特曼對GPT-5無疑是寄予厚望的，他們也清楚，外界期待這一代模型已經很久。

奧特曼稱，這還是第一次，真的像是在與某個領域的專家對話。如果說GPT-4o是大學生，那GPT-5就是博士級的專家。

這種重視，在發布會時長上也有所體現，以往的新模型發布，OpenAI的線上發布會只有半個小時左右，這次持續了一個小時以上。而奧特曼本人，也在發布會進行的同時，在X（前推特）上發帖進行“文字直播”。

不過也許是心急，發布會PPT里出現大錯誤——在“SWE-bench（人工驗證版）”相關的圖表中，條形圖明顯不對。GPT-5不加思考（thinking）的準確率為52.8%，在圖上卻高于OpenAI o3是69.1%，而o3的69.1%，又和GPT-4o的30.8%一樣高。

所以很尷尬的一幕出現了：奧特曼在“文字直播”發布會，很多網友卻在評論區發這張截圖，戲謔OpenAI離了大譜的圖表。

奧特曼倒是大方轉發了消息并且稱已經改正，一些粉絲認為這只是無心之失。但不少人卻覺得這是“有意為之”，是為了讓GPT-5顯得厲害在圖表上玩花招，甚至稱之為“本世紀最大的圖表犯罪”。

這大概也在表明，GPT-5的發布會沒能讓所有人信服，不少人開始問“GPT-6什么時候出”。

馬斯克已經跳出來，直言兩周前發布的Grok 4 Heavy比GPT-5更智能。

而一向喜歡潑冷水的AI學者蓋里·馬庫斯（Gary Marcus）在贊揚GPT-5有很多良好進展的同時，稱這“并非一個巨大的飛躍”，GPT-5也夠不上外界的期待。

“顯然不是AGI。”

GPT-5是否足夠好？還需要更多時間檢驗。也許OpenAI能從中學到的教訓就是——做好外界的預期管理，不要拖延太久。

歡迎在評論區留言~
如需開白請加小編微信：dongfangmark

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.