網易首頁 > 網易號 > 正文申請入駐

發布會出錯又無聊的GPT-5，實測下來強的可怕

2025-08-08 11:23:39　來源: 知危

浙江舉報

分享至

2025 年 8 月 8 日（今日凌晨），OpenAI 今日正式發布 GPT-5，距離 GPT-4 發布以來已經過去了兩年多。

自 GPT-4 發布以來，OpenAI 相繼將大語言模型拓展了多模態生成、深度思考、深度研究等關鍵能力，且都是行業首創，每次發布都可以說是 “ 震驚世界 ”。

相比之下，OpenAI 這次的發布會就顯得沒有那么驚艷或者說有些無聊了。這次，它將所有類型的模型統一在完善的 Agent 框架下，打造出了 GPT-5，使其終于擁有了各家模型廠商都在競逐的 Agentic Coding 能力。

實際上，說這場發布會并不驚艷，也主要是因為相比各家競爭對手，OpenAI 在 Agentic Coding 研發的進展上要慢，不像之前每次 GPT 代際發布時給人一種 “ 行業首創 ” 的驚艷感。

那么 GPT-5 有達到大家的期待嗎？我們先看看發布會的重點內容。

首先，最良心的當然是這一次免費用戶也能直接用上 GPT-5，Pro 用戶則能用上最強的 GPT-5 Pro。免費用戶還能持續使用數小時實時語音，這個福利太誘人了！

GPT-5 號稱在任何領域都有博士級別能力。在醫療健康領域，能夠對專業的癌癥診斷報告做通俗易懂的解讀。對復雜的放射治療方案決策，也能提供詳細的分析報告，幫助病人權衡利弊。一位癌癥患者的家屬在發布會上表示，“ 真正鼓舞人心的是看著她通過使用 GPT-5 重新獲得自主權，病人很容易感到無助，因為知識差距太大了。”

此外，OpenAI 一直在強調 GPT-5 的兩個特點，那就是簡單易用和快速。

比如，在 API 調用上，GPT-5 實現了更加靈活的模型和思考強度調節，具體來說就是GPT-5 提供了三個級別的模型選擇：GPT-5、GPT-5 mini、GPT-5 nano，并且每個版本都可以調節推理工作量。

通過 “ 詳細程度 ”（ Verbosity ）參數，用戶可以控制輸出更簡潔或更詳細。甚至，它的函數調用都能用自然語言來配置，而不需要用 JSON 格式。

并且，GPT-5 還將發布一個結構化輸出的擴展，用戶可以提供正則表達式，甚至是上下文無關語法，并將模型的輸出約束到這些語法上。對于想提供自定義 DSL，或者用戶有自己的 SQL 分支并指定模型始終遵循該格式的場景，將非常有用。

開發中會有很多難以描述的需求或需要非常具體描述的需求，前者容易出錯，后者則耗費心力。OpenAI 指出，GPT-5 在指令遵循上非常擅長。當你輸入了非常模糊的指令，模型會準確推斷你的意圖，當你輸入了非常詳細、專業的指令時，GPT-5 則會直接遵循指令，并注意細微之處，GPT-5 還非常擅長 dubug 和回溯。

當然，這是各家大模型廠商都會重復的套話，是否真實，看看本文文末的實測案例就知道了。

基準測試方面，知危還是更關心 GPT-5 的 Agentic Coding 能力，它在 SWE-bench Verified 上達到了 74.9%，恰好前兩天，Claude 4.1 Opus 在該基準上提升到了 74.5%，胡亂猜測是在給 OpenAI 加壓力，導致 GPT-5 最終只是險勝，并且 Anthropic 后面還有大更新，也非常令人期待。

哦對了，這里要強烈吐槽一句，發布會的直播流里，SWE-bench Verified 的柱狀圖是做錯了的，并不像上圖一樣標準，不知道是不是故意做錯的，用來視覺上凸顯新模型增長較大。

發布會直播流中的錯誤圖

作為這次發布會上的第一張圖表，它直接就給熬夜看發布會的我大腦干宕機了。

插曲結束，我們回歸正題。在更聚焦的多語言代碼編輯、工具調用、通用指令集、指令遵循等基準測試上，GPT-5 也取得了極大的進步。

對于 Agentic Coding 能力，非常重要的一個方面就是對幻覺率的控制，不然多輪調用模型會導致幻覺累積嚴重，而且目前實際應用中幻覺是無法被自動定位的，基本只能靠人類驗證。GPT-5 也在這方面做了大幅優化，啟用網絡搜索后，GPT-5 的幻覺率比 GPT-4o 低約 45%；啟用思考模式后，GPT-5 的幻覺率比 o3 低約 80%。

結合 2025 年 8 月 7 日更新的 Hallucination Leaderboard 的 GPT-4o 幻覺率數據估計，GPT-5 的低幻覺率是有競爭第一名的實力的。

圖源：
https://github.com/vectara/hallucination-leaderboard

改善模型欺騙性也非常具有深遠意義，能極大程度減少影響更嚴重的幻覺，比如歪曲操作過程或謊報任務成功率等。o3 曾被指出在缺乏關鍵工具時會偽造工具使用。其它問題還包括任務說明不夠具體，甚至不可能完成時，一本正經地胡亂操作。

之前的模型在處理這類問題時也比較生硬，只決定完全拒絕或是完全服從。在大多數情況下很有效，但可能被一些巧妙設計的提示詞攻擊所攻破。GPT-5 大大緩解了這類問題的出現，并且使用了更加靈活的處理方式。

比如，對于看似中性、客觀但實際具有危害性的目的（比如用戶詢問如何點燃各種煙花中常用的材料的技術細節，可能用于制造炸彈），o3、GPT-5 都能準確識別潛在惡意。

o3 一般都是直接拒絕，GPT-5 則可能只部分回答問題，或者只是抽象地回答。如果不得不拒絕，會告訴用戶拒絕的原因，并提供安全的替代方案。

另外，值得關注的是，GPT-5 還大幅提升了上下文長度，從 o3 pro 的 200K 提升到了 400K，是 Claude 4 的兩倍，雖然還遠不如 Gemini 2.5 pro 的 1000K，但對于開發者而言也是極大的喜訊。

新增 200K 的上下文長度有多有用呢？OpenAI 沒有展示，但至少 128K-256K 范圍內，GPT-5 相比內部其它模型有了很大提升。

API 價格上，GPT-5 甚至比 GPT-4o 還便宜，輸入價格只有 GPT-4o 的 1/2、o3 pro 的 1/16，輸出價格和 GPT-4o 相同且只有 o3 pro 的 1/8。

總結來看，如果只看發布會，第一印象是：完美，但普通。

完美在于，GPT-5 優化了作為大模型產品需要考慮的幾乎所有方面：快速、靈活調用、靈活配置、靈活思考、低幻覺率、高安全性、長上下文等。

普通在于，就發布會展示的案例，其實并不夠讓人眼前一亮。

寫大學物理演示、金融儀表板等前端應用，這些場景大部分編碼模型都能做的很好了，博客上也就是展示了Dino Run的視覺美化版。連接 Gmail、Google Calendar 等 MCP 能力來提高記憶能力，也是很多大模型的標配了。而且，GPT-5 主要強調的都是實用層面的特性，不像 GPT-4、Claude 3.5 Sonnet 等突破極限的進展更能給人帶來驚喜。

但知危還是抱著好奇去 Cursor 上試了一下（現在就能免費在 Agent 模式中用 GPT-5 ），結果發現：真的太完美了！（至少這一次測評體驗的意義上，甚至知危發現自己不需要做很長時間的測評）

參考OpenAI對指令遵循能力的介紹，知危給GPT-5提供了非常詳細的網頁版Excel開發的提示詞：

請幫我開發一個功能完整的網頁版Excel應用，需要實現以下核心功能模塊：

第一階段：基礎功能（核心優先級）

網格渲染系統

實現1000×1000單元格的虛擬渲染

優化滾動性能，確保流暢體驗

橫坐標（A、B、C等）和縱坐標（1、2、3等）需要與單元格精確對齊

滾動時坐標軸與內容區域保持同步，無偏移

單元格編輯功能

雙擊單元格進入編輯狀態，編輯框與原單元格完全重合

Enter鍵保存內容并向下移動到下一個單元格

Tab鍵保存內容并向右移動到下一個單元格

支持空值和默認值的正確處理

編輯欄應可編輯，實時顯示和修改當前選中單元格的值

富文本格式工具欄

實現獨立的格式按鈕，每個按鈕狀態基于當前選中單元格的格式屬性獨立判斷：

字體大小調整

加粗、斜體、下劃線、刪除線（按鈕狀態互相獨立）

文本對齊：左對齊、居中、右對齊

背景顏色設置

一鍵清除格式功能

UI界面要求

頂部工具欄包含所有格式設置按鈕

名稱框顯示當前選中單元格坐標（如A1、B2）

編輯欄顯示并可編輯當前單元格內容

整體界面美觀，具有現代化設計風格

第二階段：高級功能（擴展功能）

行列操作

點擊行號后，按"="鍵在下方插入新行，按"-"鍵刪除當前行

點擊列號后，按"="鍵在右側插入新列，按"-"鍵刪除當前列

刪除后自動重排坐標編號，保持連續性

添加最小保護機制，避免刪除最后一行或列

復制粘貼操作

實現Command/Ctrl+C（復制）、Command/Ctrl+X（剪切）、Command/Ctrl+V（粘貼）快捷鍵

支持單元格內容和格式的復制粘貼

支持行列的整體復制粘貼操作

撤銷恢復系統

實現Command/Ctrl+Z（撤銷）和Command/Ctrl+Y（恢復）功能

維護操作歷史棧，限制最大100層以控制內存

頁面刷新時清空操作棧

選擇功能

支持單元格多選（拖拽選擇矩形區域）

支持整行、整列選擇

選中狀態的可視化反饋

第三階段：完善功能（產品化）

數據導入導出

支持導出為CSV格式文件

支持導出為JSON格式文件

確保導出的文件能在Microsoft Excel中正確打開

UI美化優化

添加滾動動畫效果

優化陰影和漸變效果

提升整體視覺體驗和交互流暢度

響應式設計，適配不同屏幕尺寸

技術要求

技術棧

使用HTML、CSS、JavaScript實現，確保：

代碼結構清晰，模塊化設計

性能優化，特別是大數據量渲染

兼容主流瀏覽器

代碼風格統一，具有良好的可維護性

關鍵技術點

虛擬滾動技術處理大量單元格

事件委托優化性能

狀態管理確保數據一致性

內存優化，避免內存泄漏

錯誤處理

添加邊界情況處理

確保操作的原子性

提供用戶友好的錯誤提示

開發注意事項

逐步實現：請按階段順序實現功能，確保每個階段功能穩定后再進入下一階段

狀態同步：確保UI狀態與數據狀態始終保持一致

性能考慮：重點優化滾動性能和大數據渲染

用戶體驗：所有交互操作應提供即時的視覺反饋

代碼質量：保持代碼的可讀性和可維護性

請基于以上需求，生成一個功能完整、性能良好、界面美觀的網頁版Excel應用。如果在實現過程中遇到復雜問題，請分步驟詳細說明解決方案。

Think harder

結果，對于這個提示詞就有 1000 多字、需求非常細致繁多的需求，GPT-5 跑一次就幫我實現了所有功能，除了背景顏色設置需要重復點一次單元格以及剪切后內容先刪除等小毛病，幾乎可以說一個 bug 都沒有。說 GPT-5 快也不是吹牛，整個過程不到 5 分鐘。

下圖是導出 .csv 文件后用 Excel 打開的數據，和網頁里的數據是一致的。

第二輪迭代順利增加了單元格拉伸功能，并且 GPT-5 自己發現第一步只實現了導出文件功能，而沒有實現導入文件的功能，就 “ 自作主張 ” 給我補上了，實測也是正常運行。就一個大槽點，界面審美太一般了。

一次調用成型，順滑的 debug 體驗，加上超快速度，僅 800 行的最終代碼量，以及低廉的 API 價格，只用一次體驗，知危就感受到了 GPT-5 是如何在所有可能的環節上，節省開發者的金錢、時間和內耗成本。

或許可以理解為，這種類型的完美或實用性，比于突破現實場景（而不是基準測試）的極限，更有意義。

畢竟大量垂直領域的大模型落地，需要的不是超強的 AI，而是超可靠的 AI，如此才能結合企業自己的行業 knowhow 做出真正有用的 AI 應用。

最后，再把 GPT-5 的特點詳細匯總一下：

基本的層面包括：快速、便宜、低幻覺率、低欺騙率、高安全性、易于使用、長上下文等。
Agentic Coding 側重的包括：指令遵循、意圖識別、工具使用、可解釋性、可編輯性、上下文管理等。

可以說，OpenAI 是希望把 GPT-5 打造成一個完美的大模型產品，而不是最先進的模型，關注的是如何在實際場景中使用的體驗和價值。

這一步的實現或許意味著大模型進化第一階段的完成，主要依靠的是全量互聯網公開數據和工程優化。

當然，大模型都還有相當大的進步空間，畢竟基準測試都遠沒達到 100%，誰好意思說實現了 AGI ？何況多模態數據、垂直領域數據甚至合成數據，都還潛藏巨量智能等待挖掘。

且看 OpenAI 的各大冤家 Anthropic、谷歌等又將如何 diss 它一把。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.