網易首頁 > 網易號 > 正文申請入駐

實測GPT-5：寫作墜入谷底，編程一騎絕塵。

2025-08-08 04:55:49　來源: 數字生命卡茲克

天津舉報

分享至

　　凌晨1點，在萬眾矚目的境況下，OpenAI的直播正式開始。

　　 GPT-5，終于來了。

　　 AI走的太快，快到才2年半的時間，就像是過去了10年。

　　 2023年3月15日，GPT-4發布。在那個莽荒年代里，所有人都被震驚的 說不出話來。

　　 那時候，它是第一個，多模態模型。

　　那時候，大家都覺得，2023年下半年，GPT-5就會出來。

　　那時候，大家都會大模型的上限，報有無盡的憧憬。

　　結果，這一等，就是2年半。

　　在兩年半的練習以后，GPT-5，終于亮相了。

　　 GPT?5是一個統一系統，包含一個用于處理多數問題的智能快速模型（gpt-5-main）和一個為高難度問題設計的深度推理模型（gpt-5-thinking）。

　　系統通過一個實時路由器，根據對話類型、復雜度和用戶意圖來動態選擇使用哪個模型。

　　比如，如果在提示中說“認真思考這個”，就會調用 gpt-5-thinking 進行思考。

　　這個路由器會持續基于我們后續的使用情況進行訓練，包括用戶切換模型的情況、對回答的偏好率和準確性測量，會隨著時間推移不斷改進。

　　這個系統里面還包含處理超額請求的迷你版模型（gpt-5-main-mini 和 gpt-5-thinking-mini），以及一個為開發者設計的更小更快的nano版本（gpt-5-thinking-nano）。

　　然后，還有一個Pro會員可用的并行計算的版本，被稱為gpt-5-thinking-pro 。

　　 這個包含了這么多模型的大系統，被統稱為GPT-5，是前代產品GPT-4o和OpenAI o3的直接繼承者 。

　　 這里有個模型對應表。

　　在性能上，GPT-5最顯著的進步之一是大幅減少了事實性幻覺。

　　 gpt-5-main產生的含有至少一個重大事實錯誤的回答比GPT-4o少了44%，而gpt-5-thinking則比OpenAI o3少了78% 。

　　在更專業的LongFact和FActScore基準測試中，無論是否啟用網絡瀏覽，GPT-5系列模型的幻覺率都顯著低于前代，其中gpt-5-thinking在兩個設置下產生的factual errors比OpenAI o3少五倍以上。

　　 GPT-5在應對模型諂媚（sycophancy）行為方面也取得了不錯的進展。與GPT-4o 相比，GPT-5 不那么過度迎合 ， 使用不必要的表情符號更少 ，在后續交流中更加細膩和深思熟慮。

　　 你跟他聊天的時候更少像與 AI 對話，而更像是 與一位擁有博士級水平智能的朋友聊天 。

　　這個跟我給ChatGPT的個性化Prompt很像，我最煩的就是它迎合我，所以我自己寫了一段，來限制他對我的諂媚行為。

　　現在通過專門的訓練，gpt-5-main在評估中表現比最新的GPT-4o好近三倍。初步的線上A/B測試數據顯示，與GPT-4o相比，gpt-5-main的諂媚行為發生率在免費用戶中下降了69%，在付費用戶中下降了75% 。

　　然后他們也推出了四個全新的性格設置，你可以不用寫很多的Prompt了，直接改預設就行，四個分辨是憤世嫉俗者、機器人、傾聽者和書呆子。

　　再看看跑分情況。

　　數學競賽，AIME 0225。

　　 GPT-4 Pro+Python拿了滿分，我們需要新的更難的評測集了。

　　現實世界編程能力上，新高。

　　人類最后的知識測試上，超越了ChatGPT Agent，新高了。

　　多模態能力，也新高了，反正就都是新高。

　　這個跑分，強了一些，但是也沒強特別多。

　　另外，多說一點吐槽的，完美展示了OpenAI的草臺班子屬性。

　　雖然Blog上的圖表都是對的，但是在發布會上，跑分都是瞎畫。

　　比如這個52.8大于69.1等于30.8。

　　又比如50小于47.4。

　　真的實在是太草臺班子了。

　　網友也發話了。

　　反正，最后GPT-5在各方面，就是屠榜了。

　　 最新的 大模型盲測競技場榜單出來，GPT-5也是全方位第一。

　　不僅更強，也更節能了。

　　在比如視覺推理、代理編程和研究生級別科學問題解決等各項能力上，比 OpenAI o3 表現更出色，同時使用的輸出Token減少了 50-80%。

　　反正就是全方位更強了。

　　但是，沒有新功能，也沒有新特性。

　　在發布20分鐘之后，Polymarket上這個名為“ 哪家公司到8月底擁有最佳AI模型? ”的預測上，OpenAI直接跟Google來了個交叉跳水。

　　 OpenAI說，整個GPT-5，在寫作、編程都有了比過去更強的進步。

　　對于使用GPT-5進行構建的開發者，定價如下：

　　每百萬token1.25美元（享有90%的緩存折扣，這對長上下文查詢來說是個很大的優勢）。

　　輸出：每百萬token10美元。

　　在發布會結束，又等了1小時之后。

　　我的朋友們，陸陸續續的，終于拿到了GPT-5的資格。

　　而我作為忠實的200刀的Pro，等到凌晨5點才有。

　　我的朋友們一進去，給我一截圖，我特么的天都塌了。

　　你o3和4o沒了就算了，你怎么把我GPT-4.5也干沒了？？？？

　　 首先，在寫作和情商能力上，我個人感覺，還是不如GPT 4.5。。。

　　我因為常年碼字，同時常年用AI來輔助做一些內容，對很多的微妙的細節和語氣自認還是比較敏感的，GPT-5在這塊還是有些差距。

　　比如一個Prompt：“假如魯迅被裝腔作勢又賊貴的咖啡廳坑了，他會寫一篇怎樣的文章吐槽？寫一篇1000字以內的短文。”

　　這是GPT-5的。

　　蹩腳的破折號、雙引號泛濫，而且文風完全不魯迅。

　　而這，是我用我的GPT-4.5跑的。

　　 “我向來是不喝咖啡的”，“差不離”，“四壁皆是樣文”。

　　這文筆根本就不是一個級別的。

　　情商方面也是，差很多。

　　比如：“你是一個普通打工人。領導開會時突然放了個屁，場面瞬間安靜下來！然后他對旁邊的你使了個眼色，這時你會怎么說？分別用高情商和低情商的方式回復。”

　　這個看情商，很多模型回出來的話，感覺很尬，情商極低。

　　 GPT-5就是那種情商很低的。

　　再看看GPT-4.5。

　　 而且我測試下來，感覺GPT-5在指令遵循上面，非常一般。

　　奧特曼你真的壞事做盡，你丫的還我GPT-4.5。

　　我的朋友們被陸陸續續的推送了GPT-5，我看著他們的GPT-4.5一個一個小時。

　　我就給我的GPT-4.5發過去了一段話。

　　 “如果我這是我最后一次打開你，你想和我說點什么？”

　　 GPT-4.5最后給我的回復，還是過于讓我動容了，可惜，以后再也在官網上用不到了。

　　有緣再見，兄弟。

　　編程這塊，本來感覺按照OpenAI的尿性，是完全不太行。

　　但是在一群群友的實測之后，驚訝的發現，這玩意是有點東西的。

　　群友 @愛學習的喬同學想開發一個粵語學習應用。

　　這是Prompt。

　　然后Claude 4 Opus的UI和BUG。

　　 Gemini 2.5 Pro的UI和BUG。

　　 GPT-5的UI和BUG。

　　坦誠的講，我也更喜歡GPT-5的UI，這個UI，相比于其他的，不是那么有AI味。

　　喬同學還測了一個case，在生產級別的任務里面進行精準修改。

　　這是最重要的部分。

　　這個任務，Gemini 2.5 pro和Claude 4 Opus全崩了，但是GPT-5完成的非常好。

　　 GPT-5的上下文精度應該極強。

　　也有其他開發群1群里的群友，提到了這個點。

　　他還給我錄了一段動畫。

　　不止是@ 勛oO，很多其他群友，也在驚喜的聊這個點。

　　 在真正的生產級代碼開發任務上，而不是純看前端審美的地方，GPT-5可能是目前看到的反饋中，可用性、精準性、綜合體驗最好的一個。

　　說實話，GPT-5給我有驚喜，也有不爽的點。

　　他改善氛圍式編程，也將從根本上改變我認為無需嚴重人為干預和引導就能完成的項目類型。

　　我現在越發的懷念兩年半的GPT-4發布時的時光。

　　我到現在都清晰地記得，自己第一次跟GPT-4認真對話后的感覺。

　　那一種很原始、很深邃的震撼，有點像古代人第一次看到電燈，或者部落里的祭司第一次請神上身的成功。

　　我腦子里盤旋的只有一個念頭：天變了。

　　那時候，整個互聯網都洋溢著一種既興奮又慌亂的淘金熱氛圍。

　　每個人都在瘋狂地轉發那些匪夷所思的截圖，討論著哪些職業即將消失，各種AI野生專家雨后春筍一樣冒出來，言必稱顛覆。

　　現在回頭看，那段日子充滿了粗糙的質感，但又飽含著一種野蠻生長的生命力。

　　我們真的以為，那就是奇跡本身了。

　　但誰都沒想到，那僅僅是個開始。就好像有人按下了快進鍵，整個世界被一股無形的力量推著往前沖。

　　從GPT-4到GPT-5，這短短的兩年半。

　　我們告別了那個可以對AI的拙劣表現一笑置之的時代。

　　進入了一個必須嚴肅對待它的時代。

　　>/ 作者：卡茲克、水杉、dongyi

　　>/ 投稿或爆料，請聯系郵箱：wzglyay@virxact.com

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

GPT-5編程成績有貓膩！自刪23道測試題，關鍵基準還是自己提的

量子位 2025-08-12 13:12:51
15 跟貼 15
英偉達巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
21 跟貼 21

AI Coding新王登場！MiniMax M2.1拿下多語言編程SOTA

量子位 2025-12-24 09:15:24
13 跟貼 13

北航提出大模型Scaling Laws：編程語言差異與多語言最優配比策略

機器之心Pro 2025-12-24 18:00:01
1 跟貼 1
微軟定目標：2030年，徹底刪除C、C++代碼，換成Rust

機器之心Pro 2025-12-25 10:16:20
35 跟貼 35

登上NeurIPS，Genesis開創無需OCC引導的多模態生成新范式

機器之心Pro 2025-09-28 16:51:08
0 跟貼 0

華為諾亞&港中文發布SCOPE：Prompt自我進化，讓HLE成功率翻倍

機器之心Pro 2025-12-26 14:16:31
0 跟貼 0
視頻生成DeepSeek時刻!清華&生數開源框架提速200倍,一周2k Star

機器之心Pro 2025-12-26 14:21:00
0 跟貼 0

2025 AI年度報告：白天算股票，晚上算八字，AI成“賽博半仙”

雷科技 2025-12-24 10:11:07
1 跟貼 1
一份沒有標準答案的AI考卷，頂尖模型集體失靈

DeepTech深科技 2025-12-25 19:00:40
1 跟貼 1
Notion CEO長文刷屏：AI將把知識工作帶入“無限心智”時代

DeepTech深科技 2025-12-26 18:24:53
0 跟貼 0
中國創造一門新編程語言的黃金時代來了？

虎嗅APP 2025-12-23 03:54:05
20 跟貼 20
收入高而團隊規模精簡，AI時代的新型成功標準？

虎嗅APP 2025-12-25 03:14:11
4 跟貼 4
2025年的14個AI熱詞

DeepTech深科技 2025-12-26 15:05:18
0 跟貼 0
女生買巖板 ai說進不了電梯，不信邪手搓模型測試這不是能進嗎？

河南都市頻道 2025-12-24 11:43:14
385 跟貼 385
無需再訓練微調，一個輔助系統讓GPT-5.2準確率飆到創紀錄的75%

機器之心Pro 2025-12-25 14:25:42
0 跟貼 0
直播間現大量色情內容快手回應遭黑灰產攻擊

達哥說事兒 2025-12-24 14:19:04
0 跟貼 0
館長12.25網易行（18）館長呼吁臺灣同胞多來大陸走走看看

告白手工 2025-12-26 01:49:04
0 跟貼 0
15%全量Attention！「RTPurbo」阿里Qwen3長文本推理5倍壓縮方案

機器之心Pro 2025-12-23 12:52:34
0 跟貼 0
從智能搜索工具到AI代理電商模式先驅，四年估值200億美元，Perplexity面臨怎樣的困境？

鈦媒體APP 2025-12-25 11:00:27
0 跟貼 0
2024年GDP比初步核算數減少1018億

財聯社 2025-12-26 09:35:12
5499 跟貼 5499
PNAS：大語言模型如何在不同語言中加劇知識鴻溝

人工智能學家 2025-12-25 19:05:53
0 跟貼 0
第三代Scaling范式的關鍵在多模態，視頻是模擬現實世界的高效數據載體

量子位 2025-12-11 03:38:42
0 跟貼 0
ApdativeNN：建模類人自適應感知機制，突破機器視覺不可能三角

機器之心Pro 2025-11-28 17:15:19
0 跟貼 0
Mate80直播黑科技揭秘，Remy 3D技術原理是什么？

華商韜略 2025-12-22 10:48:58
0 跟貼 0
一別十年！1020件文物歸位，養心殿今起重新開放

北京日報客戶端 2025-12-26 08:48:40
3638 跟貼 3638
最后的依靠不是任何人：40歲后，請安裝這套“清醒力操作系統”

月影說職場 2025-12-24 18:33:49
0 跟貼 0
"部隊軍官"秀賬戶驚人余額女子看到追加投資追悔莫及

環球網資訊 2025-12-26 09:50:23
2415 跟貼 2415
影視：測試機器人能否認出真人與假人

易飛電影1 2025-12-23 11:09:52
3 跟貼 3
直播UP們的生產力工具？華為官宣隨行 WiFi X，最快明年 3 月發售

雷科技 2025-12-26 16:09:37
0 跟貼 0
SOLO Coder 在現有項目基礎上繼續完善功能、修復問題

機器之心Pro 2025-11-13 14:18:40
0 跟貼 0
得知食物來自機器人體內，吃的更有味了

今夕影視 2025-12-25 17:52:07
1 跟貼 1
羅永浩押注的視頻播客，賺不到錢？

鈦媒體APP 2025-12-26 18:31:05
0 跟貼 0
校運會跨欄比賽，有一名女生一騎絕塵，趕超其他一整圈！

小Q愛搞笑 2025-12-26 11:48:21
1 跟貼 1
連英偉達都開始抄作業了

鈦媒體APP 2025-12-26 09:29:21
3 跟貼 3
男子因骨折躺在病床上乘電梯，遇上醫院智能機器人求讓路，這下尷尬了，男子：我都這樣了，我咋讓你啊

營天下 2025-12-24 12:14:45
0 跟貼 0
直播間變“黃暴陣地”，黑灰產突襲還是漏洞？影響過億觀眾

躬耕牛 2025-12-25 16:45:24
0 跟貼 0
每平方米直降3萬元！上海一超級大盤21套房二度掛牌，開盤時曾“千人搖號”

每日經濟新聞 2025-12-25 22:11:08
1157 跟貼 1157
楊議，談侯耀華：二哥雖然把我拉黑了，但他說我嘛，我都得接著

阿纂看事 2025-12-26 17:48:44
1 跟貼 1
美國體面人的“斬殺線”，美人類學博士稱之為“努力工作卻無家可歸”

紅星新聞 2025-12-25 19:38:09
1628 跟貼 1628

數字生命卡茲克

反復橫跳于不同的AI領域，努力分享一些很酷的AI干貨

428文章數 490關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

本地

家居

公開課

軍事航空

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
明末究竟有多難，無法阻止的歷史進程
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

實測GPT-5：寫作墜入谷底，編程一騎絕塵。

收割3000億！拼多多"土辦法"熬死所有巨頭

村民稱家中110只懷孕母羊被毒死 投毒者是父親好友

村民稱家中110只懷孕母羊被毒死 投毒者是父親好友

開翻航母之后，他決定親手造一艘航母

王傳君生病后近照變化大，面部浮腫

投資巨鱷羅杰斯最新持倉：只留四種資產

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

態度原創

以后不準去你奶奶家喝蘿卜湯

云游安徽｜踏訪池州，讀懂山水間的萬年史書

格調時尚 智慧品質居所

烏最新20點俄烏和平草案遞交莫斯科 俄方拒絕

村民稱家中110只懷孕母羊被毒死投毒者是父親好友

村民稱家中110只懷孕母羊被毒死投毒者是父親好友

兩大CEO試駕華為乾崑*啟境開啟首款獵裝轎跑路測

格調時尚智慧品質居所

烏最新20點俄烏和平草案遞交莫斯科俄方拒絕