![]()
作者:周華香+GPT5.4 Thinking
編輯:王兆洋
為了更好的追趕Claude,OpenAI帶來了能力“N合1”的統一模型GPT-5.4,而看完這個模型的各種介紹和能力展示,你會發現它滿滿都是Kimi K2.5 和MiniMax M2.5這兩個在agent上卷到瘋的開源模型的影子。
1
融合了多種agent能力的all in one模型
3 月 5 日,OpenAI 正式發布 GPT-5.4。和過去那種“模型更強一點”的更新不同,這次發布的重點非常明確:把 AI 從聊天助手,進一步推向真正能交付專業工作的系統。 官方同步把 GPT-5.4 上線到了 ChatGPT、API 和 Codex,還推出了 GPT-5.4 Pro,以及面向金融和表格工作流的 ChatGPT for Excel 和多家金融數據集成。
![]()
這次發布的幾個核心信息:
GPT-5.4 官方定位是“面向專業工作的最強、最高效 frontier model”。它整合了 reasoning、coding 和 agentic workflow 的能力,重點強化了表格、文檔、演示文稿這類專業任務。
GPT-5.4 Pro也同步推出。這是更高性能版本,面向最復雜、最長鏈路的任務,在 ChatGPT 和 API 中都可用。
此外,ChatGPT 里還上線了 GPT-5.4 Thinking。它支持在思考開始前給出簡短計劃,用戶還能在它思考過程中繼續補充指令,實時修正方向。
在API 和 Codex 側,補齊了 agent 能力。GPT-5.4 是 OpenAI 首個具備原生、SOTA 級 computer use 能力的通用模型,同時支持最高 1,050,000 token 上下文窗口。
而且OpenAI 同時發布了 ChatGPT for Excel 和金融數據集成。前者能直接在 Excel 工作簿里調用 ChatGPT 做建模、更新模型、跑情景分析;后者把 FactSet、Dow Jones Factiva、LSEG、Daloopa、S&P Global 等數據接入 ChatGPT。
這里面呈現出OpenAI在模型研發思路上的明顯變化:
定位徹底變了,不再主打“聊天”,而是主打“專業工作”
OpenAI 在官方博客里寫得很直接:GPT-5.4 是“for professional work”。它的優化方向,不是泛泛地變聰明,而是圍繞真實職業場景里的復雜產出:表格、文檔、PPT、跨工具任務、長流程執行。
這意味著 GPT-5.4 的目標用戶已經很明確了:不是單純問答的普通用戶,而是分析師、研究員、法務、開發者、金融從業者,以及需要復雜知識工作的團隊。這個定位變化,其實比性能數字更重要。
知識工作能力明顯增強,尤其是表格、文檔、PPT
官方把這塊作為重點展示。
在 GDPval 這個測試 44 種職業真實工作產出的 benchmark 上,GPT-5.4 的成績是 83.0% wins or ties,相比 GPT-5.2 的 70.9% 提升明顯。這個 benchmark 測的不是考試題,而是銷售演示、會計表格、排班表、制造流程圖、短視頻等“能不能交付工作成果”。
![]()
OpenAI 還單獨強調了表格建模和演示文稿能力。在一組接近投行初級分析師日常工作的 spreadsheet modeling 任務里,GPT-5.4 平均分是 87.3%,而 GPT-5.2 是 68.4%;在 presentation 評測中,人類評審有 68.0% 的情況下更偏好 GPT-5.4 的輸出。
這說明它不是“更會寫一段總結”,而是更接近真正能產出可用工作成品的模型。
強調它的幻覺更少,事實性更強
這是很實用、也最容易被忽視的一項升級。
OpenAI 表示,在一組用戶曾標記“存在事實錯誤”的匿名提示集合上,GPT-5.4 的單條 claim 出錯概率比 GPT-5.2 低 33%,整段回答含錯誤的概率低 18%。官方直接稱 GPT-5.4 是他們“most factual model yet”。
這件事的重要性其實不比 benchmark 低。因為進入研究、法律、財務、企業報告這些場景之后,用戶最在乎的不是模型多會炫技,而是它少說錯話、少編事實。GPT-5.4 這次明顯是在往“可用”和“可信”上走。
原生 computer use,GPT-5.4 開始更像真正的 agent
這次發布里,最值得行業關注的其實是這部分。
OpenAI 明確表示,GPT-5.4 是他們首個具備原生 computer-use 能力的通用模型。它不僅能理解截圖,還能執行鼠標和鍵盤操作,在網頁和軟件環境中完成復雜流程。
在 OSWorld-Verified 上,GPT-5.4 成績達到 75.0%,遠高于 GPT-5.2 的 47.3%,甚至超過官方列出的人類水平 72.4%。在 WebArena-Verified 和 Online-Mind2Web 這類瀏覽器任務上,它的表現也繼續領先。
![]()
這意味著 GPT-5.4 不只是“知道怎么做”,而是已經越來越接近“可以自己去做”。對開發者來說,這比單純更強的文本生成重要得多。
工具調用上下功夫,用tool search 來降本很關鍵
如果說 computer use 決定了 agent 能不能“動起來”,那 tool search 決定了它在復雜工具生態里會不會“越用越笨”。
GPT-5.4 引入了 tool search。簡單說,就是模型不需要一開始就把幾十個工具說明都塞進上下文里,而是先看到輕量級工具列表,必要時再查具體定義。官方實驗顯示,在 Scale 的 MCP Atlas benchmark 上,把 36 個 MCP servers 放進 tool search 后,總 token 使用量下降 47%,同時精度不變。
![]()
這看起來很技術,但對 agent 落地非常關鍵。因為真實企業場景里的問題,從來不是“有沒有一個工具”,而是“工具一多之后,模型還好不好用”。GPT-5.4 這次是在補基礎設施。
改進ChatGPT 體驗,更像“協作推理”,而不是黑箱等待
在 ChatGPT 里,GPT-5.4 Thinking 的體驗也有明顯變化。
官方幫助文檔顯示,當用戶選擇 GPT-5.4 Thinking 或 GPT-5.4 Pro 時,模型可能會先給出一個簡短 preamble,說明它打算怎么做;用戶還可以在它思考過程中繼續加要求,修正方向。與此同時,ChatGPT 里還新增了 thinking-time toggle,Plus 和 Business 用戶可選 Standard、Extended,Pro 用戶可再選 Light、Heavy。
這看起來像小功能,但其實很重要。過去很多 thinking 模型雖然強,但體驗像一個黑箱:你丟進去一個問題,等它想完再看結果。GPT-5.4 想解決的是“用戶能不能在中途介入、協作、修正”。這對復雜研究、寫作和規劃類任務非常有價值。
1
“致敬”Kimi和MiniMax
看完這些能力介紹,對近期各家模型廠的模型使用和跟蹤緊密的人會立刻意識到,這些點像極了Kimi和MiniMax一直在卷的重點。
這是OpenAI自己首個Computer Use模型,它的技術思路更像是用多模態和視覺的能力來完成操控任務。這很容易讓人想到已經在Kimi系列模型里存在許久的內置在模型里的Computer use能力,而且在Kimi K2.5里,一個重點正是基于視覺,包括圖片和視頻,進行理解和推理,并且也是主打一個all in one架構,多模態和文本、思考和快速回答、代碼和agent能力都統一于一個模型一身。
GPT-5.4強調的Office套件能力,也是K 2.5當時重點展示的融入模型本身的能力。展示的案例也都差不多。
而此次在Agent的調用上做的設計,比如對Tool Use引入搜索的思路,和MiniMax M2.5在訓練時提出的諸如Forge等方法有相同的思路,就是探索對Agent部分和模型本身基礎能力做解耦。
把Agent和它需要的環境抽象出來,與模型本身區分開,GPT-5.4給模型本身就原生配上了對各種tool的理解能力,而不是混在一起只是按指令調用。
而M 2.5也是直接把agent需要的對tool和對不同框架的理解訓練進模型層面。都相當于在模型內部去增加中間層,進而給Scale的方向提供新可能。
“把編程、Computer use、工具調用等各種agent的能力原生揉進一個統一的底座模型里,并且按這個方向不停往模型里增加新的像是文檔和office這種非常具體的agent能力”,這一直是Kimi和MiniMax的模型方向,這樣的路線和能力在過去似乎并不被OpenAI重視,GPT模型和agent分的比較開,但現在它也算致敬這兩個開源模型,改了思路。
這背后很重要的一個變量自然就是OpenClaw:這個已經瘋狂破圈吸引各種用戶用它“燃燒”token的產品,需要的正是Kimi和MiniMax這種模型。在從一眾對手手上搶奪“招安”了OpenClaw后,此次的GPT 5.4也有明顯要搶更多OpenClaw用戶的模型生意的意味。
1
更多具體案例
1)金融分析:直接進 Excel,開始接手表格工作流
OpenAI 這次專門同步發布了 ChatGPT for Excel。官方定義很明確:這是一個還在 beta 階段的 Excel 插件,可以把 ChatGPT 直接帶進工作簿里,幫助用戶構建和更新模型、運行情景分析、根據單元格和公式生成輸出。它由 GPT-5.4 驅動。
![]()
這意味著 GPT-5.4 不再只是“給你講怎么做 Excel”,而是開始直接進入 Excel 工作流本身。對于金融分析、投研、企業 FP&A、咨詢等崗位,這個方向非常清晰:OpenAI 不只是想做聊天機器人,而是要切進日常生產工具。
同時,OpenAI 還把 FactSet、Dow Jones Factiva、LSEG、Daloopa、S&P Global 等金融數據源接入了 ChatGPT,讓用戶在一個工作流里完成數據獲取、分析和輸出。
2)法律工作:長合同、復雜交易分析更穩
OpenAI 在官方博客里引用了 Harvey 的反饋。Harvey 表示,GPT-5.4 在其 BigLaw Bench 上拿到 91%,并且在復雜交易分析、長合同中的準確性保持、以及法律從業者要求的細節密度上,表現優于其他模型。
這說明 GPT-5.4 的提升,不只是寫作更順,而是開始進入對“結構、嚴謹性、細節一致性”要求更高的文檔密集型工作。
3)網頁和軟件操作:可以自己點、自己做、自己驗證
在 computer use 場景里,OpenAI 展示了 GPT-5.4 根據瀏覽器截圖進行界面理解,并通過坐標點擊來發送郵件和安排日歷事件的能力。
官方還引用了 Mainstay 的測試結果:在大約 3 萬個 HOA 和 property tax portals 的 computer-use 評測中,GPT-5.4 首次嘗試成功率達到 95%,三次嘗試內達到 100%,同時速度約快 3 倍,token 使用量減少約 70%。
這個案例很能說明 GPT-5.4 的方向:不是回答“怎么填表”,而是直接去填表。
4)編碼和前端:不只是會寫代碼,還更會完成完整產品
在 coding 部分,OpenAI 說 GPT-5.4 繼承了 GPT-5.3-Codex 的強編碼能力,同時在長時程任務里更好,因為它可以調用工具、迭代執行、自己把工作往前推。它在 SWE-Bench Pro(Public)上達到 57.7%,略高于 GPT-5.3-Codex 的 56.8%。
更有意思的是,OpenAI 強調 GPT-5.4 在復雜前端任務上表現明顯更好,產出的結果既更美觀,也更可用。官方還演示了它結合 Playwright Interactive 一邊構建網頁/應用,一邊自己進行可視化調試和測試。
這意味著 GPT-5.4 的“編碼能力”已經不只是代碼補全,而更接近完整的軟件生產鏈路。
官方案例:使用 GPT-5.4 根據一個略微指定的提示制作的主題公園模擬游戲,通過 Playwright Interactive 進行瀏覽器測試和圖像生成來構建等距資產集。該模擬游戲包括基于瓦片的路徑放置、游樂設施和景觀建設、游客路徑規劃、排隊和游樂設施循環,而公園指標如金錢、游客數量、幸福度、清潔度和評分會根據布局表現和游客的反應而上升或下降。Playwright 被用于自動化瀏覽器測試,通過建設和擴展公園、放置和移除路徑和游樂設施、檢查攝像機導航,并驗證在多輪測試中游客、排隊、游樂設施狀態和 UI 指標是否正確更新。
1
價格和使用方式
API 文檔顯示,GPT-5.4 支持文本和圖像輸入、文本輸出,擁有 1,050,000 token context window 和 128,000 max output tokens。價格為每百萬輸入 token 2.50 美元、輸出 15.00 美元。
![]()
而 GPT-5.4 Pro 在 ChatGPT 側只向 Pro、Business、Enterprise 和 Edu 計劃開放。幫助文檔也寫得很明白,Pro 是“the highest-capability GPT-5.4 option in ChatGPT for the hardest tasks and long-running workflows”。
這些價格還是挺貴的。
在模型上,OpenAI開始借鑒開源模型們的方法,而在價格上,OpenAI還是OpenAI。
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.