網易首頁 > 網易號 > 正文申請入駐

GPT-5.4：OpenAI做了個Kimi K2.5 +MiniMax M2.5？

2026-03-06 11:17:17　來源: 硅星人

北京舉報

分享至

作者：周華香+GPT5.4 Thinking
編輯：王兆洋

為了更好的追趕Claude，OpenAI帶來了能力“N合1”的統一模型GPT-5.4，而看完這個模型的各種介紹和能力展示，你會發現它滿滿都是Kimi K2.5 和MiniMax M2.5這兩個在agent上卷到瘋的開源模型的影子。

融合了多種agent能力的all in one模型

3 月 5 日，OpenAI 正式發布 GPT-5.4。和過去那種“模型更強一點”的更新不同，這次發布的重點非常明確：把 AI 從聊天助手，進一步推向真正能交付專業工作的系統。 官方同步把 GPT-5.4 上線到了 ChatGPT、API 和 Codex，還推出了 GPT-5.4 Pro，以及面向金融和表格工作流的 ChatGPT for Excel 和多家金融數據集成。

這次發布的幾個核心信息：

GPT-5.4 官方定位是“面向專業工作的最強、最高效 frontier model”。它整合了 reasoning、coding 和 agentic workflow 的能力，重點強化了表格、文檔、演示文稿這類專業任務。

GPT-5.4 Pro也同步推出。這是更高性能版本，面向最復雜、最長鏈路的任務，在 ChatGPT 和 API 中都可用。

此外，ChatGPT 里還上線了 GPT-5.4 Thinking。它支持在思考開始前給出簡短計劃，用戶還能在它思考過程中繼續補充指令，實時修正方向。

在API 和 Codex 側，補齊了 agent 能力。GPT-5.4 是 OpenAI 首個具備原生、SOTA 級 computer use 能力的通用模型，同時支持最高 1,050,000 token 上下文窗口。

而且OpenAI 同時發布了 ChatGPT for Excel 和金融數據集成。前者能直接在 Excel 工作簿里調用 ChatGPT 做建模、更新模型、跑情景分析；后者把 FactSet、Dow Jones Factiva、LSEG、Daloopa、S&P Global 等數據接入 ChatGPT。

這里面呈現出OpenAI在模型研發思路上的明顯變化：

定位徹底變了，不再主打“聊天”，而是主打“專業工作”

OpenAI 在官方博客里寫得很直接：GPT-5.4 是“for professional work”。它的優化方向，不是泛泛地變聰明，而是圍繞真實職業場景里的復雜產出：表格、文檔、PPT、跨工具任務、長流程執行。

這意味著 GPT-5.4 的目標用戶已經很明確了：不是單純問答的普通用戶，而是分析師、研究員、法務、開發者、金融從業者，以及需要復雜知識工作的團隊。這個定位變化，其實比性能數字更重要。

知識工作能力明顯增強，尤其是表格、文檔、PPT

官方把這塊作為重點展示。

在 GDPval 這個測試 44 種職業真實工作產出的 benchmark 上，GPT-5.4 的成績是 83.0% wins or ties，相比 GPT-5.2 的 70.9% 提升明顯。這個 benchmark 測的不是考試題，而是銷售演示、會計表格、排班表、制造流程圖、短視頻等“能不能交付工作成果”。

OpenAI 還單獨強調了表格建模和演示文稿能力。在一組接近投行初級分析師日常工作的 spreadsheet modeling 任務里，GPT-5.4 平均分是 87.3%，而 GPT-5.2 是 68.4%；在 presentation 評測中，人類評審有 68.0% 的情況下更偏好 GPT-5.4 的輸出。

這說明它不是“更會寫一段總結”，而是更接近真正能產出可用工作成品的模型。

強調它的幻覺更少，事實性更強

這是很實用、也最容易被忽視的一項升級。

OpenAI 表示，在一組用戶曾標記“存在事實錯誤”的匿名提示集合上，GPT-5.4 的單條 claim 出錯概率比 GPT-5.2 低 33%，整段回答含錯誤的概率低 18%。官方直接稱 GPT-5.4 是他們“most factual model yet”。

這件事的重要性其實不比 benchmark 低。因為進入研究、法律、財務、企業報告這些場景之后，用戶最在乎的不是模型多會炫技，而是它少說錯話、少編事實。GPT-5.4 這次明顯是在往“可用”和“可信”上走。

原生 computer use，GPT-5.4 開始更像真正的 agent

這次發布里，最值得行業關注的其實是這部分。

OpenAI 明確表示，GPT-5.4 是他們首個具備原生 computer-use 能力的通用模型。它不僅能理解截圖，還能執行鼠標和鍵盤操作，在網頁和軟件環境中完成復雜流程。

在 OSWorld-Verified 上，GPT-5.4 成績達到 75.0%，遠高于 GPT-5.2 的 47.3%，甚至超過官方列出的人類水平 72.4%。在 WebArena-Verified 和 Online-Mind2Web 這類瀏覽器任務上，它的表現也繼續領先。

這意味著 GPT-5.4 不只是“知道怎么做”，而是已經越來越接近“可以自己去做”。對開發者來說，這比單純更強的文本生成重要得多。

工具調用上下功夫，用tool search 來降本很關鍵

如果說 computer use 決定了 agent 能不能“動起來”，那 tool search 決定了它在復雜工具生態里會不會“越用越笨”。

GPT-5.4 引入了 tool search。簡單說，就是模型不需要一開始就把幾十個工具說明都塞進上下文里，而是先看到輕量級工具列表，必要時再查具體定義。官方實驗顯示，在 Scale 的 MCP Atlas benchmark 上，把 36 個 MCP servers 放進 tool search 后，總 token 使用量下降 47%，同時精度不變。

這看起來很技術，但對 agent 落地非常關鍵。因為真實企業場景里的問題，從來不是“有沒有一個工具”，而是“工具一多之后，模型還好不好用”。GPT-5.4 這次是在補基礎設施。

改進ChatGPT 體驗，更像“協作推理”，而不是黑箱等待

在 ChatGPT 里，GPT-5.4 Thinking 的體驗也有明顯變化。

官方幫助文檔顯示，當用戶選擇 GPT-5.4 Thinking 或 GPT-5.4 Pro 時，模型可能會先給出一個簡短 preamble，說明它打算怎么做；用戶還可以在它思考過程中繼續加要求，修正方向。與此同時，ChatGPT 里還新增了 thinking-time toggle，Plus 和 Business 用戶可選 Standard、Extended，Pro 用戶可再選 Light、Heavy。

這看起來像小功能，但其實很重要。過去很多 thinking 模型雖然強，但體驗像一個黑箱：你丟進去一個問題，等它想完再看結果。GPT-5.4 想解決的是“用戶能不能在中途介入、協作、修正”。這對復雜研究、寫作和規劃類任務非常有價值。

“致敬”Kimi和MiniMax

看完這些能力介紹，對近期各家模型廠的模型使用和跟蹤緊密的人會立刻意識到，這些點像極了Kimi和MiniMax一直在卷的重點。

這是OpenAI自己首個Computer Use模型，它的技術思路更像是用多模態和視覺的能力來完成操控任務。這很容易讓人想到已經在Kimi系列模型里存在許久的內置在模型里的Computer use能力，而且在Kimi K2.5里，一個重點正是基于視覺，包括圖片和視頻，進行理解和推理，并且也是主打一個all in one架構，多模態和文本、思考和快速回答、代碼和agent能力都統一于一個模型一身。

GPT-5.4強調的Office套件能力，也是K 2.5當時重點展示的融入模型本身的能力。展示的案例也都差不多。

而此次在Agent的調用上做的設計，比如對Tool Use引入搜索的思路，和MiniMax M2.5在訓練時提出的諸如Forge等方法有相同的思路，就是探索對Agent部分和模型本身基礎能力做解耦。

把Agent和它需要的環境抽象出來，與模型本身區分開，GPT-5.4給模型本身就原生配上了對各種tool的理解能力，而不是混在一起只是按指令調用。

而M 2.5也是直接把agent需要的對tool和對不同框架的理解訓練進模型層面。都相當于在模型內部去增加中間層，進而給Scale的方向提供新可能。

“把編程、Computer use、工具調用等各種agent的能力原生揉進一個統一的底座模型里，并且按這個方向不停往模型里增加新的像是文檔和office這種非常具體的agent能力”，這一直是Kimi和MiniMax的模型方向，這樣的路線和能力在過去似乎并不被OpenAI重視，GPT模型和agent分的比較開，但現在它也算致敬這兩個開源模型，改了思路。

這背后很重要的一個變量自然就是OpenClaw：這個已經瘋狂破圈吸引各種用戶用它“燃燒”token的產品，需要的正是Kimi和MiniMax這種模型。在從一眾對手手上搶奪“招安”了OpenClaw后，此次的GPT 5.4也有明顯要搶更多OpenClaw用戶的模型生意的意味。

更多具體案例

1）金融分析：直接進 Excel，開始接手表格工作流

OpenAI 這次專門同步發布了 ChatGPT for Excel。官方定義很明確：這是一個還在 beta 階段的 Excel 插件，可以把 ChatGPT 直接帶進工作簿里，幫助用戶構建和更新模型、運行情景分析、根據單元格和公式生成輸出。它由 GPT-5.4 驅動。

這意味著 GPT-5.4 不再只是“給你講怎么做 Excel”，而是開始直接進入 Excel 工作流本身。對于金融分析、投研、企業 FP&A、咨詢等崗位，這個方向非常清晰：OpenAI 不只是想做聊天機器人，而是要切進日常生產工具。

同時，OpenAI 還把 FactSet、Dow Jones Factiva、LSEG、Daloopa、S&P Global 等金融數據源接入了 ChatGPT，讓用戶在一個工作流里完成數據獲取、分析和輸出。

2）法律工作：長合同、復雜交易分析更穩

OpenAI 在官方博客里引用了 Harvey 的反饋。Harvey 表示，GPT-5.4 在其 BigLaw Bench 上拿到 91%，并且在復雜交易分析、長合同中的準確性保持、以及法律從業者要求的細節密度上，表現優于其他模型。

這說明 GPT-5.4 的提升，不只是寫作更順，而是開始進入對“結構、嚴謹性、細節一致性”要求更高的文檔密集型工作。

3）網頁和軟件操作：可以自己點、自己做、自己驗證

在 computer use 場景里，OpenAI 展示了 GPT-5.4 根據瀏覽器截圖進行界面理解，并通過坐標點擊來發送郵件和安排日歷事件的能力。

官方還引用了 Mainstay 的測試結果：在大約 3 萬個 HOA 和 property tax portals 的 computer-use 評測中，GPT-5.4 首次嘗試成功率達到 95%，三次嘗試內達到 100%，同時速度約快 3 倍，token 使用量減少約 70%。

這個案例很能說明 GPT-5.4 的方向：不是回答“怎么填表”，而是直接去填表。

4）編碼和前端：不只是會寫代碼，還更會完成完整產品

在 coding 部分，OpenAI 說 GPT-5.4 繼承了 GPT-5.3-Codex 的強編碼能力，同時在長時程任務里更好，因為它可以調用工具、迭代執行、自己把工作往前推。它在 SWE-Bench Pro（Public）上達到 57.7%，略高于 GPT-5.3-Codex 的 56.8%。

更有意思的是，OpenAI 強調 GPT-5.4 在復雜前端任務上表現明顯更好，產出的結果既更美觀，也更可用。官方還演示了它結合 Playwright Interactive 一邊構建網頁/應用，一邊自己進行可視化調試和測試。

這意味著 GPT-5.4 的“編碼能力”已經不只是代碼補全，而更接近完整的軟件生產鏈路。

官方案例：使用 GPT-5.4 根據一個略微指定的提示制作的主題公園模擬游戲，通過 Playwright Interactive 進行瀏覽器測試和圖像生成來構建等距資產集。該模擬游戲包括基于瓦片的路徑放置、游樂設施和景觀建設、游客路徑規劃、排隊和游樂設施循環，而公園指標如金錢、游客數量、幸福度、清潔度和評分會根據布局表現和游客的反應而上升或下降。Playwright 被用于自動化瀏覽器測試，通過建設和擴展公園、放置和移除路徑和游樂設施、檢查攝像機導航，并驗證在多輪測試中游客、排隊、游樂設施狀態和 UI 指標是否正確更新。

價格和使用方式

API 文檔顯示，GPT-5.4 支持文本和圖像輸入、文本輸出，擁有 1,050,000 token context window 和 128,000 max output tokens。價格為每百萬輸入 token 2.50 美元、輸出 15.00 美元。

而 GPT-5.4 Pro 在 ChatGPT 側只向 Pro、Business、Enterprise 和 Edu 計劃開放。幫助文檔也寫得很明白，Pro 是“the highest-capability GPT-5.4 option in ChatGPT for the hardest tasks and long-running workflows”。

這些價格還是挺貴的。

在模型上，OpenAI開始借鑒開源模型們的方法，而在價格上，OpenAI還是OpenAI。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.