<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.4:OpenAI做了個Kimi K2.5 +MiniMax M2.5?

      0
      分享至


      作者:周華香+GPT5.4 Thinking
      編輯:王兆洋

      為了更好的追趕Claude,OpenAI帶來了能力“N合1”的統一模型GPT-5.4,而看完這個模型的各種介紹和能力展示,你會發現它滿滿都是Kimi K2.5 和MiniMax M2.5這兩個在agent上卷到瘋的開源模型的影子。

      1

      融合了多種agent能力的all in one模型

      3 月 5 日,OpenAI 正式發布 GPT-5.4。和過去那種“模型更強一點”的更新不同,這次發布的重點非常明確:把 AI 從聊天助手,進一步推向真正能交付專業工作的系統。 官方同步把 GPT-5.4 上線到了 ChatGPT、API 和 Codex,還推出了 GPT-5.4 Pro,以及面向金融和表格工作流的 ChatGPT for Excel 和多家金融數據集成。


      這次發布的幾個核心信息:

      GPT-5.4 官方定位是“面向專業工作的最強、最高效 frontier model”。它整合了 reasoning、coding 和 agentic workflow 的能力,重點強化了表格、文檔、演示文稿這類專業任務。

      GPT-5.4 Pro也同步推出。這是更高性能版本,面向最復雜、最長鏈路的任務,在 ChatGPT 和 API 中都可用。

      此外,ChatGPT 里還上線了 GPT-5.4 Thinking。它支持在思考開始前給出簡短計劃,用戶還能在它思考過程中繼續補充指令,實時修正方向。

      在API 和 Codex 側,補齊了 agent 能力。GPT-5.4 是 OpenAI 首個具備原生、SOTA 級 computer use 能力的通用模型,同時支持最高 1,050,000 token 上下文窗口。

      而且OpenAI 同時發布了 ChatGPT for Excel 和金融數據集成。前者能直接在 Excel 工作簿里調用 ChatGPT 做建模、更新模型、跑情景分析;后者把 FactSet、Dow Jones Factiva、LSEG、Daloopa、S&P Global 等數據接入 ChatGPT。

      這里面呈現出OpenAI在模型研發思路上的明顯變化:

      定位徹底變了,不再主打“聊天”,而是主打“專業工作”

      OpenAI 在官方博客里寫得很直接:GPT-5.4 是“for professional work”。它的優化方向,不是泛泛地變聰明,而是圍繞真實職業場景里的復雜產出:表格、文檔、PPT、跨工具任務、長流程執行。

      這意味著 GPT-5.4 的目標用戶已經很明確了:不是單純問答的普通用戶,而是分析師、研究員、法務、開發者、金融從業者,以及需要復雜知識工作的團隊。這個定位變化,其實比性能數字更重要。

      知識工作能力明顯增強,尤其是表格、文檔、PPT

      官方把這塊作為重點展示。

      在 GDPval 這個測試 44 種職業真實工作產出的 benchmark 上,GPT-5.4 的成績是 83.0% wins or ties,相比 GPT-5.2 的 70.9% 提升明顯。這個 benchmark 測的不是考試題,而是銷售演示、會計表格、排班表、制造流程圖、短視頻等“能不能交付工作成果”。


      OpenAI 還單獨強調了表格建模和演示文稿能力。在一組接近投行初級分析師日常工作的 spreadsheet modeling 任務里,GPT-5.4 平均分是 87.3%,而 GPT-5.2 是 68.4%;在 presentation 評測中,人類評審有 68.0% 的情況下更偏好 GPT-5.4 的輸出。

      這說明它不是“更會寫一段總結”,而是更接近真正能產出可用工作成品的模型。

      強調它的幻覺更少,事實性更強

      這是很實用、也最容易被忽視的一項升級。

      OpenAI 表示,在一組用戶曾標記“存在事實錯誤”的匿名提示集合上,GPT-5.4 的單條 claim 出錯概率比 GPT-5.2 低 33%,整段回答含錯誤的概率低 18%。官方直接稱 GPT-5.4 是他們“most factual model yet”。

      這件事的重要性其實不比 benchmark 低。因為進入研究、法律、財務、企業報告這些場景之后,用戶最在乎的不是模型多會炫技,而是它少說錯話、少編事實。GPT-5.4 這次明顯是在往“可用”和“可信”上走。

      原生 computer use,GPT-5.4 開始更像真正的 agent

      這次發布里,最值得行業關注的其實是這部分。

      OpenAI 明確表示,GPT-5.4 是他們首個具備原生 computer-use 能力的通用模型。它不僅能理解截圖,還能執行鼠標和鍵盤操作,在網頁和軟件環境中完成復雜流程。

      在 OSWorld-Verified 上,GPT-5.4 成績達到 75.0%,遠高于 GPT-5.2 的 47.3%,甚至超過官方列出的人類水平 72.4%。在 WebArena-Verified 和 Online-Mind2Web 這類瀏覽器任務上,它的表現也繼續領先。


      這意味著 GPT-5.4 不只是“知道怎么做”,而是已經越來越接近“可以自己去做”。對開發者來說,這比單純更強的文本生成重要得多。

      工具調用上下功夫,用tool search 來降本很關鍵

      如果說 computer use 決定了 agent 能不能“動起來”,那 tool search 決定了它在復雜工具生態里會不會“越用越笨”。

      GPT-5.4 引入了 tool search。簡單說,就是模型不需要一開始就把幾十個工具說明都塞進上下文里,而是先看到輕量級工具列表,必要時再查具體定義。官方實驗顯示,在 Scale 的 MCP Atlas benchmark 上,把 36 個 MCP servers 放進 tool search 后,總 token 使用量下降 47%,同時精度不變。


      這看起來很技術,但對 agent 落地非常關鍵。因為真實企業場景里的問題,從來不是“有沒有一個工具”,而是“工具一多之后,模型還好不好用”。GPT-5.4 這次是在補基礎設施。

      改進ChatGPT 體驗,更像“協作推理”,而不是黑箱等待

      在 ChatGPT 里,GPT-5.4 Thinking 的體驗也有明顯變化。

      官方幫助文檔顯示,當用戶選擇 GPT-5.4 Thinking 或 GPT-5.4 Pro 時,模型可能會先給出一個簡短 preamble,說明它打算怎么做;用戶還可以在它思考過程中繼續加要求,修正方向。與此同時,ChatGPT 里還新增了 thinking-time toggle,Plus 和 Business 用戶可選 Standard、Extended,Pro 用戶可再選 Light、Heavy。

      這看起來像小功能,但其實很重要。過去很多 thinking 模型雖然強,但體驗像一個黑箱:你丟進去一個問題,等它想完再看結果。GPT-5.4 想解決的是“用戶能不能在中途介入、協作、修正”。這對復雜研究、寫作和規劃類任務非常有價值。

      1

      “致敬”Kimi和MiniMax

      看完這些能力介紹,對近期各家模型廠的模型使用和跟蹤緊密的人會立刻意識到,這些點像極了Kimi和MiniMax一直在卷的重點。

      這是OpenAI自己首個Computer Use模型,它的技術思路更像是用多模態和視覺的能力來完成操控任務。這很容易讓人想到已經在Kimi系列模型里存在許久的內置在模型里的Computer use能力,而且在Kimi K2.5里,一個重點正是基于視覺,包括圖片和視頻,進行理解和推理,并且也是主打一個all in one架構,多模態和文本、思考和快速回答、代碼和agent能力都統一于一個模型一身。

      GPT-5.4強調的Office套件能力,也是K 2.5當時重點展示的融入模型本身的能力。展示的案例也都差不多。

      而此次在Agent的調用上做的設計,比如對Tool Use引入搜索的思路,和MiniMax M2.5在訓練時提出的諸如Forge等方法有相同的思路,就是探索對Agent部分和模型本身基礎能力做解耦。

      把Agent和它需要的環境抽象出來,與模型本身區分開,GPT-5.4給模型本身就原生配上了對各種tool的理解能力,而不是混在一起只是按指令調用。

      而M 2.5也是直接把agent需要的對tool和對不同框架的理解訓練進模型層面。都相當于在模型內部去增加中間層,進而給Scale的方向提供新可能。

      “把編程、Computer use、工具調用等各種agent的能力原生揉進一個統一的底座模型里,并且按這個方向不停往模型里增加新的像是文檔和office這種非常具體的agent能力”,這一直是Kimi和MiniMax的模型方向,這樣的路線和能力在過去似乎并不被OpenAI重視,GPT模型和agent分的比較開,但現在它也算致敬這兩個開源模型,改了思路。

      這背后很重要的一個變量自然就是OpenClaw:這個已經瘋狂破圈吸引各種用戶用它“燃燒”token的產品,需要的正是Kimi和MiniMax這種模型。在從一眾對手手上搶奪“招安”了OpenClaw后,此次的GPT 5.4也有明顯要搶更多OpenClaw用戶的模型生意的意味。

      1

      更多具體案例

      1)金融分析:直接進 Excel,開始接手表格工作流

      OpenAI 這次專門同步發布了 ChatGPT for Excel。官方定義很明確:這是一個還在 beta 階段的 Excel 插件,可以把 ChatGPT 直接帶進工作簿里,幫助用戶構建和更新模型、運行情景分析、根據單元格和公式生成輸出。它由 GPT-5.4 驅動。


      這意味著 GPT-5.4 不再只是“給你講怎么做 Excel”,而是開始直接進入 Excel 工作流本身。對于金融分析、投研、企業 FP&A、咨詢等崗位,這個方向非常清晰:OpenAI 不只是想做聊天機器人,而是要切進日常生產工具。

      同時,OpenAI 還把 FactSet、Dow Jones Factiva、LSEG、Daloopa、S&P Global 等金融數據源接入了 ChatGPT,讓用戶在一個工作流里完成數據獲取、分析和輸出。

      2)法律工作:長合同、復雜交易分析更穩

      OpenAI 在官方博客里引用了 Harvey 的反饋。Harvey 表示,GPT-5.4 在其 BigLaw Bench 上拿到 91%,并且在復雜交易分析、長合同中的準確性保持、以及法律從業者要求的細節密度上,表現優于其他模型。

      這說明 GPT-5.4 的提升,不只是寫作更順,而是開始進入對“結構、嚴謹性、細節一致性”要求更高的文檔密集型工作。

      3)網頁和軟件操作:可以自己點、自己做、自己驗證

      在 computer use 場景里,OpenAI 展示了 GPT-5.4 根據瀏覽器截圖進行界面理解,并通過坐標點擊來發送郵件和安排日歷事件的能力。

      官方還引用了 Mainstay 的測試結果:在大約 3 萬個 HOA 和 property tax portals 的 computer-use 評測中,GPT-5.4 首次嘗試成功率達到 95%,三次嘗試內達到 100%,同時速度約快 3 倍,token 使用量減少約 70%。

      這個案例很能說明 GPT-5.4 的方向:不是回答“怎么填表”,而是直接去填表。

      4)編碼和前端:不只是會寫代碼,還更會完成完整產品

      在 coding 部分,OpenAI 說 GPT-5.4 繼承了 GPT-5.3-Codex 的強編碼能力,同時在長時程任務里更好,因為它可以調用工具、迭代執行、自己把工作往前推。它在 SWE-Bench Pro(Public)上達到 57.7%,略高于 GPT-5.3-Codex 的 56.8%。

      更有意思的是,OpenAI 強調 GPT-5.4 在復雜前端任務上表現明顯更好,產出的結果既更美觀,也更可用。官方還演示了它結合 Playwright Interactive 一邊構建網頁/應用,一邊自己進行可視化調試和測試。

      這意味著 GPT-5.4 的“編碼能力”已經不只是代碼補全,而更接近完整的軟件生產鏈路。

      官方案例:使用 GPT-5.4 根據一個略微指定的提示制作的主題公園模擬游戲,通過 Playwright Interactive 進行瀏覽器測試和圖像生成來構建等距資產集。該模擬游戲包括基于瓦片的路徑放置、游樂設施和景觀建設、游客路徑規劃、排隊和游樂設施循環,而公園指標如金錢、游客數量、幸福度、清潔度和評分會根據布局表現和游客的反應而上升或下降。Playwright 被用于自動化瀏覽器測試,通過建設和擴展公園、放置和移除路徑和游樂設施、檢查攝像機導航,并驗證在多輪測試中游客、排隊、游樂設施狀態和 UI 指標是否正確更新。

      1

      價格和使用方式

      API 文檔顯示,GPT-5.4 支持文本和圖像輸入、文本輸出,擁有 1,050,000 token context window128,000 max output tokens。價格為每百萬輸入 token 2.50 美元、輸出 15.00 美元


      而 GPT-5.4 Pro 在 ChatGPT 側只向 Pro、Business、Enterprise 和 Edu 計劃開放。幫助文檔也寫得很明白,Pro 是“the highest-capability GPT-5.4 option in ChatGPT for the hardest tasks and long-running workflows”。

      這些價格還是挺貴的。

      在模型上,OpenAI開始借鑒開源模型們的方法,而在價格上,OpenAI還是OpenAI。

      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      梅西在巴薩最后一個賽季的保時捷卡宴將被拍賣,里程2萬公里

      梅西在巴薩最后一個賽季的保時捷卡宴將被拍賣,里程2萬公里

      懂球帝
      2026-04-10 23:15:10
      印度曾反對中國建雅魯藏布江水電站,現才徹底明白,真不是一般精

      印度曾反對中國建雅魯藏布江水電站,現才徹底明白,真不是一般精

      掠影后有感
      2026-04-06 11:40:04
      繼德國之后,英國也開始貼出“中文標語”?中國游客:不能夠接受

      繼德國之后,英國也開始貼出“中文標語”?中國游客:不能夠接受

      潮鹿逐夢
      2026-04-02 12:31:48
      阿斯:埃德松轉會陷入僵局,馬競希望壓低4500萬歐元的轉會費

      阿斯:埃德松轉會陷入僵局,馬競希望壓低4500萬歐元的轉會費

      懂球帝
      2026-04-11 07:24:22
      賠光2億后,冉瑩穎獨自搬家30箱未給鄒市明留體面

      賠光2億后,冉瑩穎獨自搬家30箱未給鄒市明留體面

      春之韻
      2026-03-18 09:32:52
      海港VS申花:4外援坐鎮 國足中場新星領銜 兩大功勛老將替補待命

      海港VS申花:4外援坐鎮 國足中場新星領銜 兩大功勛老將替補待命

      零度眼看球
      2026-04-11 07:11:21
      上海剮蹭鬧劇:全責還罵別人是“破奧迪”,一句回懟直接破防開罵

      上海剮蹭鬧劇:全責還罵別人是“破奧迪”,一句回懟直接破防開罵

      今朝牛馬
      2026-04-10 22:45:22
      開國上將鬧離婚:結發40年竟遭發妻死命舉報,六名子女為何如釋重負

      開國上將鬧離婚:結發40年竟遭發妻死命舉報,六名子女為何如釋重負

      睡前講故事
      2026-04-07 14:43:34
      西北大學終于坐不住了!

      西北大學終于坐不住了!

      梳子姐
      2026-04-09 11:44:17
      沒有這種食物,你的肌肉將消失!醫生:60歲后恢復肌力的7種食物

      沒有這種食物,你的肌肉將消失!醫生:60歲后恢復肌力的7種食物

      健康之光
      2026-01-04 09:31:45
      離譜?姆巴佩空門踢呲+20次丟球權!獲5.8分最低,西甲已4場球荒

      離譜?姆巴佩空門踢呲+20次丟球權!獲5.8分最低,西甲已4場球荒

      我愛英超
      2026-04-11 06:22:51
      妮可·基德曼頂3斤假發亮相,Schiaparelli高定秒變淘寶

      妮可·基德曼頂3斤假發亮相,Schiaparelli高定秒變淘寶

      熱搜摘要官
      2026-04-10 08:02:47
      鄭麗文想要的,大陸給得很爽快,隨行人員有驚喜,藍營一姐發話了

      鄭麗文想要的,大陸給得很爽快,隨行人員有驚喜,藍營一姐發話了

      閱微札記
      2026-04-10 19:55:07
      《妻子浪漫旅行》最尷尬的夫妻,話少還裝甜蜜,沒李純馬頔自然

      《妻子浪漫旅行》最尷尬的夫妻,話少還裝甜蜜,沒李純馬頔自然

      一娛三分地
      2026-04-09 19:22:11
      臺州保時捷事件后續:警方通報處理結果,車主身份曝光,太意外了

      臺州保時捷事件后續:警方通報處理結果,車主身份曝光,太意外了

      奇思妙想草葉君
      2026-04-10 21:54:35
      東部最新排名!76人掉隊,騎士首輪對手變了,三大魚腩沖狀元簽

      東部最新排名!76人掉隊,騎士首輪對手變了,三大魚腩沖狀元簽

      體壇小李
      2026-04-10 11:29:59
      TVB港姐冠軍內地真人秀人氣急升,收花當場爆喊,獲贊像公主

      TVB港姐冠軍內地真人秀人氣急升,收花當場爆喊,獲贊像公主

      東方不敗然多多
      2026-04-11 03:27:35
      你見過哪些悶聲發大財的人?網友:干這個買三套房子,兩個門面

      你見過哪些悶聲發大財的人?網友:干這個買三套房子,兩個門面

      夜深愛雜談
      2026-02-01 18:57:04
      新生代主持李瑜,綠裙赤足展玉足,這清純性感誰頂得住?

      新生代主持李瑜,綠裙赤足展玉足,這清純性感誰頂得住?

      娛樂領航家
      2026-04-10 21:30:03
      華為新款AI眼鏡由歌爾股份代工

      華為新款AI眼鏡由歌爾股份代工

      財聯社
      2026-04-10 11:18:07
      2026-04-11 07:44:49
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      2997文章數 10481關注度
      往期回顧 全部

      科技要聞

      馬斯克狂發大火箭也養不起AI 年虧50億美元

      頭條要聞

      推動停火 巴基斯坦被指取得近年來最大的外交勝利之一

      頭條要聞

      推動停火 巴基斯坦被指取得近年來最大的外交勝利之一

      體育要聞

      17歲賺了一百萬美元,25歲被CBA裁員

      娛樂要聞

      黃景瑜王玉雯否認戀情!聚會細節被扒

      財經要聞

      李強主持召開經濟形勢專家和企業家座談會

      汽車要聞

      搭載第二代刀片電池及閃充技術 騰勢N8L閃充版預售35萬起

      態度原創

      時尚
      教育
      數碼
      房產
      游戲

      今日熱點:陳添祥長文道歉;夏克立曾給前經紀人傳上廁所照片……

      教育要聞

      一年級壓軸題,全班都不會

      數碼要聞

      聯想推出2026款來酷斗戰者“戰7000”筆記本,7699元起

      房產要聞

      28條新規落地!好房子,終于有了“廣州標準”!

      任天堂獨占傳統不再!經典作品跨平臺引粉絲不滿

      無障礙瀏覽 進入關懷版