網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI新模型gpt-oss-120b怎么樣？三大場(chǎng)景實(shí)測(cè)首發(fā)（對(duì)比GLM-4.5-Air）

2025-08-07 16:16:31　來(lái)源: AI進(jìn)化論花生

北京舉報(bào)

分享至

Claude Opus 4.1、gpt-oss-120b、Google Genie 3，看到又蹦出的這一堆新模型你是不是要懵了...昨天可以說(shuō)是AI領(lǐng)域的瘋狂星期三了。

我在凌晨一點(diǎn)看到Anthropic發(fā)布Claude Opus 4.1時(shí)還稍稍有點(diǎn)興奮，快速寫了這么篇介紹文章

寫完發(fā)布之后，看了眼X，發(fā)現(xiàn)糟了，寫早了。OpenAI又給我整出了gpt-oss-120b和gpt-oss-20b這兩個(gè)開源模型。

再到第二天一早醒來(lái)，看到Google發(fā)布世界模型Genie 3，我徹底感覺麻了...科技博主的命也是命啊，真寫不過來(lái)了。

不過，OpenAI這次的發(fā)布還是挺有意思，值得聊聊的：

一是這代表OpenAI再次Open了，gpt-oss是OpenAI時(shí)隔6年，繼GPT-2之后首次發(fā)布開源權(quán)重語(yǔ)言模型；

二是對(duì)LLM開源生態(tài)來(lái)說(shuō)，本來(lái)開源模型的SOTA之爭(zhēng)早就成了中國(guó)的內(nèi)部競(jìng)爭(zhēng)，DeepSeek、Kimi、Qwen、智譜這幾家近期輪流坐上開源模型的頭把交椅，而OpenAI的入局還是給這場(chǎng)本來(lái)已經(jīng)結(jié)束的戰(zhàn)爭(zhēng)增添了不少變數(shù)，開源SOTA模型似乎又要回到中美競(jìng)爭(zhēng)的格局了。

01gpt-oss-120b到底怎么樣？

首先是參數(shù)規(guī)模。OpenAI的gpt-oss-120b擁有1170億總參數(shù)，其中每次推理僅激活51億參數(shù)，占比僅為4.4%。這種超稀疏的設(shè)計(jì)，使得gpt-oss-120b在處理結(jié)構(gòu)化和嚴(yán)密邏輯任務(wù)時(shí)，推理效率和性能極其突出。

其次是架構(gòu)設(shè)計(jì)上的獨(dú)特性。gpt-oss系列同樣采用了混合專家（MoE）架構(gòu)，并原生支持MXFP4量化方案，用官方的話說(shuō)是能夠高效地在 80G GPU的高性能電腦上運(yùn)行？

Excuse me？80G？誰(shuí)家好人家用的電腦能配一張英偉達(dá)H100 GPU呢

（外網(wǎng)的網(wǎng)友和我有同樣的疑問）

所以，對(duì)普通用戶來(lái)說(shuō)，暫時(shí)就別想著在自己電腦上部署gpt-oss-120b了，老老實(shí)實(shí)等第三方平臺(tái)的API，或者使用OpenAI提供的體驗(yàn)平臺(tái)去試試吧。

從公布的benchmark上，OpenAI的這個(gè)新開源模型在數(shù)學(xué)（AIME）、推理以及編程（Codeforces）上的能力比較強(qiáng)。但是就歷史情況來(lái)說(shuō)，OpenAI模型的編程能力只停留在跑分中。

02gpt-oss-120b VS GLM-4.5-Air

所以，OpenAI這個(gè)新開源模型到底怎么樣，我覺得需要測(cè)一測(cè)。

尤其是，如果我們只把它放在開源模型的行列中，去和國(guó)產(chǎn)開源模型掰掰手腕，它會(huì)表現(xiàn)如何呢？我打算拿前幾天文章里介紹過的智譜最新的模型去做評(píng)測(cè)。

從公平性的角度看，我沒選智譜最強(qiáng)的總參數(shù)量達(dá)到3550億的模型GLM-4.5去做對(duì)比，而是拿了智譜更輕量級(jí)，參數(shù)量規(guī)模和gpt-oss-120b接近的GLM-4.5-Air，它同樣是MoE架構(gòu)的混合專家模型，GLM-4.5-Air的參數(shù)規(guī)模略小一些，總參數(shù)1060億，每次激活參數(shù)是120億，占比達(dá)到11.3%。這個(gè)更高的激活比例，意味著GLM-4.5-Air在泛化能力和跨領(lǐng)域綜合表現(xiàn)上會(huì)更為出色，特別是在開放性任務(wù)，比如軟件開發(fā)、創(chuàng)意生成和多語(yǔ)言翻譯等場(chǎng)景。

注：由于都是開源模型，部署方式和API調(diào)用的系統(tǒng)提示詞似乎都會(huì)影響模型表現(xiàn)，所以為了保證評(píng)測(cè)的公平性，這兩個(gè)模型我都通過他們的官方網(wǎng)頁(yè)版直接使用:

1）gpt-oss-120b: https://gpt-oss.com/ Reasoning level選擇High的狀態(tài)

2）GLM-4.5-Air: https://chat.z.ai/ 打開“自動(dòng)推理”，關(guān)閉“工具”中的全網(wǎng)搜索功能

評(píng)測(cè)1：物理邏輯模擬

我們先來(lái)試一個(gè)很經(jīng)典的測(cè)試模型物理邏輯模擬能力的編程題，就是讓AI寫一個(gè)有20個(gè)小球在旋轉(zhuǎn)的六邊形中彈跳的python腳本，這個(gè)問題的提示詞風(fēng)格和類型有很多，我自己調(diào)整迭代了個(gè)中文版本的，方便大家理解和復(fù)用

編寫一個(gè) Python 程序，在一個(gè)旋轉(zhuǎn)的 六邊形內(nèi)部模擬 20 個(gè)小球彈跳。
要求如下：
- 單個(gè) Python 文件。
- 多邊形繞其中心勻速旋轉(zhuǎn)，每 5 秒旋轉(zhuǎn) 360°。
- 小球受重力和摩擦力影響。
- 實(shí)現(xiàn)碰撞檢測(cè)與響應(yīng)：球與旋轉(zhuǎn)邊壁碰撞時(shí)，需考慮墻壁的運(yùn)動(dòng)，實(shí)現(xiàn)真實(shí)的反彈效果。球與球之間不發(fā)生彈性碰撞。
- 所有小球從多邊形中心初始化，半徑相同。
- 在起始狀態(tài)下，球從六邊形內(nèi)部不同位置受重力影響開始下落
- 多邊形尺寸需足夠大以始終容納所有球。
- 模擬應(yīng)保持大約 60 FPS 的流暢動(dòng)畫。
- 代碼結(jié)構(gòu)應(yīng)模塊化、清晰、帶注釋。

GLM-4.5-Air的效果如下

gpt-oss-120b的效果

GLM-4.5-Air勝，gpt-oss-120b有些很奇怪的表現(xiàn)，比如小球卡在多邊形的邊上，以及，小球會(huì)逐漸爆出，越蹦越少。測(cè)完這個(gè)任務(wù)，我已經(jīng)開始對(duì)gpt-oss-120b怎么能在Codeforces跑出那么高分有疑問了。而接下來(lái)的一個(gè)任務(wù)對(duì)比，則可能會(huì)讓你大跌眼鏡。

評(píng)測(cè)2：用html創(chuàng)建原型

接下來(lái)，我們?cè)僭囈粋€(gè)我很常用的讓模型生成app原型界面的任務(wù)，這個(gè)任務(wù)既可以測(cè)試模型的前端代碼撰寫能力，也能比較好的評(píng)估模型的設(shè)計(jì)審美。

因?yàn)檫@次不是在AI Coding工具中調(diào)用大模型，而是直接使用網(wǎng)頁(yè)版做單次生成，所以我簡(jiǎn)單調(diào)整了下我的提示詞要求，只讓模型生成app首頁(yè)一個(gè)界面的設(shè)計(jì)

我想開發(fā)一個(gè)擁有播客、視頻、圖文等多種內(nèi)容形式的社區(qū)app，現(xiàn)在需要輸出高保真的原型圖，請(qǐng)通過以下方式幫我完成app首頁(yè)的原型設(shè)計(jì)，并確保該原型界面可以直接用于開發(fā)：
1、用戶體驗(yàn)分析：先分析這個(gè) App 的主要功能和用戶需求，確定核心交互邏輯。
2、產(chǎn)品界面規(guī)劃：作為產(chǎn)品經(jīng)理，定義關(guān)鍵界面，確保信息架構(gòu)合理。
3、高保真 UI 設(shè)計(jì)：作為 UI 設(shè)計(jì)師，設(shè)計(jì)貼近真實(shí) iOS/Android 設(shè)計(jì)規(guī)范的界面，使用現(xiàn)代化的 UI 元素，使其具有良好的視覺體驗(yàn)。
4、HTML 原型實(shí)現(xiàn)：使用 HTML + Tailwind CSS（或 Bootstrap）生成所有原型界面，并使用 FontAwesome（或其他開源 UI 組件）讓界面更加精美、接近真實(shí)的 App 設(shè)計(jì)。
拆分代碼文件，保持結(jié)構(gòu)清晰：
5、界面在單個(gè)html文件中呈現(xiàn)。
- 真實(shí)感增強(qiáng)：
  - 界面尺寸應(yīng)模擬 iPhone 15 Pro，并讓界面圓角化，使其更像真實(shí)的手機(jī)界面。
  - 使用真實(shí)的 UI 圖片，而非占位符圖片（可從 Unsplash、Pexels、Apple 官方 UI 資源中選擇）。
  - 添加頂部狀態(tài)欄（模擬 iOS 狀態(tài)欄），并包含 App 導(dǎo)航欄（類似 iOS 底部 Tab Bar）。
請(qǐng)按照以上要求生成完整的 HTML 代碼，并確保其可用于實(shí)際開發(fā)。

先來(lái)看下GLM-4.5-Air的效果，不能說(shuō)很驚艷，但很符合我預(yù)計(jì)，屬于中規(guī)中矩的設(shè)計(jì)風(fēng)格，從Claude 4.0以來(lái)，比較頂尖的Coding模型大致都會(huì)有類似表現(xiàn)。

GLM-4.5-Air

再來(lái)看下gpt-oss-120b的效果，emmm...我都不好意思貼圖，如果不是我自己測(cè)出來(lái)的，我甚至?xí)X得我這是特意給OpenAI寫的黑稿

gpt-oss-120b

后面嘗試過幫gpt-oss-120b挽尊，又嘗試了幾次抽卡，但還是不行，事實(shí)確實(shí)就這么糟...

我仔細(xì)看了看gpt-oss-120b為我生成的html代碼，算是發(fā)現(xiàn)了一點(diǎn)問題所在：讓你給我寫代碼，你“...省略”是個(gè)怎么回事...

我的這份無(wú)語(yǔ)也省略了。

評(píng)測(cè)3：邏輯推理題

再測(cè)代碼問題的話，就是對(duì)OpenAI的不禮貌了...所以，我們還是跑點(diǎn)別的任務(wù)吧，比如邏輯推理。

背景：有五棟并排的房子，每棟房子的顏色都不同。每棟房子里都住著一個(gè)不同國(guó)籍的人。每個(gè)人都喝不同的飲料，抽不同品牌的雪茄，養(yǎng)不同的寵物。 已知條件： 
1. 英國(guó)人住在紅色的房子里。 
2. 瑞典人養(yǎng)狗。 
3. 丹麥人喝茶。 
4. 綠房子在白房子的正左邊。 
5. 綠房子的主人喝咖啡。 
6. 抽 Pall Mall 牌雪茄的人養(yǎng)鳥。 
7. 黃房子的主人抽 Dunhill 牌雪茄。 
8. 住在中間那棟房子里的人喝牛奶。 
9. 挪威人住在第一棟房子里。 
10. 抽 Blends 牌雪茄的人住在養(yǎng)貓的人旁邊。 
11. 養(yǎng)馬的人住在抽 Dunhill 牌雪茄的人旁邊。 
12. 抽 Bluemasters 牌雪茄的人喝啤酒。 
13. 德國(guó)人抽 Prince 牌雪茄。 
14. 挪威人住在藍(lán)色房子的旁邊。 
15. 抽 Blends 牌雪茄的人，他的鄰居喝水。 
問題：誰(shuí)養(yǎng)魚？請(qǐng)展示你的推理過程。

在這個(gè)問題上，GLM-4.5-Air和gpt-oss-120b都給了我正確答案：德國(guó)人養(yǎng)魚

GLM-4.5-Air

gpt-oss-120b

不過整個(gè)過程中，gpt-oss-120b的思考速度讓我感覺是很快，我測(cè)了兩次，分別是思考了6秒鐘和36秒，而GLM-4.5-Air好像是想得有點(diǎn)過多和過于謹(jǐn)慎了，大概花了90秒才給出答案，所以這個(gè)問題就當(dāng)是推理能力一致的情況下，gpt-oss-120b以速度優(yōu)勢(shì)小勝吧。

通過上面的三組測(cè)試，我自己的感受是，gpt-oss-120b這個(gè)模型離開源模型的SOTA還有點(diǎn)距離，包括他們發(fā)出的benchmark分?jǐn)?shù)也像吳恩達(dá)所說(shuō)的，我們可能還需要再期待下第三方的公允測(cè)試才行。

以及，我自己不是技術(shù)出身，但是我的感覺是MoE架構(gòu)的大模型，如果激活參數(shù)太少的話，做起依賴邏輯的數(shù)學(xué)、推理題可能問題不大，但是在知識(shí)的準(zhǔn)確性上會(huì)出些問題，就像我們都知道的“大模型是互聯(lián)網(wǎng)知識(shí)的模糊壓縮”，參數(shù)量越小，壓縮率越高，所看見的知識(shí)也就越模糊。

所以，51億的激活參數(shù)給了gpt-oss-120b更快的推理速度，但犧牲的就是你所獲得結(jié)果的準(zhǔn)確性，不管是代碼中一個(gè)開源圖片的索引鏈接，還是你想知道的關(guān)于這個(gè)世界的任何知識(shí)。

我很高興OpenAI進(jìn)入開源模型領(lǐng)域攪局，我們有機(jī)會(huì)看到更激烈的開源大模型的“巔峰對(duì)決”，但是就這一刻來(lái)說(shuō)，我不會(huì)把編程的任務(wù)交給gpt-oss-120b，或者交給任何的OpenAI模型。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.