Claude Opus 4.1、gpt-oss-120b、Google Genie 3,看到又蹦出的這一堆新模型你是不是要懵了...昨天可以說(shuō)是AI領(lǐng)域的瘋狂星期三了。
我在凌晨一點(diǎn)看到Anthropic發(fā)布Claude Opus 4.1時(shí)還稍稍有點(diǎn)興奮,快速寫了這么篇介紹文章
寫完發(fā)布之后,看了眼X,發(fā)現(xiàn)糟了,寫早了。OpenAI又給我整出了gpt-oss-120b和gpt-oss-20b這兩個(gè)開源模型。
再到第二天一早醒來(lái),看到Google發(fā)布世界模型Genie 3,我徹底感覺麻了...科技博主的命也是命啊,真寫不過來(lái)了。
不過,OpenAI這次的發(fā)布還是挺有意思,值得聊聊的:
一是這代表OpenAI再次Open了,gpt-oss是OpenAI時(shí)隔6年,繼GPT-2之后首次發(fā)布開源權(quán)重語(yǔ)言模型;
二是對(duì)LLM開源生態(tài)來(lái)說(shuō),本來(lái)開源模型的SOTA之爭(zhēng)早就成了中國(guó)的內(nèi)部競(jìng)爭(zhēng),DeepSeek、Kimi、Qwen、智譜這幾家近期輪流坐上開源模型的頭把交椅,而OpenAI的入局還是給這場(chǎng)本來(lái)已經(jīng)結(jié)束的戰(zhàn)爭(zhēng)增添了不少變數(shù),開源SOTA模型似乎又要回到中美競(jìng)爭(zhēng)的格局了。
01gpt-oss-120b到底怎么樣?
首先是參數(shù)規(guī)模。OpenAI的gpt-oss-120b擁有1170億總參數(shù),其中每次推理僅激活51億參數(shù),占比僅為4.4%。這種超稀疏的設(shè)計(jì),使得gpt-oss-120b在處理結(jié)構(gòu)化和嚴(yán)密邏輯任務(wù)時(shí),推理效率和性能極其突出。
其次是架構(gòu)設(shè)計(jì)上的獨(dú)特性。gpt-oss系列同樣采用了混合專家(MoE)架構(gòu),并原生支持MXFP4量化方案,用官方的話說(shuō)是能夠高效地在 80G GPU的高性能電腦上運(yùn)行?
Excuse me?80G?誰(shuí)家好人家用的電腦能配一張英偉達(dá)H100 GPU呢
(外網(wǎng)的網(wǎng)友和我有同樣的疑問)
所以,對(duì)普通用戶來(lái)說(shuō),暫時(shí)就別想著在自己電腦上部署gpt-oss-120b了,老老實(shí)實(shí)等第三方平臺(tái)的API,或者使用OpenAI提供的體驗(yàn)平臺(tái)去試試吧。
從公布的benchmark上,OpenAI的這個(gè)新開源模型在數(shù)學(xué)(AIME)、推理以及編程(Codeforces)上的能力比較強(qiáng)。但是就歷史情況來(lái)說(shuō),OpenAI模型的編程能力只停留在跑分中。
02gpt-oss-120b VS GLM-4.5-Air
所以,OpenAI這個(gè)新開源模型到底怎么樣,我覺得需要測(cè)一測(cè)。
尤其是,如果我們只把它放在開源模型的行列中,去和國(guó)產(chǎn)開源模型掰掰手腕,它會(huì)表現(xiàn)如何呢?我打算拿前幾天文章里介紹過的智譜最新的模型去做評(píng)測(cè)。
從公平性的角度看,我沒選智譜最強(qiáng)的總參數(shù)量達(dá)到3550億的模型GLM-4.5去做對(duì)比,而是拿了智譜更輕量級(jí),參數(shù)量規(guī)模和gpt-oss-120b接近的GLM-4.5-Air,它同樣是MoE架構(gòu)的混合專家模型,GLM-4.5-Air的參數(shù)規(guī)模略小一些,總參數(shù)1060億,每次激活參數(shù)是120億,占比達(dá)到11.3%。這個(gè)更高的激活比例,意味著GLM-4.5-Air在泛化能力和跨領(lǐng)域綜合表現(xiàn)上會(huì)更為出色,特別是在開放性任務(wù),比如軟件開發(fā)、創(chuàng)意生成和多語(yǔ)言翻譯等場(chǎng)景。
注:由于都是開源模型,部署方式和API調(diào)用的系統(tǒng)提示詞似乎都會(huì)影響模型表現(xiàn),所以為了保證評(píng)測(cè)的公平性,這兩個(gè)模型我都通過他們的官方網(wǎng)頁(yè)版直接使用:
1)gpt-oss-120b: https://gpt-oss.com/ Reasoning level選擇High的狀態(tài)
2)GLM-4.5-Air: https://chat.z.ai/ 打開“自動(dòng)推理”,關(guān)閉“工具”中的全網(wǎng)搜索功能
評(píng)測(cè)1:物理邏輯模擬
我們先來(lái)試一個(gè)很經(jīng)典的測(cè)試模型物理邏輯模擬能力的編程題,就是讓AI寫一個(gè)有20個(gè)小球在旋轉(zhuǎn)的六邊形中彈跳的python腳本,這個(gè)問題的提示詞風(fēng)格和類型有很多,我自己調(diào)整迭代了個(gè)中文版本的,方便大家理解和復(fù)用
編寫一個(gè) Python 程序,在一個(gè)旋轉(zhuǎn)的 六邊形內(nèi)部模擬 20 個(gè)小球彈跳。
要求如下:
- 單個(gè) Python 文件。
- 多邊形繞其中心勻速旋轉(zhuǎn),每 5 秒旋轉(zhuǎn) 360°。
- 小球受重力和摩擦力影響。
- 實(shí)現(xiàn)碰撞檢測(cè)與響應(yīng):球與旋轉(zhuǎn)邊壁碰撞時(shí),需考慮墻壁的運(yùn)動(dòng),實(shí)現(xiàn)真實(shí)的反彈效果。球與球之間不發(fā)生彈性碰撞。
- 所有小球從多邊形中心初始化,半徑相同。
- 在起始狀態(tài)下,球從六邊形內(nèi)部不同位置受重力影響開始下落
- 多邊形尺寸需足夠大以始終容納所有球。
- 模擬應(yīng)保持大約 60 FPS 的流暢動(dòng)畫。
- 代碼結(jié)構(gòu)應(yīng)模塊化、清晰、帶注釋。GLM-4.5-Air的效果如下
gpt-oss-120b的效果
GLM-4.5-Air勝,gpt-oss-120b有些很奇怪的表現(xiàn),比如小球卡在多邊形的邊上,以及,小球會(huì)逐漸爆出,越蹦越少。測(cè)完這個(gè)任務(wù),我已經(jīng)開始對(duì)gpt-oss-120b怎么能在Codeforces跑出那么高分有疑問了。而接下來(lái)的一個(gè)任務(wù)對(duì)比,則可能會(huì)讓你大跌眼鏡。
評(píng)測(cè)2:用html創(chuàng)建原型
接下來(lái),我們?cè)僭囈粋€(gè)我很常用的讓模型生成app原型界面的任務(wù),這個(gè)任務(wù)既可以測(cè)試模型的前端代碼撰寫能力,也能比較好的評(píng)估模型的設(shè)計(jì)審美。
因?yàn)檫@次不是在AI Coding工具中調(diào)用大模型,而是直接使用網(wǎng)頁(yè)版做單次生成,所以我簡(jiǎn)單調(diào)整了下我的提示詞要求,只讓模型生成app首頁(yè)一個(gè)界面的設(shè)計(jì)
我想開發(fā)一個(gè)擁有播客、視頻、圖文等多種內(nèi)容形式的社區(qū)app,現(xiàn)在需要輸出高保真的原型圖,請(qǐng)通過以下方式幫我完成app首頁(yè)的原型設(shè)計(jì),并確保該原型界面可以直接用于開發(fā):
1、用戶體驗(yàn)分析:先分析這個(gè) App 的主要功能和用戶需求,確定核心交互邏輯。
2、產(chǎn)品界面規(guī)劃:作為產(chǎn)品經(jīng)理,定義關(guān)鍵界面,確保信息架構(gòu)合理。
3、高保真 UI 設(shè)計(jì):作為 UI 設(shè)計(jì)師,設(shè)計(jì)貼近真實(shí) iOS/Android 設(shè)計(jì)規(guī)范的界面,使用現(xiàn)代化的 UI 元素,使其具有良好的視覺體驗(yàn)。
4、HTML 原型實(shí)現(xiàn):使用 HTML + Tailwind CSS(或 Bootstrap)生成所有原型界面,并使用 FontAwesome(或其他開源 UI 組件)讓界面更加精美、接近真實(shí)的 App 設(shè)計(jì)。
拆分代碼文件,保持結(jié)構(gòu)清晰:
5、界面在單個(gè)html文件中呈現(xiàn)。
- 真實(shí)感增強(qiáng):
- 界面尺寸應(yīng)模擬 iPhone 15 Pro,并讓界面圓角化,使其更像真實(shí)的手機(jī)界面。
- 使用真實(shí)的 UI 圖片,而非占位符圖片(可從 Unsplash、Pexels、Apple 官方 UI 資源中選擇)。
- 添加頂部狀態(tài)欄(模擬 iOS 狀態(tài)欄),并包含 App 導(dǎo)航欄(類似 iOS 底部 Tab Bar)。
請(qǐng)按照以上要求生成完整的 HTML 代碼,并確保其可用于實(shí)際開發(fā)。先來(lái)看下GLM-4.5-Air的效果,不能說(shuō)很驚艷,但很符合我預(yù)計(jì),屬于中規(guī)中矩的設(shè)計(jì)風(fēng)格,從Claude 4.0以來(lái),比較頂尖的Coding模型大致都會(huì)有類似表現(xiàn)。
GLM-4.5-Air
再來(lái)看下gpt-oss-120b的效果,emmm...我都不好意思貼圖,如果不是我自己測(cè)出來(lái)的,我甚至?xí)X得我這是特意給OpenAI寫的黑稿
gpt-oss-120b
后面嘗試過幫gpt-oss-120b挽尊,又嘗試了幾次抽卡,但還是不行,事實(shí)確實(shí)就這么糟...
我仔細(xì)看了看gpt-oss-120b為我生成的html代碼,算是發(fā)現(xiàn)了一點(diǎn)問題所在:讓你給我寫代碼,你“...省略”是個(gè)怎么回事...
我的這份無(wú)語(yǔ)也省略了。
評(píng)測(cè)3:邏輯推理題
再測(cè)代碼問題的話,就是對(duì)OpenAI的不禮貌了...所以,我們還是跑點(diǎn)別的任務(wù)吧,比如邏輯推理。
背景:有五棟并排的房子,每棟房子的顏色都不同。每棟房子里都住著一個(gè)不同國(guó)籍的人。每個(gè)人都喝不同的飲料,抽不同品牌的雪茄,養(yǎng)不同的寵物。 已知條件:
1. 英國(guó)人住在紅色的房子里。
2. 瑞典人養(yǎng)狗。
3. 丹麥人喝茶。
4. 綠房子在白房子的正左邊。
5. 綠房子的主人喝咖啡。
6. 抽 Pall Mall 牌雪茄的人養(yǎng)鳥。
7. 黃房子的主人抽 Dunhill 牌雪茄。
8. 住在中間那棟房子里的人喝牛奶。
9. 挪威人住在第一棟房子里。
10. 抽 Blends 牌雪茄的人住在養(yǎng)貓的人旁邊。
11. 養(yǎng)馬的人住在抽 Dunhill 牌雪茄的人旁邊。
12. 抽 Bluemasters 牌雪茄的人喝啤酒。
13. 德國(guó)人抽 Prince 牌雪茄。
14. 挪威人住在藍(lán)色房子的旁邊。
15. 抽 Blends 牌雪茄的人,他的鄰居喝水。
問題:誰(shuí)養(yǎng)魚?請(qǐng)展示你的推理過程。在這個(gè)問題上,GLM-4.5-Air和gpt-oss-120b都給了我正確答案:德國(guó)人養(yǎng)魚
GLM-4.5-Air
gpt-oss-120b
不過整個(gè)過程中,gpt-oss-120b的思考速度讓我感覺是很快,我測(cè)了兩次,分別是思考了6秒鐘和36秒,而GLM-4.5-Air好像是想得有點(diǎn)過多和過于謹(jǐn)慎了,大概花了90秒才給出答案,所以這個(gè)問題就當(dāng)是推理能力一致的情況下,gpt-oss-120b以速度優(yōu)勢(shì)小勝吧。
03
通過上面的三組測(cè)試,我自己的感受是,gpt-oss-120b這個(gè)模型離開源模型的SOTA還有點(diǎn)距離,包括他們發(fā)出的benchmark分?jǐn)?shù)也像吳恩達(dá)所說(shuō)的,我們可能還需要再期待下第三方的公允測(cè)試才行。
以及,我自己不是技術(shù)出身,但是我的感覺是MoE架構(gòu)的大模型,如果激活參數(shù)太少的話,做起依賴邏輯的數(shù)學(xué)、推理題可能問題不大,但是在知識(shí)的準(zhǔn)確性上會(huì)出些問題,就像我們都知道的“大模型是互聯(lián)網(wǎng)知識(shí)的模糊壓縮”,參數(shù)量越小,壓縮率越高,所看見的知識(shí)也就越模糊。
所以,51億的激活參數(shù)給了gpt-oss-120b更快的推理速度,但犧牲的就是你所獲得結(jié)果的準(zhǔn)確性,不管是代碼中一個(gè)開源圖片的索引鏈接,還是你想知道的關(guān)于這個(gè)世界的任何知識(shí)。
我很高興OpenAI進(jìn)入開源模型領(lǐng)域攪局,我們有機(jī)會(huì)看到更激烈的開源大模型的“巔峰對(duì)決”,但是就這一刻來(lái)說(shuō),我不會(huì)把編程的任務(wù)交給gpt-oss-120b,或者交給任何的OpenAI模型。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.