<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      OpenAI新模型gpt-oss-120b怎么樣?三大場(chǎng)景實(shí)測(cè)首發(fā)(對(duì)比GLM-4.5-Air)

      0
      分享至

      Claude Opus 4.1、gpt-oss-120b、Google Genie 3,看到又蹦出的這一堆新模型你是不是要懵了...昨天可以說(shuō)是AI領(lǐng)域的瘋狂星期三了。

      我在凌晨一點(diǎn)看到Anthropic發(fā)布Claude Opus 4.1時(shí)還稍稍有點(diǎn)興奮,快速寫了這么篇介紹文章

      寫完發(fā)布之后,看了眼X,發(fā)現(xiàn)糟了,寫早了。OpenAI又給我整出了gpt-oss-120b和gpt-oss-20b這兩個(gè)開源模型。

      再到第二天一早醒來(lái),看到Google發(fā)布世界模型Genie 3,我徹底感覺麻了...科技博主的命也是命啊,真寫不過來(lái)了。

      不過,OpenAI這次的發(fā)布還是挺有意思,值得聊聊的:

      一是這代表OpenAI再次Open了,gpt-oss是OpenAI時(shí)隔6年,繼GPT-2之后首次發(fā)布開源權(quán)重語(yǔ)言模型;

      二是對(duì)LLM開源生態(tài)來(lái)說(shuō),本來(lái)開源模型的SOTA之爭(zhēng)早就成了中國(guó)的內(nèi)部競(jìng)爭(zhēng),DeepSeek、Kimi、Qwen、智譜這幾家近期輪流坐上開源模型的頭把交椅,而OpenAI的入局還是給這場(chǎng)本來(lái)已經(jīng)結(jié)束的戰(zhàn)爭(zhēng)增添了不少變數(shù),開源SOTA模型似乎又要回到中美競(jìng)爭(zhēng)的格局了。

      01gpt-oss-120b到底怎么樣?

      首先是參數(shù)規(guī)模。OpenAI的gpt-oss-120b擁有1170億總參數(shù),其中每次推理僅激活51億參數(shù),占比僅為4.4%。這種超稀疏的設(shè)計(jì),使得gpt-oss-120b在處理結(jié)構(gòu)化和嚴(yán)密邏輯任務(wù)時(shí),推理效率和性能極其突出。

      其次是架構(gòu)設(shè)計(jì)上的獨(dú)特性。gpt-oss系列同樣采用了混合專家(MoE)架構(gòu),并原生支持MXFP4量化方案,用官方的話說(shuō)是能夠高效地在 80G GPU的高性能電腦上運(yùn)行?

      Excuse me?80G?誰(shuí)家好人家用的電腦能配一張英偉達(dá)H100 GPU呢

      (外網(wǎng)的網(wǎng)友和我有同樣的疑問)

      所以,對(duì)普通用戶來(lái)說(shuō),暫時(shí)就別想著在自己電腦上部署gpt-oss-120b了,老老實(shí)實(shí)等第三方平臺(tái)的API,或者使用OpenAI提供的體驗(yàn)平臺(tái)去試試吧。

      從公布的benchmark上,OpenAI的這個(gè)新開源模型在數(shù)學(xué)(AIME)、推理以及編程(Codeforces)上的能力比較強(qiáng)。但是就歷史情況來(lái)說(shuō),OpenAI模型的編程能力只停留在跑分中。

      02gpt-oss-120b VS GLM-4.5-Air

      所以,OpenAI這個(gè)新開源模型到底怎么樣,我覺得需要測(cè)一測(cè)。

      尤其是,如果我們只把它放在開源模型的行列中,去和國(guó)產(chǎn)開源模型掰掰手腕,它會(huì)表現(xiàn)如何呢?我打算拿前幾天文章里介紹過的智譜最新的模型去做評(píng)測(cè)。

      從公平性的角度看,我沒選智譜最強(qiáng)的總參數(shù)量達(dá)到3550億的模型GLM-4.5去做對(duì)比,而是拿了智譜更輕量級(jí),參數(shù)量規(guī)模和gpt-oss-120b接近的GLM-4.5-Air,它同樣是MoE架構(gòu)的混合專家模型,GLM-4.5-Air的參數(shù)規(guī)模略小一些,總參數(shù)1060億,每次激活參數(shù)是120億,占比達(dá)到11.3%。這個(gè)更高的激活比例,意味著GLM-4.5-Air在泛化能力和跨領(lǐng)域綜合表現(xiàn)上會(huì)更為出色,特別是在開放性任務(wù),比如軟件開發(fā)、創(chuàng)意生成和多語(yǔ)言翻譯等場(chǎng)景。

      注:由于都是開源模型,部署方式和API調(diào)用的系統(tǒng)提示詞似乎都會(huì)影響模型表現(xiàn),所以為了保證評(píng)測(cè)的公平性,這兩個(gè)模型我都通過他們的官方網(wǎng)頁(yè)版直接使用:

      1)gpt-oss-120b: https://gpt-oss.com/ Reasoning level選擇High的狀態(tài)

      2)GLM-4.5-Air: https://chat.z.ai/ 打開“自動(dòng)推理”,關(guān)閉“工具”中的全網(wǎng)搜索功能

      評(píng)測(cè)1:物理邏輯模擬

      我們先來(lái)試一個(gè)很經(jīng)典的測(cè)試模型物理邏輯模擬能力的編程題,就是讓AI寫一個(gè)有20個(gè)小球在旋轉(zhuǎn)的六邊形中彈跳的python腳本,這個(gè)問題的提示詞風(fēng)格和類型有很多,我自己調(diào)整迭代了個(gè)中文版本的,方便大家理解和復(fù)用

      編寫一個(gè) Python 程序,在一個(gè)旋轉(zhuǎn)的 六邊形內(nèi)部模擬 20 個(gè)小球彈跳。
      要求如下:
      - 單個(gè) Python 文件。
      - 多邊形繞其中心勻速旋轉(zhuǎn),每 5 秒旋轉(zhuǎn) 360°。
      - 小球受重力和摩擦力影響。
      - 實(shí)現(xiàn)碰撞檢測(cè)與響應(yīng):球與旋轉(zhuǎn)邊壁碰撞時(shí),需考慮墻壁的運(yùn)動(dòng),實(shí)現(xiàn)真實(shí)的反彈效果。球與球之間不發(fā)生彈性碰撞。
      - 所有小球從多邊形中心初始化,半徑相同。
      - 在起始狀態(tài)下,球從六邊形內(nèi)部不同位置受重力影響開始下落
      - 多邊形尺寸需足夠大以始終容納所有球。
      - 模擬應(yīng)保持大約 60 FPS 的流暢動(dòng)畫。
      - 代碼結(jié)構(gòu)應(yīng)模塊化、清晰、帶注釋。

      GLM-4.5-Air的效果如下

      gpt-oss-120b的效果

      GLM-4.5-Air勝,gpt-oss-120b有些很奇怪的表現(xiàn),比如小球卡在多邊形的邊上,以及,小球會(huì)逐漸爆出,越蹦越少。測(cè)完這個(gè)任務(wù),我已經(jīng)開始對(duì)gpt-oss-120b怎么能在Codeforces跑出那么高分有疑問了。而接下來(lái)的一個(gè)任務(wù)對(duì)比,則可能會(huì)讓你大跌眼鏡。

      評(píng)測(cè)2:用html創(chuàng)建原型

      接下來(lái),我們?cè)僭囈粋€(gè)我很常用的讓模型生成app原型界面的任務(wù),這個(gè)任務(wù)既可以測(cè)試模型的前端代碼撰寫能力,也能比較好的評(píng)估模型的設(shè)計(jì)審美。

      因?yàn)檫@次不是在AI Coding工具中調(diào)用大模型,而是直接使用網(wǎng)頁(yè)版做單次生成,所以我簡(jiǎn)單調(diào)整了下我的提示詞要求,只讓模型生成app首頁(yè)一個(gè)界面的設(shè)計(jì)

      我想開發(fā)一個(gè)擁有播客、視頻、圖文等多種內(nèi)容形式的社區(qū)app,現(xiàn)在需要輸出高保真的原型圖,請(qǐng)通過以下方式幫我完成app首頁(yè)的原型設(shè)計(jì),并確保該原型界面可以直接用于開發(fā):
      1、用戶體驗(yàn)分析:先分析這個(gè) App 的主要功能和用戶需求,確定核心交互邏輯。
      2、產(chǎn)品界面規(guī)劃:作為產(chǎn)品經(jīng)理,定義關(guān)鍵界面,確保信息架構(gòu)合理。
      3、高保真 UI 設(shè)計(jì):作為 UI 設(shè)計(jì)師,設(shè)計(jì)貼近真實(shí) iOS/Android 設(shè)計(jì)規(guī)范的界面,使用現(xiàn)代化的 UI 元素,使其具有良好的視覺體驗(yàn)。
      4、HTML 原型實(shí)現(xiàn):使用 HTML + Tailwind CSS(或 Bootstrap)生成所有原型界面,并使用 FontAwesome(或其他開源 UI 組件)讓界面更加精美、接近真實(shí)的 App 設(shè)計(jì)。
      拆分代碼文件,保持結(jié)構(gòu)清晰:
      5、界面在單個(gè)html文件中呈現(xiàn)。
      - 真實(shí)感增強(qiáng):
        - 界面尺寸應(yīng)模擬 iPhone 15 Pro,并讓界面圓角化,使其更像真實(shí)的手機(jī)界面。
        - 使用真實(shí)的 UI 圖片,而非占位符圖片(可從 Unsplash、Pexels、Apple 官方 UI 資源中選擇)。
        - 添加頂部狀態(tài)欄(模擬 iOS 狀態(tài)欄),并包含 App 導(dǎo)航欄(類似 iOS 底部 Tab Bar)。
      請(qǐng)按照以上要求生成完整的 HTML 代碼,并確保其可用于實(shí)際開發(fā)。

      先來(lái)看下GLM-4.5-Air的效果,不能說(shuō)很驚艷,但很符合我預(yù)計(jì),屬于中規(guī)中矩的設(shè)計(jì)風(fēng)格,從Claude 4.0以來(lái),比較頂尖的Coding模型大致都會(huì)有類似表現(xiàn)。

      GLM-4.5-Air

      再來(lái)看下gpt-oss-120b的效果,emmm...我都不好意思貼圖,如果不是我自己測(cè)出來(lái)的,我甚至?xí)X得我這是特意給OpenAI寫的黑稿

      gpt-oss-120b

      后面嘗試過幫gpt-oss-120b挽尊,又嘗試了幾次抽卡,但還是不行,事實(shí)確實(shí)就這么糟...

      我仔細(xì)看了看gpt-oss-120b為我生成的html代碼,算是發(fā)現(xiàn)了一點(diǎn)問題所在:讓你給我寫代碼,你“...省略”是個(gè)怎么回事...

      我的這份無(wú)語(yǔ)也省略了。

      評(píng)測(cè)3:邏輯推理題

      再測(cè)代碼問題的話,就是對(duì)OpenAI的不禮貌了...所以,我們還是跑點(diǎn)別的任務(wù)吧,比如邏輯推理。

      背景:有五棟并排的房子,每棟房子的顏色都不同。每棟房子里都住著一個(gè)不同國(guó)籍的人。每個(gè)人都喝不同的飲料,抽不同品牌的雪茄,養(yǎng)不同的寵物。 已知條件: 
      1. 英國(guó)人住在紅色的房子里。 
      2. 瑞典人養(yǎng)狗。 
      3. 丹麥人喝茶。 
      4. 綠房子在白房子的正左邊。 
      5. 綠房子的主人喝咖啡。 
      6. 抽 Pall Mall 牌雪茄的人養(yǎng)鳥。 
      7. 黃房子的主人抽 Dunhill 牌雪茄。 
      8. 住在中間那棟房子里的人喝牛奶。 
      9. 挪威人住在第一棟房子里。 
      10. 抽 Blends 牌雪茄的人住在養(yǎng)貓的人旁邊。 
      11. 養(yǎng)馬的人住在抽 Dunhill 牌雪茄的人旁邊。 
      12. 抽 Bluemasters 牌雪茄的人喝啤酒。 
      13. 德國(guó)人抽 Prince 牌雪茄。 
      14. 挪威人住在藍(lán)色房子的旁邊。 
      15. 抽 Blends 牌雪茄的人,他的鄰居喝水。 
      問題:誰(shuí)養(yǎng)魚?請(qǐng)展示你的推理過程。

      在這個(gè)問題上,GLM-4.5-Air和gpt-oss-120b都給了我正確答案:德國(guó)人養(yǎng)魚

      GLM-4.5-Air

      gpt-oss-120b

      不過整個(gè)過程中,gpt-oss-120b的思考速度讓我感覺是很快,我測(cè)了兩次,分別是思考了6秒鐘和36秒,而GLM-4.5-Air好像是想得有點(diǎn)過多和過于謹(jǐn)慎了,大概花了90秒才給出答案,所以這個(gè)問題就當(dāng)是推理能力一致的情況下,gpt-oss-120b以速度優(yōu)勢(shì)小勝吧。

      03

      通過上面的三組測(cè)試,我自己的感受是,gpt-oss-120b這個(gè)模型離開源模型的SOTA還有點(diǎn)距離,包括他們發(fā)出的benchmark分?jǐn)?shù)也像吳恩達(dá)所說(shuō)的,我們可能還需要再期待下第三方的公允測(cè)試才行。

      以及,我自己不是技術(shù)出身,但是我的感覺是MoE架構(gòu)的大模型,如果激活參數(shù)太少的話,做起依賴邏輯的數(shù)學(xué)、推理題可能問題不大,但是在知識(shí)的準(zhǔn)確性上會(huì)出些問題,就像我們都知道的“大模型是互聯(lián)網(wǎng)知識(shí)的模糊壓縮”,參數(shù)量越小,壓縮率越高,所看見的知識(shí)也就越模糊。

      所以,51億的激活參數(shù)給了gpt-oss-120b更快的推理速度,但犧牲的就是你所獲得結(jié)果的準(zhǔn)確性,不管是代碼中一個(gè)開源圖片的索引鏈接,還是你想知道的關(guān)于這個(gè)世界的任何知識(shí)。

      我很高興OpenAI進(jìn)入開源模型領(lǐng)域攪局,我們有機(jī)會(huì)看到更激烈的開源大模型的“巔峰對(duì)決”,但是就這一刻來(lái)說(shuō),我不會(huì)把編程的任務(wù)交給gpt-oss-120b,或者交給任何的OpenAI模型。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      李在明:漢字得學(xué)

      李在明:漢字得學(xué)

      極目新聞
      2025-12-18 08:18:04
      女兒失蹤3年,竟托夢(mèng)說(shuō)在鄰居家魚缸里,警察趕到后當(dāng)場(chǎng)愣了

      女兒失蹤3年,竟托夢(mèng)說(shuō)在鄰居家魚缸里,警察趕到后當(dāng)場(chǎng)愣了

      罪案洞察者
      2025-09-16 14:31:27
      全新寶馬 X6 曝光, 3.0T+48V 輕混,4 秒破百太狂暴!

      全新寶馬 X6 曝光, 3.0T+48V 輕混,4 秒破百太狂暴!

      阿芒娛樂說(shuō)
      2025-12-18 10:00:19
      2015年,谷俊山被判死緩,朱德外孫對(duì)他的評(píng)價(jià)一針見血

      2015年,谷俊山被判死緩,朱德外孫對(duì)他的評(píng)價(jià)一針見血

      歷史龍?jiān)w
      2025-12-03 13:50:04
      1957年國(guó)慶,毛主席撇下外賓和元帥,徑直走向角落給一瘸腿軍人遞煙:你怎么也不來(lái)看我?

      1957年國(guó)慶,毛主席撇下外賓和元帥,徑直走向角落給一瘸腿軍人遞煙:你怎么也不來(lái)看我?

      寄史言志
      2025-12-17 17:00:24
      美國(guó)一父親去殯儀館領(lǐng)亡子衣物,竟領(lǐng)到逝者的腦組織,倒入洗衣機(jī)清洗后又將其舀起,家屬已提起訴訟

      美國(guó)一父親去殯儀館領(lǐng)亡子衣物,竟領(lǐng)到逝者的腦組織,倒入洗衣機(jī)清洗后又將其舀起,家屬已提起訴訟

      觀威海
      2025-12-18 09:06:04
      賭王女兒何超盈:從220斤瘦成紙片人,女兒6歲長(zhǎng)得像東北學(xué)霸老公

      賭王女兒何超盈:從220斤瘦成紙片人,女兒6歲長(zhǎng)得像東北學(xué)霸老公

      瞻史
      2025-12-17 14:23:31
      1973年八大司令對(duì)調(diào),主席指著葉帥說(shuō)了一句話,那場(chǎng)面連許世友都屏住了呼吸

      1973年八大司令對(duì)調(diào),主席指著葉帥說(shuō)了一句話,那場(chǎng)面連許世友都屏住了呼吸

      源溯歷史
      2025-12-11 18:26:07
      柬埔寨為啥不用中國(guó)戰(zhàn)斗機(jī)去應(yīng)戰(zhàn)泰國(guó)?不是不想,而是真的沒法用

      柬埔寨為啥不用中國(guó)戰(zhàn)斗機(jī)去應(yīng)戰(zhàn)泰國(guó)?不是不想,而是真的沒法用

      詩(shī)意世界
      2025-12-17 10:14:24
      美媒:快船拒絕交易祖巴茨等人,并認(rèn)為小瓊斯復(fù)出后會(huì)殺回季后賽

      美媒:快船拒絕交易祖巴茨等人,并認(rèn)為小瓊斯復(fù)出后會(huì)殺回季后賽

      懂球帝
      2025-12-18 09:10:08
      最能騙的上市公司,被姐弟倆5年掏空了

      最能騙的上市公司,被姐弟倆5年掏空了

      大貓財(cái)經(jīng)Pro
      2025-12-16 18:29:58
      工信部、央視點(diǎn)名!新國(guó)標(biāo)車讓人“無(wú)車可騎”?商家:價(jià)格貴700元

      工信部、央視點(diǎn)名!新國(guó)標(biāo)車讓人“無(wú)車可騎”?商家:價(jià)格貴700元

      品牌觀察官
      2025-12-15 20:11:43
      梁興初調(diào)任成都軍區(qū)司令,周總理當(dāng)面問他:你認(rèn)不認(rèn)識(shí)這個(gè)人啊?

      梁興初調(diào)任成都軍區(qū)司令,周總理當(dāng)面問他:你認(rèn)不認(rèn)識(shí)這個(gè)人啊?

      云霄紀(jì)史觀
      2025-12-16 17:57:58
      上海一大媽走后留700萬(wàn),銀行要求本人簽字才給,女兒做法太解氣

      上海一大媽走后留700萬(wàn),銀行要求本人簽字才給,女兒做法太解氣

      蘭姐說(shuō)故事
      2025-03-19 15:00:05
      盟友一哄而散,與中國(guó)決裂的立陶宛急忙建小組,全力尋求中國(guó)諒解

      盟友一哄而散,與中國(guó)決裂的立陶宛急忙建小組,全力尋求中國(guó)諒解

      趣文說(shuō)娛
      2025-12-17 15:47:31
      這三國(guó)向全球發(fā)出警告:誰(shuí)動(dòng)我兄弟就滅誰(shuí)!如今卻把槍口對(duì)準(zhǔn)中國(guó)

      這三國(guó)向全球發(fā)出警告:誰(shuí)動(dòng)我兄弟就滅誰(shuí)!如今卻把槍口對(duì)準(zhǔn)中國(guó)

      青田花姑娘
      2025-12-16 17:50:51
      三分球兩場(chǎng)合計(jì)12中0!離開勇士這么多年,你依舊沒能證明自己

      三分球兩場(chǎng)合計(jì)12中0!離開勇士這么多年,你依舊沒能證明自己

      移動(dòng)擋拆
      2025-12-17 19:12:23
      凱特一家參加圣誕午宴,臉上斑點(diǎn)多,夏洛特像爸爸喬治太可愛!

      凱特一家參加圣誕午宴,臉上斑點(diǎn)多,夏洛特像爸爸喬治太可愛!

      古希臘掌管松餅的神
      2025-12-17 09:19:32
      狂野奔放,闖蕩歐美區(qū)的98年廣東小妹 - Jade kush

      狂野奔放,闖蕩歐美區(qū)的98年廣東小妹 - Jade kush

      吃瓜黨二號(hào)頭目
      2025-12-18 08:58:55
      過于尷尬,記者:保羅曾組織派對(duì)團(tuán)建,但除了比爾和祖巴茨快船沒人來(lái)

      過于尷尬,記者:保羅曾組織派對(duì)團(tuán)建,但除了比爾和祖巴茨快船沒人來(lái)

      懂球帝
      2025-12-18 08:06:12
      2025-12-18 11:12:49
      AI進(jìn)化論花生 incentive-icons
      AI進(jìn)化論花生
      AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開發(fā)者
      96文章數(shù) 40關(guān)注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創(chuàng)業(yè)大賽總決賽

      頭條要聞

      外賣小哥:若25km/h速度送完一單就扣6分 飯碗都沒了

      頭條要聞

      外賣小哥:若25km/h速度送完一單就扣6分 飯碗都沒了

      體育要聞

      短短一年,從爭(zhēng)冠到0勝墊底...

      娛樂要聞

      內(nèi)娛解約大戰(zhàn):鞠婧祎和絲芭,誰(shuí)是狼人

      財(cái)經(jīng)要聞

      重大改革,身關(guān)14億人的政策徹底變了!

      汽車要聞

      開箱日產(chǎn)大沙發(fā) 精致辦公or躺平追劇 哪個(gè)更適配?

      態(tài)度原創(chuàng)

      本地
      家居
      時(shí)尚
      手機(jī)
      公開課

      本地新聞

      云游安徽|決戰(zhàn)烽火照古今,千秋一脈看宿州

      家居要聞

      高端私宅 理想隱居圣地

      今年一定要擁有這件“爆火單品”,讓你美出新高度

      手機(jī)要聞

      藥丸挖孔再見 蘋果iPhone 18 Pro屏幕單挖孔

      公開課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲色无码| 国产亚洲视频在线播放香蕉| 国产浮力第一页| 777久久精品一区二区三区无码| 波多野结衣av高清一区二区三区 | 琼结县| 91国内视频| 国模在线| 伊人精品成人久久综合97| 免费观看的av毛片的网站| 国产成人欧美综合在线影院| 成人深爱网| 蜜桃在线视频| 免费超爽大片黄| 上司人妻互换hd无码| 女高中生自慰污污网站| 亚洲国产成人精品无色码| 国产精品无码无卡在线播放| 日本一本正道综合久久dvd| 无码成人AV在线看免费| 日韩熟女精品一区二区三区 | 热久久美女精品天天吊色| 久久亚洲国产成人亚| 亚洲成人无码电影 | 亚洲国产日韩精品一区二区三区 | 泾源县| 超碰人人操| 国产地址二永久伊甸园| 亚洲成人黄色电影| 新狼窝色av性久久久久久 | 男人天堂亚洲天堂女人天堂| 国产精品久久久久久影视| 鹿邑县| 北海市| 文化| 91在线观看| 中文字幕在线亚洲| 国产女人在线视频| 91精品乱码一区二区三区| 大肉大捧一进一出好爽视频mba | 久久婷婷五月综合色一区二区|