<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5編程成績有貓膩!自刪23道測試題,關鍵基準還是自己提的

      0
      分享至

      白交 發自 凹非寺
      量子位 | 公眾號 QbitAI

      別急著用GPT-5編程了,可能它能力沒有你想象中那么強。

      有人發現,官方測試編程能力用的SWE-bench Verified,但貨不對板,只用了477個問題。



      什么意思呢?我們知道,SWE-bench是評估模型/智能體自主編程能力的一個通用且常用的指標。而SWE-bench Verified作為它的子集,本來一共有500個問題。

      現在相當于OpenAI自行省略的那23個問題,自己搞了個子集的“子集”來評估模型能力。

      而如果這些題默認零分,那么得分實際上是比Claude Opus 4.1還要低的。因為現在僅有0.4%的差距。



      OpenAI這種自行忽略23道題的操作,已經不是第一次了。

      早在GPT-4.1發布時就信誓旦旦地說,之所以忽略是因為這些問題的解決方案無法在他們的基礎設施運行。



      離譜了朋友們!要知道SWE-bench Verified這個OpenAI自己提的,理由也是因為SWE-bench無法系統評估模型的編程能力,所以決定自己再提煉一個子集。

      現在又因為測試題無法正常運行,所以自行又搞了個子集的“子集”。

      本來以為GPT-5直播里出現圖表錯誤已經夠離譜了,結果現在告訴我這里面的成績可能還有假?



      OpenAI一直省略23個問題

      已經開始有網友發現,GPT-5能力并不比Claude 4.1 Opus好多少。

      現在來看,這個官方給的結果或許根本沒有參考價值。

      網友們除了自行忽略部分測試題,“偽造了結果”這一發現外,還發現,他們是將具有最大思維努力的GPT-5與沒有擴展思維僅靠原始模型輸出的Opus 4.1進行比較。這種比較實際上沒有參考意義。



      而他們之所以只使用477個問題來測試,理由也跟GPT-4.1發布時一樣,因為他們內部的基礎設施運行不了剩下的23個問題。



      今年4月份發布GPT-4.1時,在同一基準僅使用477個問題下得得分在54.6%。

      當時官方還指出,如果保守地將這些問題的得分定為 0,那么54.6%的得分就變成了52.1%。即便是這樣,這個數值放在當時也是最高的。



      而Anthropic這邊,其實也已經發現了OpenAI這個操作。

      就在Claude Opus 4.1發布公布編程成績之時,在文章的末尾有這么一句話。



      對于Claude 4系列模型,他們繼續使用相同的簡單框架,該框架僅為模型配備了兩種工具——一個Bash工具和一個通過字符串替換進行文件編輯的工具,并且不再包含Claude 3.7 Sonnet中使用的第三個“規劃工具”。

      并在最后注明:在所有Claude 4模型中,他們報告的分數基于完整的500個問題。OpenAI模型的得分基于477問題的子集進行報告。



      基準還是OpenAI自己提的

      如果說,SWE-bench Verified還是OpenAI自己提的基準,那這件事就更離譜了。

      這不就相當于自己搬起石頭砸自己的腳啦嘛。



      當時啊還是因為類似的原因——他們測試發現SWE-bench的一些任務可能難以解決甚至無法解決,導致SWE-bench無法系統性評估模型的自主編程能力。

      于是乎,他們決定與SWE-bench的作者合作,決定弄出個新版本,希望能夠提供更準確的評估。

      他們共同發起了一項人工注釋活動,共有93位資深程序員參與進來,以篩選SWE-bench測試集每個樣本,從而獲得適當范圍的單元測試和明確指定的問題描述。

      他們隨機抽取了1699個樣本,然后基于統一標準來進行標注。

      比如,問題描述是否明確?每個注釋都有一個標簽,范圍從 [0, 1, 2, 3],嚴重程度依次遞增。

      標簽0和1 表示輕微;標簽2和3表示嚴重,表示樣本在某些方面存在缺陷,應予以丟棄。



      此外,我們還會評估每個示例的難度,方法是讓注釋者估算開發人員確定并實現解決方案所需的時間。

      最終得到了500個經過驗證的樣本,并且按照難度對數據集進行細分?!昂唵巍弊蛹?96個小于15分鐘的修復任務,而“困難”子集包含 45 個大于 1 小時的任務。

      結果現在這個子集又被OpenAI縮減了。

      One More Thing

      不過,還是有個總榜單或許值得參考,就是那個最原始的SWE-bench。

      在這個榜單中,Claude 4 Opus還是占據著領先位置。



      GPT-5也已經發過好一陣了,不知道你有沒有這樣類似的編程體驗呀?歡迎在評論區與我們分享。

      參考鏈接:
      [1]https://www.swebench.com/
      [2]https://openai.com/index/introducing-gpt-5/
      [3]https://www.anthropic.com/news/claude-opus-4-1
      [4]https://x.com/SemiAnalysis_/status/1955028150217478177
      [5]https://x.com/DavidOndrej1/status/1954158161721487482

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      三亞不香了?東北人撤離成潮,壓垮他們的不是物價,而是生活現實

      三亞不香了?東北人撤離成潮,壓垮他們的不是物價,而是生活現實

      歷史有些冷
      2025-12-04 20:20:06
      被網友家的“暖氣片用法”驚到了!打開思路后,比地暖還要香

      被網友家的“暖氣片用法”驚到了!打開思路后,比地暖還要香

      裝修秀
      2025-12-08 11:35:03
      “除了照片,沒有任何價值!”女生自創皮包簡歷,居然被錄取了

      “除了照片,沒有任何價值!”女生自創皮包簡歷,居然被錄取了

      知曉科普
      2025-08-02 07:05:03
      他又“瘋”了?馬斯克凌晨發戰爭警告,稱所有人都無處可逃!

      他又“瘋”了?馬斯克凌晨發戰爭警告,稱所有人都無處可逃!

      達文西看世界
      2025-12-16 17:20:43
      養殖戶賣鴨被罰3萬,帶著三千鴨子到大廳,碰見在交接業務的領導

      養殖戶賣鴨被罰3萬,帶著三千鴨子到大廳,碰見在交接業務的領導

      秋風專欄
      2025-10-09 17:03:31
      83歲高明近況:兒子高亮去世后,兒媳已成他和妻子的晚年依靠

      83歲高明近況:兒子高亮去世后,兒媳已成他和妻子的晚年依靠

      小熊侃史
      2025-12-16 10:49:09
      師范大學要崩!江西省2027年起取消全省統一教師考試,鐵飯碗沒了

      師范大學要崩!江西省2027年起取消全省統一教師考試,鐵飯碗沒了

      東東趣談
      2025-12-17 19:42:11
      8000紅軍被10萬敵軍堵截,10歲小紅軍獻上一計,政委:少年英雄啊

      8000紅軍被10萬敵軍堵截,10歲小紅軍獻上一計,政委:少年英雄啊

      卡西莫多的故事
      2025-12-09 09:23:46
      縱隊司令頂撞軍區司令,連朱德都勸不動,劉伯承:讓陳賡管管他

      縱隊司令頂撞軍區司令,連朱德都勸不動,劉伯承:讓陳賡管管他

      思雨憶史錄
      2025-12-17 09:37:27
      伊布給梅西小兒子西羅·梅西頒獎!并說這是迷你梅西!

      伊布給梅西小兒子西羅·梅西頒獎!并說這是迷你梅西!

      氧氣是個地鐵
      2025-12-17 23:06:05
      無業男戲癮上身扮民警12年,高升至公安局副局長,因百萬借款露餡

      無業男戲癮上身扮民警12年,高升至公安局副局長,因百萬借款露餡

      歷史品鑒倉
      2025-12-12 17:02:56
      若中日再次爆發戰爭,結局會如何?俄羅斯和美國看法一致

      若中日再次爆發戰爭,結局會如何?俄羅斯和美國看法一致

      老謝談史
      2025-12-01 20:40:13
      許亞軍疑為何晴付10年抗癌費、生活費,下7次病危通知仍不放棄

      許亞軍疑為何晴付10年抗癌費、生活費,下7次病危通知仍不放棄

      林雁飛
      2025-12-17 13:55:37
      央視《老舅》原著:郭大炮死緩,二美遭槍擊去世,霍東風三次入獄

      央視《老舅》原著:郭大炮死緩,二美遭槍擊去世,霍東風三次入獄

      草本紀年
      2025-12-17 19:54:09
      10+5!生涯重磅首秀!中國未來第一攻擊型后衛

      10+5!生涯重磅首秀!中國未來第一攻擊型后衛

      籃球實戰寶典
      2025-12-17 22:38:45
      年輕時貌若天仙的4位女星,如今卻跟美不沾邊,歲月何曾饒過誰

      年輕時貌若天仙的4位女星,如今卻跟美不沾邊,歲月何曾饒過誰

      庭小娛
      2025-12-12 13:44:28
      演員王東宣布離婚,直播帶貨養三個孩子!曾承認家暴

      演員王東宣布離婚,直播帶貨養三個孩子!曾承認家暴

      現代快報
      2025-12-17 20:24:10
      吳越住上海大平層:53歲沒家沒娃,深夜發呆曝“孤獨福報”藏真相

      吳越住上海大平層:53歲沒家沒娃,深夜發呆曝“孤獨福報”藏真相

      小陸搞笑日常
      2025-12-17 13:48:34
      實在忍不了,勇士球迷直接寫信詢問老板,這5年的新秀全都去哪了

      實在忍不了,勇士球迷直接寫信詢問老板,這5年的新秀全都去哪了

      拾叁懂球
      2025-12-17 22:16:12
      我在泰國地下娛樂城,一晚花5萬,多數是中國女孩,很難忘

      我在泰國地下娛樂城,一晚花5萬,多數是中國女孩,很難忘

      程哥歷史觀
      2024-01-02 13:38:18
      2025-12-17 23:23:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11869文章數 176338關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      手機
      藝術
      教育
      公開課
      軍事航空

      手機要聞

      iQOO Z11 Pro曝光,3D超聲波指紋+2億大底主攝

      藝術要聞

      毛主席書寫林則徐詩詞,字跡超凡,引發關注。

      教育要聞

      明早9點,“三尺之外”城市教育談正式開講!點這里預約直播

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      最新現場:山東艦完成年度最后一次海上訓練

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色窝窝免费一区二区三区| 伊人综合成人| 亚洲天堂高清| 国产精品青草久久久久福利99 | 女子spa高潮呻吟抽搐| 欧美丰满熟妇xxxx性大屁股| 和静县| 极品偷拍网| 久久精品中文字幕| 亚洲精品天堂在线观看| 欧美性猛交ⅹxxx乱大交妖精| 娱乐| 临朐县| 山丹县| 海口市| 第一福利导航视频| 操逼不卡| 青青操影院| 丁香婷婷中文字幕| 国产传媒淫语对白AV| 又长又大又黑又粗欧美| 成人午夜免费无码视频在线观看| 老色69久久九九精品高潮| 一区二区在线 | 欧洲| 欧美肥胖老妇bbw| 少妇高潮喷水在线观看| 国产精品成人一区二区不卡| 亚洲精品成人片在线播放| 精品伊人久久| 英吉沙县| 呼玛县| 老肥熟女| 商都县| 在线视频?制服?中文| 国产欧美一区二区精品性色超碰 | 亚洲区色| 牡丹江市| 99re66| 亚洲AV色图| 成人亚洲天堂| 国产人妻无套一区二区普通话对白|