<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.2,對Gemini-3反手一掌,2026做牛馬比當學霸重要

      0
      分享至

      你方唱罷我登場,各領風騷十幾天。

      GPT-5.2出來了,它實現了對Gemini-3和Claude-4.5的部分反超,在多個實用領域都更強了:做表格、弄PPT、寫代碼、理解長文檔、調用工具、處理復雜多步驟項目……視覺理解能力也大幅提升,能辨別出板卡上的螺絲釘。


      (來源OpenAI)

      從5.1到5.2,僅用了30天,OpenAI回答了市場上對其前景的質疑,證明了團隊實力,預示了2026年,擴展定律依然是前沿大模型的競爭的最重要法寶,基礎設施將起到更重要的作用。

      OpenAI首次引入了它自己開發的打工能力的測評基準GDPval,要證明它既會做學霸,也能當牛馬。

      結果5.2成為首個達到或超過人類專家水平的模型。根據人類專家評審的結果,5.2 Thinking 在 GDPval 的知識型任務中,有 70.9% 的項目表現優于頂尖行業專業人士或持平。這些任務包括那些白領打工基本技能,如制作演示文稿、電子表格以及其他活兒。5.2 Thinking 的輸出速度在 GDPval 任務中比專家快 11 倍以上,成本卻不到其 1%。這表明,在有人類監督的情況下,GPT?5.2 能有效輔助專業工作。


      (在 GDPval 測試中,模型嘗試完成定義明確的知識型工作,內容涵蓋美國 GDP 貢獻度最高的 9 個行業中的 44 種職業。任務要求生成真實的工作成果。)

      兩個半月前,OpenAI公布這個測評體系時,GPT-5的得分,不及當時的Claude最高版本Opus 4.1,但是勝過Gemini 2.5和Grok-4。如今,5.2得分幾乎翻倍。


      (來源OpenAI)

      盡管如此,GPT?5.2 Thinking想要在實際工作中替代OpenAI的員工仍然相當遙遠。在最新系統卡(system-card)的AI自我改進(Self-Improvement)能力測評中,GPT?5.2 Thinking并沒有未達到一名表現優秀的中等資歷(mid-career)研究工程師的水平。OpenAI 基于20個曾導致重大項目至少延遲一天的真實研發瓶頸問題,構建了OPQA 測試基準。結果,即使在可訪問歷史代碼、日志和實驗數據的條件下,GPT-5.2 Thinking仍缺乏有效診斷問題根源并提出合理解釋的能力,它做得比GPT-5.1 Codex Max更差一點。不能自主發現、分析、解決新問題,意味著AI距離“自我改進”所需的能力仍有巨大差距。


      (來源OpenAI)

      也就是說,大模型仍然是“高分低能”,干活出活能力,還沒有擺脫最初級的水平。

      但我們也不得不服前沿大模型的學霸級考試水平。ARC-AGI也在第一時間發布了測試結果。5.2的準確率高達 90.5%,每個任務的成本僅為 11.64 美元,一年內效率提升了約 390 倍。回顧過去 12 個月,在 ARC-AGI 測試中,任何超過 85% 的準確率都需要近乎瘋狂的計算資源。早期對 o3-preview 的估算顯示,每個任務的成本在 3000 美元到 3 萬美元之間。基本上,每次想要得到一個答案,你消耗的算力成本相當于一輛汽車。現在GPT-5.2 Pro 登場,取得了 90.5% 的準確率,而價格卻只相當于幾杯咖啡。已經相當接近人類95%的水平了。


      (來源ARC-AGI)

      讓智能體干活,我們正悄無聲息地跨越與人工成本持平的界限,幾乎無人察覺。整個推理的經濟格局正在發生翻天覆地的變化。我們才剛剛開始,接下來會有更快的優化。

      谷歌用TPU-6集群首次訓練出最領先的前沿大模型Gemini-3,動搖了英偉達GPU一統天下的格局。Anthropic與谷歌TPU和亞馬遜Trainium的合作,明年分別都達到了百萬卡級。

      OpenAI與xAI主要依靠英偉達GPU。這次OpenAI還披露,5.2 是其與長期合作伙伴英偉達和微軟共同打造的成果。Azure 數據中心與 英偉達的 H100、H200、GB200-NVL72 等 GPU 構成了 OpenAI 大規模訓練的核心基礎設施,為模型智能帶來了顯著提升。“正是這種合作,使我們能夠更有信心地擴展算力,并更快速地將新模型推向市場。”

      這預示著到了2026年的大模型之爭,也將是一場基礎設施之爭。今年砸下的數千億美元,明年將實現滾滾算力。一代GPU,一代大模型。B200和B300的全面擔當主力,英偉達Rubin CPX預計年底上市,專為長上下文推理和視頻生成應用設計。還有TPU-7、Trainium-3的上市。大模型新一波擴展,值得期待。

      小結一下,5.2對于明年意味著什么:

      1,前沿大模型將會繼續拼擴展定律,也就是拼基礎設施。明年的下一代模型競爭值得期待。在基礎設施門檻顯著提升的情況下,明年中國的DeepSeek-3.x或4用什么基礎設施預訓練?

      2,在這樣的大模型競爭升級態勢下,美國已經放開對中國H200的出口,它用來訓練GPT-5,仍然起到了主力作用。這樣,中國領先的開源模型,在訓練階段是否需要H200?

      3,面向真實工作場景,擴展可驗證性,建立相應測評基準,加快大模型的實際使用,實現其經濟性,智能體完成復雜真實任務,將是明年一個競爭重點;也就是說,AI大模型公司拼ARR,比爭當學霸更重要了。這也是中國快速學習、打分優異的開源模型需要直面的價值變現問題。

      5.2各項能力的得分,最權威和最詳細的,以及它的系統卡,可以看OpenAI官網的公布:

      https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

      https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      2-1,63歲穆帥發威:率隊豪取4連勝+24輪不敗,繼續逼近榜首

      2-1,63歲穆帥發威:率隊豪取4連勝+24輪不敗,繼續逼近榜首

      側身凌空斬
      2026-03-03 06:15:36
      特朗普稱將于本月晚些時候訪華,外交部回應

      特朗普稱將于本月晚些時候訪華,外交部回應

      中國網
      2026-03-02 16:00:16
      絕地反擊!革命衛隊祭出天地共壽拼命打法,美中東基地集體被揍?

      絕地反擊!革命衛隊祭出天地共壽拼命打法,美中東基地集體被揍?

      快看張同學
      2026-03-02 17:11:42
      李亞鵬過元宵節,和媽媽住小200平房子,要和金喜一起為夏夏慶生

      李亞鵬過元宵節,和媽媽住小200平房子,要和金喜一起為夏夏慶生

      柒佰娛
      2026-03-03 10:30:08
      真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

      真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

      涵豆說娛
      2026-03-03 10:11:17
      經紀公司エイトマン(8MAN)的頂級新秀「三浦奈々」宣布出道片商!

      經紀公司エイトマン(8MAN)的頂級新秀「三浦奈々」宣布出道片商!

      孤獨的獨角獸影視
      2026-03-03 09:10:08
      慘遭15分大逆轉!女籃霸主加時3分惜敗:楊力維空砍14分3板4助!

      慘遭15分大逆轉!女籃霸主加時3分惜敗:楊力維空砍14分3板4助!

      籃球快餐車
      2026-03-03 01:57:58
      黃巢兵敗被殺,10余名姬妾被俘,唐僖宗報復有多狠?史官都不敢寫

      黃巢兵敗被殺,10余名姬妾被俘,唐僖宗報復有多狠?史官都不敢寫

      掠影后有感
      2026-03-01 10:09:20
      林志玲這蕾絲沒幾個人能頂住吧

      林志玲這蕾絲沒幾個人能頂住吧

      東方不敗然多多
      2026-03-03 11:26:43
      這是開戰以來,最讓人心碎的一張照片

      這是開戰以來,最讓人心碎的一張照片

      牛彈琴
      2026-03-03 07:50:54
      美軍三架戰機墜毀后,逃生飛行員遇科威特居民持棍威脅,跪地舉手表明身份

      美軍三架戰機墜毀后,逃生飛行員遇科威特居民持棍威脅,跪地舉手表明身份

      第一財經資訊
      2026-03-03 12:40:55
      曾經的女神啊,可惜嫁給外國人了…

      曾經的女神啊,可惜嫁給外國人了…

      喜歡歷史的阿繁
      2026-03-03 01:07:01
      24小時之內,中國發撤離令,特朗普就伊朗問題表態,需警惕以色列

      24小時之內,中國發撤離令,特朗普就伊朗問題表態,需警惕以色列

      野史日記
      2026-03-02 12:10:03
      美軍瞞不住了!炸航母基地,炸11億美元雷達,幾十萬噸燃油被點燃

      美軍瞞不住了!炸航母基地,炸11億美元雷達,幾十萬噸燃油被點燃

      深析古今
      2026-03-03 02:35:58
      內塔尼亞胡遭襲安然無恙,特朗普:最猛烈打擊很快到來

      內塔尼亞胡遭襲安然無恙,特朗普:最猛烈打擊很快到來

      史政先鋒
      2026-03-03 11:13:31
      伊朗稱霍爾木茲海峽已關閉 將打擊所有試圖通過的船只

      伊朗稱霍爾木茲海峽已關閉 將打擊所有試圖通過的船只

      財聯社
      2026-03-03 04:20:36
      還要什么歸化,這才是男籃2028奧運周期最強陣容

      還要什么歸化,這才是男籃2028奧運周期最強陣容

      男足的小球童
      2026-02-28 18:17:21
      中央司令部重磅發聲:斬斷毒蛇頭顱!伊朗革命衛隊總部被徹底摧毀

      中央司令部重磅發聲:斬斷毒蛇頭顱!伊朗革命衛隊總部被徹底摧毀

      老馬拉車莫少裝
      2026-03-02 13:18:02
      坐不住了!絕情臭豆腐老板道歉了,賠償8.5個月工資,捐了近3萬!

      坐不住了!絕情臭豆腐老板道歉了,賠償8.5個月工資,捐了近3萬!

      離離言幾許
      2026-03-01 23:23:49
      當今世界,哪些國家是世仇

      當今世界,哪些國家是世仇

      王鶔吃吃喝喝
      2026-02-09 19:35:59
      2026-03-03 13:07:00
      未盡研究 incentive-icons
      未盡研究
      新能源、人工智能、合成生物、地緣X
      319文章數 62關注度
      往期回顧 全部

      科技要聞

      手機AI在MWC上卷出了新高度

      頭條要聞

      美國三架F-15E被擊落 美軍聲明中有個非常奇怪的地方

      頭條要聞

      美國三架F-15E被擊落 美軍聲明中有個非常奇怪的地方

      體育要聞

      35輪后積分-7,他們遭遇史上最早的降級

      娛樂要聞

      謝娜霸氣護夫:喊話薛之謙給張杰道歉

      財經要聞

      霍爾木茲海峽近乎停擺 布油直逼80美元

      汽車要聞

      長安汽車2月銷量151922輛 環比逆勢增長12.8%

      態度原創

      本地
      游戲
      時尚
      數碼
      公開課

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      《三角洲》主播毀號事件后續!當事人征集聯名控告

      普通人穿衣真的很簡單!單品選對、搭配合理,大方舒適又得體

      數碼要聞

      NVIDIA新驅動解決風扇停轉問題:但悄悄限制RTX 50 GPU電壓!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版