<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      GPT-5.2性能爆表,但紅色警報(bào)沒(méi)有解除

      0
      分享至


      就在剛剛,ChatGPT-5.2發(fā)布了。

      這是OpenAI成立以來(lái),首次發(fā)布紅色警報(bào)(Code Red)后的第一款產(chǎn)品。

      雖然在時(shí)間上,GPT-5.2只跟5.1相隔了一個(gè)月。但是從公布的性能數(shù)據(jù)來(lái)看,GPT-5.2較上一代提升巨大,而且遠(yuǎn)超谷歌和Anthropic的同期產(chǎn)品。

      然而OpenAI的紅色警報(bào)并未因此解除,這家公司仍處于危機(jī)之中。

      究其原因,現(xiàn)在的市場(chǎng)已經(jīng)逐漸開始對(duì)OpenAI祛魅,而是更冷靜地審視每一分算力背后的投入產(chǎn)出比。在這種前所未有的環(huán)境之下,OpenAI不僅需要證明自己是最強(qiáng)的,還需要證明自己不可被替代。

      01

      首先要說(shuō)的,就是GPT-5.2的數(shù)學(xué)能力。

      長(zhǎng)期以來(lái),業(yè)界普遍認(rèn)為大語(yǔ)言模型雖然能寫代碼、能聊天,但在嚴(yán)格的數(shù)學(xué)推理上總是差強(qiáng)人意。這次GPT-5.2 Thinking在AIME 2025數(shù)學(xué)競(jìng)賽中拿到了100%的滿分。


      AIME是美國(guó)數(shù)學(xué)邀請(qǐng)賽,題目難度遠(yuǎn)超普通高中數(shù)學(xué),需要扎實(shí)的數(shù)學(xué)功底和靈活的解題思路。GPT-5.2能在這樣的測(cè)試中全部答對(duì),說(shuō)明它在數(shù)學(xué)推理上已經(jīng)達(dá)到了相當(dāng)高的水平。

      在更高難度的FrontierMath測(cè)試中,GPT-5.2 Thinking解決了40.3%的專家級(jí)數(shù)學(xué)難題。這個(gè)測(cè)試專門針對(duì)前沿?cái)?shù)學(xué)研究設(shè)計(jì),許多題目連專業(yè)數(shù)學(xué)家都需要花費(fèi)大量時(shí)間思考。能解決其中40%的問(wèn)題,已經(jīng)展現(xiàn)出在輔助科學(xué)研究方面的潛力。

      除了推理和數(shù)學(xué),GPT-5.2在專業(yè)工作領(lǐng)域也表現(xiàn)突出。

      在OpenAI新推出的GDPval基準(zhǔn)測(cè)試中,GPT-5.2 Thinking在涵蓋44種職業(yè)的知識(shí)工作任務(wù)上,有70.9%的情況下?lián)魯』虼蚱搅隧敿庑袠I(yè)專家。

      這些任務(wù)包括制作演示文稿、構(gòu)建復(fù)雜的財(cái)務(wù)模型、撰寫專業(yè)文檔等。OpenAI表示,它完成這些任務(wù)的速度是人類專家的11倍以上,成本卻不到1%。

      在軟件工程方面,GPT-5.2 Thinking在SWE-Bench Pro上達(dá)到55.6%的準(zhǔn)確率,在SWE-bench Verified上達(dá)到80%。這些測(cè)試評(píng)估的是模型在真實(shí)代碼庫(kù)中修復(fù)bug、實(shí)現(xiàn)新功能的能力。

      早期測(cè)試者反饋,它在前端開發(fā)和復(fù)雜UI實(shí)現(xiàn)上尤其出色,甚至能夠根據(jù)一條提示就生成包含3D效果和物理模擬的完整應(yīng)用。

      GPT-5.2在長(zhǎng)文檔理解上也有明顯進(jìn)步。在OpenAI的MRCRv2測(cè)試中,它成為首個(gè)在256k token長(zhǎng)度下,針對(duì)4-needle變體任務(wù)達(dá)到近乎100%準(zhǔn)確率的模型。

      這意味著用戶可以上傳數(shù)百頁(yè)的報(bào)告、合同或研究論文,模型仍能準(zhǔn)確理解分散在不同位置的相關(guān)信息,并進(jìn)行綜合分析。


      在視覺(jué)理解方面,GPT-5.2的錯(cuò)誤率在圖表推理和軟件界面理解任務(wù)上幾乎減半。它對(duì)圖像中物體的空間位置有了更準(zhǔn)確的把握。

      OpenAI展示了一個(gè)例子:即使輸入一張模糊的主板照片,GPT-5.2也能準(zhǔn)確識(shí)別出各個(gè)組件的位置并標(biāo)注邊界框,而前代模型只能識(shí)別出少數(shù)部分且位置偏差較大。


      此次發(fā)布包含三個(gè)版本。GPT-5.2 Instant定位為日常工作的快速助手,適合信息查詢、技術(shù)寫作和翻譯等任務(wù)。GPT-5.2 Thinking專注于深度推理,在編程、數(shù)據(jù)分析和復(fù)雜文檔處理上表現(xiàn)最佳,是專業(yè)工作的首選。GPT-5.2 Pro則是最智能的版本,適合那些"值得等待高質(zhì)量答案"的高難度問(wèn)題。

      同時(shí)這次發(fā)布最引人注目的,不僅是模型本身的能力提升,更是一個(gè)令人驚訝的效率數(shù)據(jù):在ARC-AGI-1測(cè)試中,GPT-5.2 Pro實(shí)現(xiàn)了約390倍的效率改進(jìn)。

      一年前,OpenAI曾驗(yàn)證過(guò)一個(gè)未發(fā)布的o3預(yù)覽版本,在ARC-AGI-1測(cè)試中達(dá)到88%的準(zhǔn)確率,但每個(gè)任務(wù)的成本約為4500美元。如今,GPT-5.2 Pro不僅將準(zhǔn)確率提升至90.5%,還將單任務(wù)成本降至11.64美元。這種量級(jí)的效率提升,意味著原本只能在實(shí)驗(yàn)室中演示的能力,現(xiàn)在有可能真正走向?qū)嶋H應(yīng)用。


      ARC-AGI測(cè)試被設(shè)計(jì)用來(lái)衡量抽象推理能力,它要求模型在面對(duì)從未見過(guò)的模式時(shí),仍能找出規(guī)律并給出答案。這種能力接近人類所謂的“舉一反三”。

      GPT-5.2 Pro在ARC-AGI-1驗(yàn)證集上的表現(xiàn),使其成為首個(gè)突破90%門檻的模型。在難度更高的ARC-AGI-2上,GPT-5.2 Thinking也達(dá)到了52.9%的準(zhǔn)確率,創(chuàng)下了鏈?zhǔn)剿季S模型的新紀(jì)錄。

      02

      GPT-5.2是奧特曼啟動(dòng)Code Red后的一次強(qiáng)有力證明,但競(jìng)爭(zhēng)的結(jié)果不會(huì)由單一基準(zhǔn)測(cè)試決定。真正的較量在于誰(shuí)能更好地理解用戶需求,誰(shuí)能在保持技術(shù)領(lǐng)先的同時(shí)控制成本,誰(shuí)能在不同應(yīng)用場(chǎng)景中提供更可靠的服務(wù)。

      一個(gè)來(lái)自GitHub的開源基準(zhǔn)測(cè)試給出了答案。在lechmazur維護(hù)的NYT Connections測(cè)試中,GPT-5.2的表現(xiàn)并不如預(yù)期。


      NYT Connections是《紐約時(shí)報(bào)》推出的一個(gè)文字游戲,要求玩家從16個(gè)詞語(yǔ)中找出四組相關(guān)的詞匯。這個(gè)測(cè)試被設(shè)計(jì)成了一個(gè)LLM基準(zhǔn),通過(guò)加入額外的干擾詞來(lái)增加難度,目前包含759個(gè)謎題。這種測(cè)試考察的是模型對(duì)語(yǔ)言的細(xì)微理解、聯(lián)想能力和分類推理。

      在這個(gè)排行榜上,Gemini 3 Pro Preview以96.8%的準(zhǔn)確率位居第一。緊隨其后的是xAI的Grok 4.1 Fast Reasoning,準(zhǔn)確率為93.5%。OpenAI的模型中,表現(xiàn)最好的是GPT-5 Pro,準(zhǔn)確率為83.9%,排在第八位。GPT-5.2在高推理模式下的準(zhǔn)確率為77.9%,排名第11位。

      這個(gè)結(jié)果多少有些出人意料。GPT-5.2在數(shù)學(xué)競(jìng)賽中能拿滿分,在專業(yè)工作任務(wù)中能超越人類專家,但在這個(gè)看似簡(jiǎn)單的文字游戲上,卻落后于競(jìng)爭(zhēng)對(duì)手近20個(gè)百分點(diǎn)。

      深入分析會(huì)發(fā)現(xiàn),這并不是簡(jiǎn)單的性能問(wèn)題。NYT Connections測(cè)試的是模型對(duì)語(yǔ)言文化背景的理解,對(duì)詞語(yǔ)之間隱含關(guān)聯(lián)的把握,以及在多個(gè)可能性中做出合理選擇的能力。

      比如BANK、INTEREST、RATE、LOAN可能組成金融類別,也可能BANK與SHORE、BEACH、COAST組成河岸類別。

      模型需要同時(shí)考慮多個(gè)維度的關(guān)聯(lián),并找到最合理的分組方式。

      Gemini 3 Pro在這個(gè)測(cè)試上的領(lǐng)先,說(shuō)明谷歌在語(yǔ)言理解的某些維度上確實(shí)有獨(dú)到之處。Grok系列模型的表現(xiàn)也值得注意,xAI雖然起步較晚,但在特定任務(wù)上已經(jīng)展現(xiàn)出競(jìng)爭(zhēng)力。

      有趣的是,測(cè)試數(shù)據(jù)還顯示,在最新的100個(gè)謎題中,各模型的排名基本保持一致,這說(shuō)明訓(xùn)練數(shù)據(jù)污染的可能性不大。模型之間的差距是實(shí)質(zhì)性的,而非來(lái)自對(duì)題目的記憶。

      這個(gè)測(cè)試的存在,給AI社區(qū)提供了一個(gè)更全面的視角。模型能力的評(píng)估不應(yīng)該只看幾個(gè)主流基準(zhǔn)測(cè)試,也需要關(guān)注那些看似邊緣但實(shí)則反映深層能力的測(cè)試。

      NYT Connections考察的聯(lián)想和分類能力,在實(shí)際應(yīng)用中同樣重要,比如在信息檢索、內(nèi)容推薦、知識(shí)圖譜構(gòu)建等場(chǎng)景中。

      從這個(gè)角度看,奧特曼的Code Red警報(bào)確實(shí)還不能解除。雖然GPT-5.2在很多領(lǐng)域表現(xiàn)出色,但它并沒(méi)有在所有維度上都取得領(lǐng)先。競(jìng)爭(zhēng)對(duì)手在某些方向上依然保持著優(yōu)勢(shì),甚至在擴(kuò)大差距。

      03

      技術(shù)競(jìng)爭(zhēng)最終要落到商業(yè)層面。OpenAI在市場(chǎng)上的處境,比技術(shù)指標(biāo)的對(duì)比要復(fù)雜得多。

      從定價(jià)策略來(lái)看,GPT-5.2在API層面的價(jià)格定在每百萬(wàn)輸入token 1.75美元,每百萬(wàn)輸出token 14美元,比前代GPT-5.1分別貴了40%。

      GPT-5.2 Pro價(jià)格也提高了,每百萬(wàn)輸入token 21美元,每百萬(wàn)輸出token 168美元。


      這個(gè)漲價(jià)幅度不小,OpenAI的解釋是新模型能力更強(qiáng),性價(jià)比實(shí)際上更高。但對(duì)于大量調(diào)用API的開發(fā)者來(lái)說(shuō),成本的增加是實(shí)實(shí)在在的。

      相較之下,Gemini 3 Pro的核心型號(hào)為gemini-3-pro-preview,其token定價(jià)按上下文窗口長(zhǎng)度區(qū)分,提示詞≤20 萬(wàn) token 時(shí),輸入每百萬(wàn)token 2美元、輸出每百萬(wàn)token 12美元,提示詞>20萬(wàn)token時(shí),輸入和輸出價(jià)格分別翻倍至每百萬(wàn)token 4美元和18美元。

      Claude 方面,最新的 Opus 4.5定價(jià)大幅下調(diào),輸入每百萬(wàn)token 5美元、輸出每百萬(wàn)token 25美元,相比前代降幅約2/3,上下文窗口為200K token,且無(wú)長(zhǎng)上下文加價(jià)情況。

      當(dāng)競(jìng)爭(zhēng)對(duì)手們?nèi)鏕emini和Claude都在通過(guò)大幅降價(jià),試圖讓AI變成像水電一樣廉價(jià)的基礎(chǔ)設(shè)施時(shí),OpenAI 卻反其道而行之,不僅沒(méi)有參與價(jià)格戰(zhàn),反而坦然地掛出了高昂的價(jià)格標(biāo)簽。這只能說(shuō)明一件事:奧特曼正在試圖把 GPT 變成一件“奢侈品”。

      在商業(yè)邏輯中,奢侈品的定義往往不在于“有用”,而在于“稀缺”和“極致”。OpenAI 正在賭,賭這個(gè)世界上存在一部分最高端的智力需求,它們對(duì)價(jià)格不敏感,但對(duì)質(zhì)量有著近乎偏執(zhí)的要求。

      對(duì)于這部分用戶,只要能提供那個(gè)唯一的、最正確的答案,168美元的價(jià)格不僅不貴,反而是一種身份和能力的篩選。

      這或許才是“紅色警報(bào)”在商業(yè)層面的真正回響。它不再是擔(dān)心落后,而是擔(dān)心平庸。

      OpenAI正在進(jìn)行一場(chǎng)危險(xiǎn)的博弈:它試圖通過(guò)高價(jià)策略,將自己與“普通 AI”徹底區(qū)隔開來(lái),建立起類似愛馬仕或蘋果那樣的品牌護(hù)城河。

      但這也意味著,它從此失去了“差不多就行”的容錯(cuò)空間??蓡?wèn)題就在于一旦這件昂貴的“奢侈品”在實(shí)際體驗(yàn)中無(wú)法提供碾壓式的優(yōu)越感,那么用戶轉(zhuǎn)身離開的速度。

      況且,能挽救OpenAI的遠(yuǎn)不止一個(gè)高性能的模型那么簡(jiǎn)單,奧特曼現(xiàn)在需要的,是一個(gè)足夠動(dòng)人的新故事。


      歡迎在評(píng)論區(qū)留言~
      如需開白請(qǐng)加小編微信:dongfangmark


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      你身邊最無(wú)知的人是啥樣?網(wǎng)友:我父母其實(shí)也差不多,唉!

      你身邊最無(wú)知的人是啥樣?網(wǎng)友:我父母其實(shí)也差不多,唉!

      帶你感受人間冷暖
      2025-12-23 00:05:14
      86年我放走一個(gè)越南女兵,33年后我剛出越南機(jī)場(chǎng)就被一排軍車接走

      86年我放走一個(gè)越南女兵,33年后我剛出越南機(jī)場(chǎng)就被一排軍車接走

      蕭竹輕語(yǔ)
      2025-12-05 17:38:25
      巴黎那幫毛賊費(fèi)大勁搬空京東倉(cāng)庫(kù),結(jié)果偷回去一堆“電子板磚”!

      巴黎那幫毛賊費(fèi)大勁搬空京東倉(cāng)庫(kù),結(jié)果偷回去一堆“電子板磚”!

      百態(tài)人間
      2025-12-26 16:32:24
      太穩(wěn)了!海港連簽本土3大實(shí)力悍將 短板都補(bǔ)強(qiáng) 僅剩最后一個(gè)隱憂

      太穩(wěn)了!海港連簽本土3大實(shí)力悍將 短板都補(bǔ)強(qiáng) 僅剩最后一個(gè)隱憂

      零度眼看球
      2025-12-26 06:39:49
      越南首富突然撤資,南北高鐵8天就夢(mèng)碎,中國(guó)“接盤”機(jī)會(huì)來(lái)了?

      越南首富突然撤資,南北高鐵8天就夢(mèng)碎,中國(guó)“接盤”機(jī)會(huì)來(lái)了?

      聞識(shí)
      2025-12-26 16:43:23
      總裁夫人董花花,她吃了回頭草,沒(méi)敢離婚,也沒(méi)成大女主

      總裁夫人董花花,她吃了回頭草,沒(méi)敢離婚,也沒(méi)成大女主

      涼湫瑾言
      2025-12-25 21:45:29
      真的有點(diǎn)想不通霍思燕。帶著自家狗狗奪冠后,

      真的有點(diǎn)想不通霍思燕。帶著自家狗狗奪冠后,

      小光侃娛樂(lè)
      2025-12-26 05:45:03
      人社部部長(zhǎng)表態(tài)了,2026養(yǎng)老金到底怎么漲?30年以上工齡更吃香?

      人社部部長(zhǎng)表態(tài)了,2026養(yǎng)老金到底怎么漲?30年以上工齡更吃香?

      墨蘭史書
      2025-12-25 17:40:03
      49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

      49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

      阿纂看事
      2025-12-12 09:18:29
      “第二代賭王”周焯華,被判18年罰款248億,睡過(guò)的女星有多少?

      “第二代賭王”周焯華,被判18年罰款248億,睡過(guò)的女星有多少?

      小熊侃史
      2025-12-26 11:25:18
      【國(guó)際3分鐘】高市早苗勿闖紅線!若參拜靖國(guó)神社,就是與歷史正義為敵

      【國(guó)際3分鐘】高市早苗勿闖紅線!若參拜靖國(guó)神社,就是與歷史正義為敵

      環(huán)球網(wǎng)資訊
      2025-12-25 17:15:59
      梅西已獲9座本土聯(lián)賽金靴,足壇歷史還有5人比梅西還更多

      梅西已獲9座本土聯(lián)賽金靴,足壇歷史還有5人比梅西還更多

      仰臥撐FTUer
      2025-12-26 14:18:17
      1308億!武漢最大規(guī)模拆遷來(lái)襲,這80個(gè)片區(qū)身價(jià)要漲!

      1308億!武漢最大規(guī)模拆遷來(lái)襲,這80個(gè)片區(qū)身價(jià)要漲!

      愛看劇的阿峰
      2025-12-26 12:36:05
      再見庫(kù)明加,勇士籃網(wǎng)國(guó)王商討3方交易!27+冠軍前鋒輔佐庫(kù)里沖冠

      再見庫(kù)明加,勇士籃網(wǎng)國(guó)王商討3方交易!27+冠軍前鋒輔佐庫(kù)里沖冠

      毒舌NBA
      2025-12-26 09:37:58
      趙露思被鞠婧祎被秒的渣都不剩網(wǎng)友:苦練化妝技術(shù)奈何遇上建模怪

      趙露思被鞠婧祎被秒的渣都不剩網(wǎng)友:苦練化妝技術(shù)奈何遇上建模怪

      吳東升成
      2025-12-26 05:39:04
      馬刺3殺雷霆!文班19+11!一戰(zhàn)認(rèn)清5個(gè)現(xiàn)實(shí):雷霆從寵兒淪為棄子

      馬刺3殺雷霆!文班19+11!一戰(zhàn)認(rèn)清5個(gè)現(xiàn)實(shí):雷霆從寵兒淪為棄子

      毒舌NBA
      2025-12-26 06:14:50
      歷史性突破!全球首款2nm手機(jī)芯片成功量產(chǎn),這次真的遙遙領(lǐng)先了

      歷史性突破!全球首款2nm手機(jī)芯片成功量產(chǎn),這次真的遙遙領(lǐng)先了

      滄海旅行家
      2025-12-25 00:53:29
      緊急提示!A股上演“乾坤大挪移”,萬(wàn)億資金正瘋狂切換!

      緊急提示!A股上演“乾坤大挪移”,萬(wàn)億資金正瘋狂切換!

      風(fēng)風(fēng)順
      2025-12-26 12:36:08
      泰國(guó)總理火冒三丈,怒斥“大不敬”

      泰國(guó)總理火冒三丈,怒斥“大不敬”

      寰宇大觀察
      2025-12-26 13:57:20
      無(wú)法拒絕?H200價(jià)格出奇的低!

      無(wú)法拒絕?H200價(jià)格出奇的低!

      中國(guó)半導(dǎo)體論壇
      2025-12-25 12:50:43
      2025-12-26 18:28:49
      直面派 incentive-icons
      直面派
      講述值得講述的真實(shí)故事
      241文章數(shù) 236關(guān)注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      上海7旬爺叔在公園為80后兒子相親 堅(jiān)持5年每周都來(lái)

      頭條要聞

      上海7旬爺叔在公園為80后兒子相親 堅(jiān)持5年每周都來(lái)

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂(lè)要聞

      朱孝天深夜道歉,只字未提五月天阿信

      財(cái)經(jīng)要聞

      “國(guó)家隊(duì)”出手了,萬(wàn)億資金規(guī)模!

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測(cè)

      態(tài)度原創(chuàng)

      房產(chǎn)
      游戲
      教育
      數(shù)碼
      軍事航空

      房產(chǎn)要聞

      太猛了!單月新增企業(yè)4.1萬(wàn)家,又一波巨頭涌向海南!

      不是加載動(dòng)畫!CDPR內(nèi)部人士揭秘《2077》

      教育要聞

      大動(dòng)作!景山學(xué)校剛剛傳出新消息——

      數(shù)碼要聞

      飛貓推出M7 Pro隨身WiFi,99元

      軍事要聞

      烏最新20點(diǎn)俄烏和平草案遞交莫斯科 俄方拒絕

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 中国老妇xxxx性开放| 国产成人久久久777777麻豆| 武夷山市| 男女做爰真人视频直播| 中国少妇内射xxxhd| 亚洲a免费| 狼人久久乐| 精品国产一区二区三区av性色| 青椒国产97在线熟女| 又大又硬又爽免费视频| 在线视频?制服?中文| 成人中文网| 日产一区日产2区| 青青草一区二区免费精品| 国产精品18禁久久久久久白浆| 滨海县| 在线播放无码后入内射少妇| 国产精品+日韩精品+在线播放| 丁香五月激情综合| 磴口县| 人妻 日韩精品 中文字幕| 苍井空亚洲精品AA片在线播放| 久久久亚洲熟妇熟女| 化德县| 无码乱人伦一区二区亚洲一| 欧美视频网站www色| wwwwww.日本色| 九九天堂| 日韩久久无码免费毛片软件| 久久综合亚洲鲁鲁九月天| 91在线精品视频| 黑森林福利视频导航| 中文字幕日本最新乱码视频| 国产精品香港三级国产av| 欧美成人午夜无码A片秀色直播| 国产色视频网站免费| 业余 自由 性别 成熟偷窥| 国内视频自拍| 永安市| 伊人蕉影院久亚洲高清| 久久国产乱子伦免费精品无码|