<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

      凌晨突發(fā)!GPT-5.5正式上線:跑分更猛,價(jià)格翻倍,但這點(diǎn)不得不防

      0
      分享至

      出品 | 網(wǎng)易智能

      作者 | 小小

      編輯 | 王鳳枝

      GPT-5.5來(lái)了,大模型越來(lái)越像智能體了。

      今天凌晨OpenAI意外發(fā)布GPT-5.5。最核心的變化不是答案寫(xiě)得更漂亮,而是它更像一個(gè)能自己接活的系統(tǒng):理解復(fù)雜目標(biāo),自己拆步驟、調(diào)工具、核結(jié)果,把一件多環(huán)節(jié)的任務(wù)從頭推到尾。OpenAI這次想賣的,不只是更聰明,而是真能干活。


      能力上去了,價(jià)格也跟著上去了。官方API定價(jià)GPT-5.5輸入每百萬(wàn)token 5美元、輸出30美元,對(duì)比GPT-5.4的2.5美元和15美元正好翻了一倍。不過(guò)OpenAI也說(shuō)了,GPT-5.5在不少?gòu)?fù)雜任務(wù)里能用更少的token把事情辦完。

      目前GPT-5.5已經(jīng)開(kāi)始向ChatGPT和Codex滾動(dòng)上線。ChatGPT里GPT-5.5 Thinking面向Plus、Pro、Business和Enterprise用戶,GPT-5.5 Pro面向Pro、Business和Enterprise用戶。API版本官方說(shuō)很快跟上。

      01一份讓對(duì)手沉默的跑分單:終端操作和數(shù)學(xué)推理甩開(kāi)身位

      先看數(shù)據(jù)。GPT-5.5在一系列硬核基準(zhǔn)測(cè)試中,把上一代GPT-5.4甩在了身后,也壓過(guò)了競(jìng)爭(zhēng)對(duì)手一頭。

      在最能體現(xiàn)智能體規(guī)劃和工具協(xié)調(diào)能力的Terminal-Bench 2.0測(cè)試中,GPT-5.5達(dá)到了82.7%的準(zhǔn)確率,大幅領(lǐng)先Claude Opus 4.7的69.4%和Gemini 3.1 Pro的68.5%。

      在評(píng)估跨44種職業(yè)知識(shí)工作能力的GDPval測(cè)試中,GPT-5.5取得了84.9%的勝率或平局率,Claude Opus 4.7為80.3%,Gemini 3.1 Pro只有67.3%。在衡量模型自主操作真實(shí)計(jì)算機(jī)環(huán)境的OSWorld-Verified上,GPT-5.5得分78.7%,與Claude Opus 4.7的78%旗鼓相當(dāng)。

      數(shù)學(xué)能力方面GPT-5.5在FrontierMath上的表現(xiàn)尤其突出。1至3級(jí)題目得分51.7%,Claude Opus 4.7為43.8%,Gemini 3.1 Pro為36.9%。到了最難的4級(jí),GPT-5.5的35.4%遠(yuǎn)遠(yuǎn)超過(guò)Claude Opus 4.7的22.9%。

      網(wǎng)絡(luò)安全方面,CyberGym測(cè)試中GPT-5.5得分81.8%,Claude Opus 4.7為73.1%。在客戶服務(wù)場(chǎng)景的Tau2-bench Telecom測(cè)試中,GPT-5.5無(wú)需任何提示調(diào)整就達(dá)到了98.0%的準(zhǔn)確率。

      OpenAI內(nèi)部還有一個(gè)叫Expert-SWE的基準(zhǔn),用來(lái)評(píng)估長(zhǎng)周期編碼任務(wù)并預(yù)估人類專家中位完成時(shí)間為20小時(shí)。GPT-5.5在這里達(dá)到了73.1%,上一代GPT-5.4是68.5%。在公開(kāi)的SWE-bench Pro上,GPT-5.5的58.6%則與Claude Opus 4.7的64.3%互有勝負(fù)。

      第三方評(píng)測(cè)機(jī)構(gòu)Artificial Analysis做了全面測(cè)試。他們的結(jié)論是GPT-5.5讓OpenAI重新回到了AI領(lǐng)域的絕對(duì)第一,在他們?cè)O(shè)定的智能指數(shù)中領(lǐng)先3分,打破了此前與Anthropic和谷歌三方平局的格局。五大核心評(píng)估中,GPT-5.5在Terminal-Bench Hard、GDPval-AA和APEX-Agents-AA中均居榜首。

      科學(xué)研究領(lǐng)域同樣沒(méi)落下。在專注于遺傳學(xué)和定量生物學(xué)的GeneBench上GPT-5.5得分約25%,GPT-5.4約為19%。在生物信息學(xué)基準(zhǔn)BixBench上,GPT-5.5以80.5%領(lǐng)先于GPT-5.4的74.0%。

      這些數(shù)字拼在一起,畫(huà)出了一個(gè)輪廓,即GPT-5.5在需要規(guī)劃和持續(xù)執(zhí)行的智能體任務(wù)上優(yōu)勢(shì)明顯,在數(shù)學(xué)和網(wǎng)絡(luò)安全等需要深度推理的領(lǐng)域也拉開(kāi)了距離,但在一些無(wú)工具的純學(xué)術(shù)推理上仍有來(lái)有回。OpenAI研究副總裁阿米莉亞·格萊斯(Amelia Glaese)說(shuō),無(wú)論是在基準(zhǔn)測(cè)試上,還是根據(jù)可信合作伙伴的反饋以及他們自己的經(jīng)驗(yàn)來(lái)看,這絕對(duì)是他們迄今為止最強(qiáng)的編碼模型。

      但有一組數(shù)據(jù)不得不提前攤開(kāi)。

      在Artificial Analysis的私有基準(zhǔn)測(cè)試AA-Omniscience中,GPT-5.5展現(xiàn)了一個(gè)矛盾到讓人不安的特征。

      GPT-5.5的準(zhǔn)確率是所有模型中最高的,達(dá)到57%,意味著它在回憶事實(shí)方面確實(shí)優(yōu)于所有競(jìng)品。然而它的幻覺(jué)率高達(dá)86%。作為對(duì)比,Claude Opus 4.7的幻覺(jué)率是36%,Gemini 3.1 Pro是50%。換句話說(shuō)GPT-5.5知道的東西確實(shí)更多,但當(dāng)它不確定答案時(shí)它選擇閉嘴的概率遠(yuǎn)低于對(duì)手。它更傾向于給出一個(gè)回答,哪怕這個(gè)回答可能是錯(cuò)的。

      這組數(shù)據(jù)與它明白該做什么的核心敘事形成了直接的張力。一個(gè)幻覺(jué)率86%的模型,意味著它在十次不確定的情況下有將近九次會(huì)選擇硬答而不是承認(rèn)自己不知道。這種自信地做錯(cuò)事的傾向,恰恰是一個(gè)被寄望于自主規(guī)劃和執(zhí)行任務(wù)的模型最需要警惕的特質(zhì)。這意味著,GPT-5.5確實(shí)比前輩更會(huì)干活了,但它在干活過(guò)程中不知道自己不知道什么的概率,也比幾個(gè)主要競(jìng)爭(zhēng)對(duì)手高出一大截。

      這不是一個(gè)可以輕描淡寫(xiě)帶過(guò)的小瑕疵。如果這個(gè)模型真的被委以獨(dú)立操作電腦、分析數(shù)據(jù)、生成報(bào)告的職責(zé),那么用它的人最好時(shí)刻記住,它干活的主動(dòng)性和它犯錯(cuò)的主動(dòng)性可能來(lái)自同一種底層機(jī)制。Artificial Analysis的測(cè)試表明,從GPT-5.4到GPT-5.5在這項(xiàng)基準(zhǔn)上的14分漲幅主要由知識(shí)增長(zhǎng)驅(qū)動(dòng),幻覺(jué)方面僅有適度改進(jìn)。這意味著在目前的架構(gòu)下,更強(qiáng)的能力和更高的幻覺(jué)率可能是同一枚硬幣的兩面。

      02更聰明,也更省token,同樣的活兒少花四成詞元

      比分?jǐn)?shù)更值得注意的,是GPT-5.5達(dá)成這些分?jǐn)?shù)的方式。它用的輸出token數(shù)量大幅減少。簡(jiǎn)單說(shuō)就是它找到答案的路徑更短了。

      在Terminal-Bench 2.0測(cè)試中,GPT-5.5在約3000至4000輸出token時(shí)分?jǐn)?shù)就達(dá)到了約82%,GPT-5.4在相近token數(shù)時(shí)只有約75%。

      在Expert-SWE測(cè)試中差距更夸張,GPT-5.5用了約30000至35000輸出token就達(dá)到約73%的分?jǐn)?shù),GPT-5.4花了超過(guò)60000 token才達(dá)到68.5%。在Tau2-bench Telecom中,GPT-5.5用約2000至4000 token達(dá)到98%的準(zhǔn)確率,GPT-5.4用了超過(guò)10000 token才達(dá)到約92%。

      這種token效率直接影響了成本。Artificial Analysis的計(jì)算顯示,雖然GPT-5.5每個(gè)token的價(jià)格比GPT-5.4翻了一倍,漲到每100萬(wàn)輸入5美元且輸出30美元,但token使用量減少約40%幾乎完全吸收了漲價(jià)的影響,運(yùn)行其智能指數(shù)的凈成本僅增加了約20%。在他們的編碼智能指數(shù)圖里GPT-5.5位于右上方,以相對(duì)較少的輸出token實(shí)現(xiàn)了最高的智能分?jǐn)?shù),在成本和性能之間取得了當(dāng)前的最佳平衡。

      需要說(shuō)明的是,這個(gè)40%的節(jié)省幅度是在編碼和推理類基準(zhǔn)任務(wù)上測(cè)得的。如果使用場(chǎng)景不同,比如長(zhǎng)篇寫(xiě)作或開(kāi)放式對(duì)話,token消耗的減少幅度未必相同,實(shí)際成本增幅也會(huì)隨之變化。不過(guò)在本文引用的幾項(xiàng)具體測(cè)試中,從Terminal-Bench到Expert-SWE再到Tau2-bench,token數(shù)量的下降是肉眼可見(jiàn)的。

      他們還發(fā)現(xiàn)GPT-5.5的不同推理努力程度提供了靈活的選擇。中等努力程度的GPT-5.5在智能指數(shù)上得分與Claude Opus 4.7的最高檔位相當(dāng),但成本僅為其四分之一,約1200美元對(duì)4800美元。低努力程度則花費(fèi)約500美元就能達(dá)到類似效果。這給了用戶一個(gè)根據(jù)任務(wù)需求調(diào)節(jié)智能與成本的階梯。

      而這一切并沒(méi)有以犧牲速度為代價(jià)。按OpenAI的說(shuō)法,GPT-5.5在實(shí)際服務(wù)中實(shí)現(xiàn)了與GPT-5.4相當(dāng)?shù)拿縯oken延遲。背后是軟硬件協(xié)同設(shè)計(jì)的成果。GPT-5.5與英偉達(dá)GB200和GB300 NVL72系統(tǒng)共同設(shè)計(jì)、訓(xùn)練并部署。AI自己也幫了忙,Codex分析了數(shù)周的生產(chǎn)流量模式后,編寫(xiě)了自定義的啟發(fā)式算法來(lái)優(yōu)化GPU之間的負(fù)載均衡,最終將token生成速度提升了超過(guò)20%。

      英偉達(dá)企業(yè)AI副總裁賈斯汀·博伊塔諾(Justin Boitano)評(píng)價(jià)說(shuō),GPT-5.5提供了執(zhí)行繁重工作所需的持續(xù)性能。基于英偉達(dá)GB200 NVL72系統(tǒng)構(gòu)建和服務(wù)的這個(gè)模型,讓團(tuán)隊(duì)能夠從自然語(yǔ)言提示中交付端到端的功能,將調(diào)試時(shí)間從數(shù)天縮短到數(shù)小時(shí),并將數(shù)周的實(shí)驗(yàn)轉(zhuǎn)化為在復(fù)雜代碼庫(kù)中的一夜進(jìn)展。他認(rèn)為這不僅僅是更快的編碼,而是一種全新的工作方式。


      03能讀懂整個(gè)代碼庫(kù),不是只會(huì)補(bǔ)全下一行

      數(shù)據(jù)和效率說(shuō)完了,來(lái)看看實(shí)際體驗(yàn)上到底有什么不同。

      GPT-5.5與此前模型最核心的區(qū)別,在于它不再只是等著你一步步告訴它怎么做。用OpenAI總裁格雷格·布羅克曼(Greg Brockman)的話說(shuō),這個(gè)模型真正特別的地方在于它能在更少的指導(dǎo)下做更多的事,可以審視一個(gè)不明確的問(wèn)題并自己弄清楚下一步該做什么。

      這與早期測(cè)試者的感受高度一致。Every公司的創(chuàng)始人兼CEO丹·希珀(Dan Shipper)做了一個(gè)倒回時(shí)間的測(cè)試。

      他花了幾天時(shí)間調(diào)試一個(gè)發(fā)布后的問(wèn)題,然后讓他最好的工程師之一重寫(xiě)了部分系統(tǒng)。為了測(cè)試GPT-5.5,他把已經(jīng)損壞的系統(tǒng)狀態(tài)交給模型看它能不能產(chǎn)出工程師最終決定的那種重寫(xiě)方案。結(jié)果GPT-5.4做不到,GPT-5.5做到了。他的評(píng)價(jià)是這是他遇到的第一個(gè)具有嚴(yán)肅概念清晰度的編碼模型。

      MagicPath的CEO彼得羅·斯基拉諾(Pietro Schirano)遇到了更復(fù)雜的場(chǎng)景。他讓GPT-5.5把一個(gè)包含數(shù)百個(gè)前端和重構(gòu)更改的分支合并到另一個(gè)也發(fā)生了巨大變化的主分支之中。模型在大約20分鐘內(nèi)一次性解決了所有沖突,最終完成了一個(gè)包含12個(gè)差異的堆棧幾乎完整。他說(shuō)自己的感覺(jué)是真的在與一個(gè)更高的智能一起工作,甚至有一種尊重感。

      其他提前拿到測(cè)試權(quán)限的高級(jí)工程師也報(bào)告了類似體驗(yàn)。他們說(shuō)GPT-5.5在推理和自主性方面明顯強(qiáng)于GPT-5.4和Claude Opus 4.7,能提前發(fā)現(xiàn)問(wèn)題,并在沒(méi)有明確提示的情況下預(yù)測(cè)測(cè)試和審查需求。有人讓模型重新架構(gòu)一個(gè)協(xié)作式編輯器中的評(píng)論系統(tǒng),離開(kāi)一段時(shí)間后回來(lái)發(fā)現(xiàn)它已經(jīng)搞定了一個(gè)接近完整的堆棧。還有人說(shuō)幾乎不需要對(duì)實(shí)現(xiàn)進(jìn)行修正,對(duì)GPT-5.5的計(jì)劃比GPT-5.4更有信心。

      Cursor的聯(lián)合創(chuàng)始人兼CEO邁克爾·特魯爾(Michael Truell)從產(chǎn)品角度指出,GPT-5.5明顯比GPT-5.4更聰明且更持久,能持續(xù)工作更長(zhǎng)時(shí)間而不會(huì)提前停止,這對(duì)于用戶委托給Cursor的復(fù)雜或長(zhǎng)期運(yùn)行的任務(wù)至關(guān)重要。而一位英偉達(dá)的工程師在提前失去訪問(wèn)權(quán)限后說(shuō)那感覺(jué)像被截肢了一樣。

      這些反饋共同指向一個(gè)變化,即GPT-5.5不再是等待指令的被動(dòng)工具,而是開(kāi)始展現(xiàn)某種職業(yè)判斷力。它能理解系統(tǒng)的全貌并弄清楚某件事為什么失敗,修復(fù)該落在哪里以及代碼庫(kù)中還有哪些部分會(huì)受到影響。公司內(nèi)部測(cè)試也印證了這一點(diǎn),OpenAI超過(guò)85%的員工每周都在使用Codex。

      不過(guò)并非所有測(cè)試者都給出了毫無(wú)保留的贊譽(yù)。一位測(cè)試者在社交平臺(tái)上表示,GPT-5.5在推理效率和知識(shí)方面確實(shí)有明顯提升,但對(duì)于他關(guān)心的東西他得等下一個(gè)版本。他直言不認(rèn)為GPT-5.5比之前有太多進(jìn)步而只是漸進(jìn)式的改進(jìn)。

      另一位測(cè)試者則注意到了速度上的變化。GPT-5.5重度思考模式下2分鐘內(nèi)給出的答案,比GPT-5.4在10分鐘內(nèi)給出的更好,但他對(duì)智能水平的評(píng)價(jià)保持了克制。

      04辦公室里的雜活兒,它也開(kāi)始接得動(dòng)了

      讓GPT-5.5擅長(zhǎng)編程的那些能力,放到日常知識(shí)工作中同樣管用。它能更自然地完成從查找信息、分析重點(diǎn)、操作軟件到生成文檔的整個(gè)閉環(huán)。

      Box的聯(lián)合創(chuàng)始人兼CEO阿隆·列維(Aaron Levie)分享了他們的內(nèi)部測(cè)試結(jié)果。在金融服務(wù)、醫(yī)療保健、公共部門和媒體娛樂(lè)等多個(gè)行業(yè)的真實(shí)任務(wù)上,GPT-5.5相比GPT-5.4有顯著提升。金融服務(wù)從64%提升至83%,醫(yī)療保健從61%提升至78%,公共部門從59%提升至72%,媒體與娛樂(lè)從57%提升至70%。他認(rèn)為GPT-5.5將為企業(yè)知識(shí)工作智能體帶來(lái)巨大飛躍。


      在ChatGPT中,GPT-5.5思考模式可以為更難的問(wèn)題提供更快的幫助,擅長(zhǎng)編碼、研究、信息綜合與分析以及文檔密集型任務(wù)。GPT-5.5 Pro版本則更進(jìn)一步,早期測(cè)試者反映它的回答比GPT-5.4 Pro更全面且結(jié)構(gòu)更清晰以及更準(zhǔn)確和更有用,在商業(yè)、法律、教育和數(shù)據(jù)科學(xué)領(lǐng)域表現(xiàn)尤為突出。

      OpenAI內(nèi)部的日常使用案例更能說(shuō)明問(wèn)題。財(cái)務(wù)團(tuán)隊(duì)用Codex審查了24771份K-1稅表,總計(jì)71637頁(yè)。工作流程排除了個(gè)人信息后,幫助團(tuán)隊(duì)比前一年提前兩周完成任務(wù)。通信團(tuán)隊(duì)用它分析了六個(gè)月的演講請(qǐng)求數(shù)據(jù),構(gòu)建了評(píng)分和風(fēng)險(xiǎn)框架并驗(yàn)證了一個(gè)自動(dòng)化Slack智能體來(lái)處理低風(fēng)險(xiǎn)請(qǐng)求。一名市場(chǎng)營(yíng)銷員工自動(dòng)化了每周業(yè)務(wù)報(bào)告的生成,每周省下5到10小時(shí)。

      05科學(xué)家的新搭檔,從基因數(shù)據(jù)到數(shù)學(xué)證明都能搭把手

      科學(xué)研究領(lǐng)域是GPT-5.5的另一個(gè)亮點(diǎn)。它的價(jià)值不在于給出一個(gè)一次性答案,而在于幫研究人員走完從問(wèn)題到實(shí)驗(yàn)再到產(chǎn)出的完整過(guò)程。

      沃頓商學(xué)院教授伊森·莫利克(Ethan Mollick)提前拿到了模型,他用一個(gè)拖延了十年的真實(shí)研究項(xiàng)目來(lái)做終極測(cè)試。他把數(shù)百個(gè)塵封已久的關(guān)于眾籌的匿名化數(shù)據(jù)文件丟給Codex里的GPT-5.5,文件混合了STATA、CSV、XLS和Word格式,然后只給了四個(gè)提示要求它整理數(shù)據(jù)、提出新假設(shè)、用復(fù)雜方法檢驗(yàn)并寫(xiě)成學(xué)術(shù)論文。結(jié)果模型產(chǎn)出的論文包含真實(shí)的文獻(xiàn)綜述和復(fù)雜的統(tǒng)計(jì)分析。他的評(píng)價(jià)是如果這是二年級(jí)博士項(xiàng)目的成果他會(huì)非常滿意。

      杰克遜基因組醫(yī)學(xué)實(shí)驗(yàn)室的免疫學(xué)教授德里亞·烏魯特馬茲(Derya Unutmaz)使用GPT-5.5 Pro分析了一個(gè)包含62個(gè)樣本和近28000個(gè)基因的表達(dá)數(shù)據(jù)集。模型在幾分鐘內(nèi)生成了詳細(xì)的研究報(bào)告,并提出了關(guān)鍵問(wèn)題和見(jiàn)解。他說(shuō)這項(xiàng)工作本來(lái)需要他的團(tuán)隊(duì)花上數(shù)月。他還說(shuō),憑借GPT-5.5 Pro,他感覺(jué)AI到了另一個(gè)拐點(diǎn),就像之前某些關(guān)鍵版本發(fā)布時(shí)讓他感受到的那種跨越門檻的感覺(jué)。

      在數(shù)學(xué)領(lǐng)域,一個(gè)更硬的成果來(lái)自組合學(xué)。一個(gè)內(nèi)部版本的GPT-5.5在配備定制工具后,幫助發(fā)現(xiàn)了關(guān)于拉姆齊數(shù)的新證明,拉姆齊數(shù)是組合學(xué)中的核心對(duì)象。這一領(lǐng)域的結(jié)果很少見(jiàn)且技術(shù)難度高。GPT-5.5找到了一個(gè)關(guān)于非對(duì)角拉姆齊數(shù)長(zhǎng)期存在的漸近事實(shí)的論證,隨后在Lean中得到了驗(yàn)證。這意味著它不僅在輔助研究,而是在核心研究問(wèn)題上貢獻(xiàn)了令人驚訝且有用的數(shù)學(xué)論證。

      波蘭亞當(dāng)·密茨凱維奇大學(xué)的數(shù)學(xué)助理教授巴托斯·納斯克雷基(Bartosz Naskr?cki)在Codex中使用GPT-5.5,僅用一個(gè)提示在11分鐘內(nèi)構(gòu)建了一個(gè)代數(shù)幾何應(yīng)用,完成了以前需要專用工具才能實(shí)現(xiàn)的定制數(shù)學(xué)可視化。

      Axiom Bio的聯(lián)合創(chuàng)始人兼CEO布蘭登·懷特(Brandon White)則從藥物發(fā)現(xiàn)的角度給出了判斷。他讓GPT-5.5推理龐大的生物化學(xué)數(shù)據(jù)集以預(yù)測(cè)人類藥物結(jié)果,然后看到它在最難的評(píng)估中帶來(lái)了顯著的準(zhǔn)確性提升。他的判斷是,如果OpenAI繼續(xù)保持這樣的勢(shì)頭,藥物發(fā)現(xiàn)的基礎(chǔ)將在年底前發(fā)生改變。

      06攻防能力一起漲,這把利刃也有另一面

      GPT-5.5的網(wǎng)絡(luò)安全能力比GPT-5.4又進(jìn)了一步,OpenAI將其生物和網(wǎng)絡(luò)安全能力評(píng)估為高風(fēng)險(xiǎn)。在奪旗挑戰(zhàn)任務(wù)中,GPT-5.5用約20000至40000輸出token就達(dá)到了約88%的得分,GPT-5.4用了超過(guò)100000 token才拿到約84%。這種效率提升意味著它發(fā)現(xiàn)和利用漏洞的能力變得更強(qiáng)。

      OpenAI采取了一種分層應(yīng)對(duì)策略。一方面部署更嚴(yán)格的網(wǎng)絡(luò)風(fēng)險(xiǎn)分類器來(lái)攔截普通用戶的敏感請(qǐng)求,他們承認(rèn)一些用戶初期可能會(huì)覺(jué)得這些限制煩人。另一方面推出網(wǎng)絡(luò)可信訪問(wèn)計(jì)劃,讓經(jīng)過(guò)驗(yàn)證的安全防御者能夠申請(qǐng)使用不受限制的模型版本用于保護(hù)關(guān)鍵基礎(chǔ)設(shè)施。OpenAI表示他們正與政府合作伙伴一起探索高級(jí)AI如何幫助保衛(wèi)納稅人數(shù)據(jù)、電網(wǎng)和供水系統(tǒng)。

      GPT-5.5在發(fā)布前經(jīng)歷了完整的安全和治理流程,包括準(zhǔn)備評(píng)估、特定領(lǐng)域測(cè)試,以及與內(nèi)部和外部紅隊(duì)、近200個(gè)可信早期合作伙伴的合作。奧特曼強(qiáng)調(diào)他們相信迭代部署是安全策略的重要組成部分,通過(guò)逐步向世界發(fā)布模型大家最有能力在AI韌性的團(tuán)隊(duì)運(yùn)動(dòng)中共同應(yīng)對(duì)挑戰(zhàn)。

      VentureBeat的報(bào)道指出,在人類最后的考試這類無(wú)工具純推理基準(zhǔn)上,GPT-5.5 Pro的43.1%仍落后于Anthropic未公開(kāi)的Claude Mythos Preview的56.8%。這說(shuō)明在不同的能力維度上,各家模型的優(yōu)勢(shì)仍在分化。

      07八個(gè)月漲價(jià)八倍,但總賬單幾乎沒(méi)變

      安全能力的提升也意味著更高的訓(xùn)練和部署成本,這直接反映在了GPT-5.5的定價(jià)上。

      GPT-5.5的API輸入價(jià)格為每100萬(wàn)token 5美元且輸出為30美元,GPT-5.5 Pro則是輸入30美元且輸出180美元。目前GPT-5.5已向ChatGPT的Plus、Pro、Business和Enterprise用戶開(kāi)放,GPT-5.5 Pro從Pro層級(jí)起步。在Codex中GPT-5.5對(duì)從Plus到Go計(jì)劃的用戶均可使用,上下文窗口40萬(wàn)token并提供速度快1.5倍但成本高2.5倍的快速模式。

      AI產(chǎn)品專家阿卡什·古普塔(Aakash Gupta)分析了這個(gè)定價(jià)軌跡。從去年8月GPT-5的0.63美元到今年3月GPT-5.4的2.50美元,再到七周后GPT-5.5的5美元,八個(gè)月內(nèi)輸入定價(jià)漲了八倍。而英偉達(dá)表示其最新芯片將推理成本降低了高達(dá)每token 35倍。

      古普塔認(rèn)為OpenAI的成本基礎(chǔ)在急劇下降但價(jià)格卻在攀升,這里發(fā)生的利潤(rùn)率擴(kuò)張?jiān)谄髽I(yè)軟件史上前所未有。

      布羅克曼此前曾說(shuō)正在構(gòu)建一個(gè)整合ChatGPT、Codex和瀏覽器的超級(jí)應(yīng)用。古普塔的判斷是,每個(gè)在GPT-5.5上構(gòu)建智能體的開(kāi)發(fā)者,都在為OpenAI自己的競(jìng)爭(zhēng)產(chǎn)品提供資金。他認(rèn)為OpenAI找到的商業(yè)模式,很像那個(gè)讓微軟市值達(dá)到3萬(wàn)億美元的模式。

      結(jié)語(yǔ):能力參差不齊,但前沿還在快速推進(jìn)

      莫利克教授還設(shè)計(jì)了一個(gè)橫向?qū)Ρ葴y(cè)試。他讓從一年前發(fā)布的o3到最新的GPT-5.5 Pro等多個(gè)模型去構(gòu)建同一個(gè)程序化生成的3D模擬,展示一個(gè)港口城鎮(zhèn)從公元前3000年到公元3000年的演變。只有GPT-5.5 Pro真正模擬了一個(gè)不斷演變的小鎮(zhèn),而不僅僅是生成新建筑替換舊的。而且它只用了20分鐘,GPT-5.4 Pro花了33分鐘。

      但他也發(fā)現(xiàn)了問(wèn)題。當(dāng)要求模型創(chuàng)建一個(gè)全新的角色扮演游戲規(guī)則并配圖排版時(shí),產(chǎn)出在技術(shù)上很精巧且101頁(yè)的PDF排版專業(yè),規(guī)則也似乎合理。然而仔細(xì)讀內(nèi)容,AI在長(zhǎng)篇虛構(gòu)創(chuàng)作上的老毛病還在。它喜歡用神秘元素、過(guò)于復(fù)雜但未能完全兌現(xiàn)的想法、奇怪的隱喻、過(guò)多的華麗句子,以及所有角色相似的語(yǔ)氣。他的結(jié)論是即便在所有驚人的技術(shù)進(jìn)步之中那個(gè)參差不齊的前沿仍然存在,只是它比以前遠(yuǎn)得多了。

      OpenAI首席科學(xué)家雅庫(kù)布·帕喬基(Jakub Pachocki)在發(fā)布之際透露,他們實(shí)際上還有空間來(lái)訓(xùn)練比這聰明得多的模型。換句話說(shuō),GPT-5.5不是終點(diǎn)。

      就在今天,這個(gè)模型已經(jīng)上線。對(duì)于那些需要處理復(fù)雜編碼任務(wù)、繁瑣知識(shí)工作或推進(jìn)科學(xué)研究的用戶來(lái)說(shuō),GPT-5.5提供的不只是一個(gè)更快的回答工具,而是一個(gè)能理解意圖、接管流程、持續(xù)推動(dòng)任務(wù)往前走的系統(tǒng)。而對(duì)于開(kāi)發(fā)者來(lái)說(shuō),還得再等一等API的正式開(kāi)放。在人類將越來(lái)越復(fù)雜的工作交給AI的這條路上,GPT-5.5是一個(gè)值得關(guān)注的路標(biāo)。

      相關(guān)推薦
      熱點(diǎn)推薦
      笑不活了!女孩把雞畫(huà)得圓肥被判不合格,家長(zhǎng)把雞的照片發(fā)給老師

      笑不活了!女孩把雞畫(huà)得圓肥被判不合格,家長(zhǎng)把雞的照片發(fā)給老師

      火山詩(shī)話
      2026-04-21 09:46:21
      登場(chǎng)15勝4負(fù)!庫(kù)明加兩戰(zhàn)40分獻(xiàn)制勝搶斷 斯奈德:他激勵(lì)全隊(duì)士氣

      登場(chǎng)15勝4負(fù)!庫(kù)明加兩戰(zhàn)40分獻(xiàn)制勝搶斷 斯奈德:他激勵(lì)全隊(duì)士氣

      顏小白的籃球夢(mèng)
      2026-04-24 10:33:12
      美國(guó)對(duì)臺(tái)軍售捅馬蜂窩!中國(guó)反手大舉賣武器,反美國(guó)家搶瘋了!

      美國(guó)對(duì)臺(tái)軍售捅馬蜂窩!中國(guó)反手大舉賣武器,反美國(guó)家搶瘋了!

      荊楚寰宇文樞
      2026-04-19 23:38:57
      好消息,勇士隊(duì)和斯蒂芬·庫(kù)里在續(xù)約問(wèn)題上已達(dá)成共識(shí)

      好消息,勇士隊(duì)和斯蒂芬·庫(kù)里在續(xù)約問(wèn)題上已達(dá)成共識(shí)

      好火子
      2026-04-24 05:52:12
      中方必須無(wú)條件割讓領(lǐng)土?美發(fā)話后,馬來(lái)西亞叫囂:中國(guó)放棄南海

      中方必須無(wú)條件割讓領(lǐng)土?美發(fā)話后,馬來(lái)西亞叫囂:中國(guó)放棄南海

      詩(shī)酒趁的年華
      2026-04-22 05:07:02
      哈蘭德和加布頂牛時(shí)沒(méi)選擇倒地?基恩:如果是他爹肯定就倒的

      哈蘭德和加布頂牛時(shí)沒(méi)選擇倒地?基恩:如果是他爹肯定就倒的

      懂球帝
      2026-04-24 08:55:07
      打麻將老是輸,怎么辦?牢記以下八個(gè)禁忌定會(huì)讓你十賭九贏!

      打麻將老是輸,怎么辦?牢記以下八個(gè)禁忌定會(huì)讓你十賭九贏!

      神奇的錘子
      2024-08-21 16:19:33
      一天中,最佳的性生活時(shí)間是在幾點(diǎn)?早上好還是晚上好?出乎意料

      一天中,最佳的性生活時(shí)間是在幾點(diǎn)?早上好還是晚上好?出乎意料

      健康之光
      2026-04-24 09:06:16
      “某新型艦載機(jī)”,到底有多新?

      “某新型艦載機(jī)”,到底有多新?

      觀察者網(wǎng)
      2026-04-24 09:18:35
      線上銷量都快被小米超越!友商吐槽:格力空調(diào)從行業(yè)第一掉下來(lái)有原因

      線上銷量都快被小米超越!友商吐槽:格力空調(diào)從行業(yè)第一掉下來(lái)有原因

      快科技
      2026-04-23 11:56:29
      2-0!西甲亂套了:塞維利亞5輪4敗+只領(lǐng)先降級(jí)區(qū)1分,11隊(duì)要保級(jí)

      2-0!西甲亂套了:塞維利亞5輪4敗+只領(lǐng)先降級(jí)區(qū)1分,11隊(duì)要保級(jí)

      體育知多少
      2026-04-24 09:08:48
      胡適:不要迷信那些好聽(tīng)的抽象名詞,而要關(guān)注具體問(wèn)題如何解決

      胡適:不要迷信那些好聽(tīng)的抽象名詞,而要關(guān)注具體問(wèn)題如何解決

      談史論天地
      2026-04-18 10:00:12
      大爆冷!騎士22分慘敗,哈登8失誤,雙巴合砍66分,東部懸念來(lái)了

      大爆冷!騎士22分慘敗,哈登8失誤,雙巴合砍66分,東部懸念來(lái)了

      老侃侃球
      2026-04-24 10:38:19
      19家企業(yè)要"鋁代銅",格力偏不:一場(chǎng)差價(jià)12倍的行業(yè)反叛

      19家企業(yè)要"鋁代銅",格力偏不:一場(chǎng)差價(jià)12倍的行業(yè)反叛

      BT財(cái)經(jīng)
      2026-04-24 07:00:03
      雷霆三少誰(shuí)賺得最多?哈登4.2億,杜蘭特5.9億,看到威少我服了

      雷霆三少誰(shuí)賺得最多?哈登4.2億,杜蘭特5.9億,看到威少我服了

      林子說(shuō)事
      2026-04-23 12:07:00
      為何昨日廣東出現(xiàn)明顯降雨?專家詳解

      為何昨日廣東出現(xiàn)明顯降雨?專家詳解

      環(huán)球網(wǎng)資訊
      2026-04-24 09:05:09
      油價(jià)內(nèi)幕大起底:私人站比中石化便宜近2元,真不是油質(zhì)差!

      油價(jià)內(nèi)幕大起底:私人站比中石化便宜近2元,真不是油質(zhì)差!

      三農(nóng)老歷
      2026-04-23 00:46:36
      英特爾美股盤后漲幅擴(kuò)大至18%

      英特爾美股盤后漲幅擴(kuò)大至18%

      每日經(jīng)濟(jì)新聞
      2026-04-24 05:27:07
      外資暴跌96%,最高法連夜改規(guī)矩,莫迪狂砍蘋果380億,中企敲警鐘

      外資暴跌96%,最高法連夜改規(guī)矩,莫迪狂砍蘋果380億,中企敲警鐘

      丁丁鯉史紀(jì)
      2026-04-23 13:56:03
      生姜立大功?美國(guó)研究發(fā)現(xiàn):生姜可在48小時(shí)內(nèi)清除50%老化細(xì)胞?

      生姜立大功?美國(guó)研究發(fā)現(xiàn):生姜可在48小時(shí)內(nèi)清除50%老化細(xì)胞?

      芹姐說(shuō)生活
      2026-04-21 14:45:08
      2026-04-24 11:20:49

      科技要聞

      凌晨突發(fā)!GPT-5.5正式上線:跑分更猛

      頭條要聞

      受AI沖擊"霸總"回家種地:比拍戲難 今年基本回不了本

      頭條要聞

      受AI沖擊"霸總"回家種地:比拍戲難 今年基本回不了本

      體育要聞

      給文班剃頭的馬刺DJ,成為NBA最佳第六人

      娛樂(lè)要聞

      王思聰被綠!戀愛(ài)期間女友被金主包養(yǎng)

      財(cái)經(jīng)要聞

      19家企業(yè)要"鋁代銅",格力偏不

      汽車要聞

      全景iDrive 續(xù)航近800km 新款寶馬7系/i7亮相

      態(tài)度原創(chuàng)

      時(shí)尚
      教育
      旅游
      手機(jī)
      親子

      今年最好看的3個(gè)顏色,太適合夏天了!

      教育要聞

      全員上岸!六個(gè)人,六條路,同一個(gè)頂峰!

      旅游要聞

      在拉薩,除了布達(dá)拉,你還想看到什么?|鋒評(píng)

      手機(jī)要聞

      蘋果更新推出Invites 1.8,支持iMessage直接分享邀請(qǐng)函

      親子要聞

      書(shū)林一小丨培養(yǎng)孩子讀書(shū)興趣 文化自信扎根心中

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版
      ×
      主站蜘蛛池模板: 国产成人无码午夜福利在线直播| 日本牲交大片免费观看| 麻豆国产精品VA在线观看| 在线天堂新版最新版在线8| 99久久精品国产免费看| 久久不卡精品| 一本久道久久综合婷婷五月| 曰本女人牲交全视频播放| 伊人69| 午夜欧美精品久久久久久久 | 日韩一区中文免费视频| 国产欧美一区二区三区免费视频| 亚洲123区| 人妻中文一区| 国产av成人精品播放| 日本久久久久久免费网络| 在线精品视频一区二区三区| 国产美女91| 台湾佬中文娱乐网址| 瑞安市| av男人的天堂在线观看国产| 男女裸体做爰爽爽全过| 欧美?日韩?人妻| 69精品人人人| 日韩人妻久久久一区二区三区免费| 午夜DY888国产精品影院| 国产亚洲AV片在线观看播放| 亚洲浮力影院久久久久久| 清水河县| 久久不见久久见免费影院www日本 亚洲综合精品一区二区三区 | 精品成人av| 中文字幕精品无亚洲字幕| 亚洲日韩第9页| 亚洲国产乱| 亚洲AV日韩AV激情亚洲| 一级内射片在线网站观看视频 | 午夜国产精品福利一二| 四虎永久在线精品免费视频观看| av网站的免费观看| 少妇xxxxx性开放| 男女做爰猛烈吃奶啪啪喷水网站|