<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      GPT-5.2發(fā)布,真正的牛馬打工人專屬AI來了。

      0
      分享至

      在各種小道消息,各種預(yù)測之后。

      終于,在OpenAI十周年的這一天。



      也就是今天的凌晨2點,GPT-5.2終于跟大家見面了。



      這是Gemini 3 Pro爆火,第一次讓OpenAI沒有領(lǐng)先優(yōu)勢,奧特曼在內(nèi)部官宣紅色警戒狀態(tài)之后,他們掏出的第一款模型。

      也是OpenAI的十周年獻禮。

      而這款模型的特點也非常有意思。

      OpenAI的原話是:

      We are introducing GPT?5.2, the most capable model series yet for professional knowledge work.(我們正式發(fā)布 GPT-5.2,這是迄今為止在專業(yè)知識工作方面能力最強的一代模型系列。)

      專業(yè)知識工作,記住這個關(guān)鍵詞,后面要考。

      我們先從各種跑分上看,其實能看到,一些跑分其實沒有質(zhì)的飛躍,有一種數(shù)碼廠開始擠牙膏的感覺。。。



      對比了GPT-5.2、GPT-5.1、Claude Opus 4.5和Gemini 3 Pro。

      在軟件工程(SWE-Bench Pro)、科學(xué)問題(GPQA Diamond)、數(shù)學(xué)競賽(AIME 2025)這些傳統(tǒng)評測集上。

      GPT-5.2確實又強了一些,也回到了第一的位置,全面領(lǐng)先。

      在前端審美還有3D元素上,表現(xiàn)的更牛逼了。



      在視覺理解能力上也更強了。

      比如要求模型識別圖像輸入中的組件,并返回帶有近似邊界框的標簽。

      即使在低質(zhì)量的圖像上,GPT-5.2也能識別主要區(qū)域并放置與每個組件真實位置大致匹配的框,而GPT-5.1只標注了幾個部分,對它們的空間排列理解不是很好。



      但是這些東西,說實話,確實也就那樣,大家很難體感上還覺得有多牛逼。

      就像芯片廠子告訴你,我的手機芯片性能又提升了25%,你聽了以后,哦確實強,但是完全不影響你繼續(xù)刷抖音和小紅書對吧。

      不過有兩個評測集,是我覺得這次GPT-5.2最大的亮點,且一定要單拎出來,跟大家單獨聊一下的。

      一個是ARC-AGI-2,一個是GDPval。

      這兩個,非常有意思。



      先說ARC-AGI-2。

      過去的AI評測,比如MMLU,考的主要是是知識。

      比如它會問你“美國第一任總統(tǒng)是誰?”、“光合作用的化學(xué)方程式是什么?”。

      這種評測呢,坦率的講,對于一個讀了半個互聯(lián)網(wǎng)的AI來說,有點像開卷考試,它有很大概率不是真的推理出來的,而是背出來的。

      這就導(dǎo)致一個問題,在實際的評測中,我們分不清AI是真的聰明,還是只是記性好。

      于是,F(xiàn)ran?ois Chollet,就是那位Keras(一個著名的機器學(xué)習(xí)框架)之父,2019年第一次在論文《On the Measure of Intelligence》里,提出了ARC這個變態(tài)測試。

      而這個測試,跟知識儲備一毛錢關(guān)系都沒有。

      全名叫,Abstraction and Reasoning Corpus,抽象與推理語料庫。

      設(shè)計目標就是測模型的通用智能的能力。

      大概就是,不看你在某一道題上有多熟練,而是是看你在沒見過的新題上,能不能自己推理出規(guī)則、舉一反三。

      目前正式版發(fā)展到了第二代,也就是ARC-AGI-2,我給大家放一下,ARC-AGI-2里面的一些典型的題目,大家就懂了。







      這種能力,現(xiàn)在稱為流體智力

      (Fluid Intelligence),意思就是指不依賴于已有的知識,在全新情境下進行邏輯推理、識別模式和解決問題的能力。

      悟性開竅的能力。

      說白了,就是你的

      這玩意兒對AI來說,難于登天。

      因為它在互聯(lián)網(wǎng)上找不到任何現(xiàn)成的答案,它必須當場理解、當場推理

      在很長一段時間里,頂級AI的得分都低得可憐。

      在ARC-AGI-2上,之前GPT-5.1的得分是17.6%,而GPT-5.2,直接飆到了52.9%。

      直接翻了三倍。

      這是一個很恐怖的數(shù)據(jù)。

      GPT-5.2的模型,直接在排行榜上屠榜了。



      而且,效率還很高。



      基本都在同成本區(qū)間,能力做到了最高。

      在真正的智力水平上,GPT-5.2確實達到了目前的最優(yōu)。

      這就比較有意思了。

      然后是第二個,也是我自己現(xiàn)在最關(guān)心、也是我認為最重要的一個:

      GDPval。

      可能很多人沒聽說過這個評測集。

      他是OpenAI自己在2個半月前新出的。



      其實你看這個名字也能看出來一點端倪。

      val,就是生產(chǎn)總值的那個GDP。

      GDP

      他們要用一個全新的標準,來衡量AI在上的表現(xiàn)。

      真實世界中、具有經(jīng)濟價值的任務(wù)

      過去,我們說一個模型牛逼,是因為它代碼寫得好,或者知識答得準,或者考試分數(shù)高。

      這當然很重要,但就像我常說的,這個世界不只有程序員和科學(xué)家。

      還有律師、設(shè)計師、市場經(jīng)理、護士、建筑師、銷售……

      無數(shù)專業(yè)知識工作者。

      他們工作的價值,其實很難用一張考卷來衡量。

      于是,OpenAI他們在美國貢獻GDP最高的9個行業(yè)里,選取了44個核心職業(yè),然后,他們找到了在這些行業(yè)里平均有14年工作經(jīng)驗的資深專家,讓他們出了1320道專業(yè)知識任務(wù),并且每一項,都基于真實工作成果。



      比如,給律師的任務(wù),可能就是一份真實的合同草案和客戶需求,讓他去審閱和修改。

      給市場經(jīng)理的任務(wù),可能就是一堆產(chǎn)品資料和市場數(shù)據(jù),讓他寫一份營銷方案PPT。

      給制造工程師的任務(wù),可能就是一張產(chǎn)品設(shè)計圖,讓他優(yōu)化生產(chǎn)流程。

      這些任務(wù),不僅有文字,還可能包含PDF、Excel表格、圖片、PPT,是高度復(fù)雜的、多模態(tài)的、沒有標準答案的真實工作。

      整套任務(wù)的平均用時,是人類專家要花 7 個小時才能做完,有些甚至是一兩周的活。

      然后,模型和人類的成果,會被同領(lǐng)域的另一批專家進行盲評。

      他們也不知道誰是AI,誰是人類。

      評委只需要回答一個問題:你更愿意把哪份交給客戶?是這份,還是這份?

      結(jié)果,GPT-5.2 Thinking在這套 GDPval 上,贏或打平行業(yè)專家的比例,達到了70.9%,而GPT-5.2Pro 模型是74.1%。

      注意,這里的參照系不是普通實習(xí)生,而是行業(yè)專家。

      也就是說,在一個有著十幾年經(jīng)驗的采購經(jīng)理、或者審計師面前,GPT-5.2干出來的活兒,有七成的時候,比專家干得好,或者至少一樣好。

      而 GPT-5,只有 38.8%。



      這個進步的速度,還有有一點快的。

      看一下官方放的case的對比,還是比較直觀的。





      我們過去的模型,都花過于著重的筆墨在編程開發(fā)上了,我并不是說編程開發(fā)不重要,它很重要,很牛逼。

      但,其他的領(lǐng)域的工作,我也覺得應(yīng)該被重視。

      而GDPval,就是我認為最重要的一個指標。

      而且這次GPT-5.2,在上下文上,也有大幅的加強。

      用我們以前的大海撈針測試,在一個256K的巨型文檔里面埋四根針,讓AI來根據(jù)文檔內(nèi)容回答。



      GPT-5.2干到了離譜的100%,這也是我印象中,唯一一個能干到100%的。

      8根針的正確度會下降,但是這個衰減,已經(jīng)比GPT-5.1牛逼太多了。



      而且,還有最新的知識庫截止日期:



      牛逼的知識工作處理+最新的知識庫截止日期+更棒的智力+準確性超高的上下文。

      這簡直,就是真正的天選牛馬搭子,對打工人的加持,實在是太強了。

      這是真正,奔著大眾、奔著實用去的。

      目前今天會開放給ChatGPT付費會員,明天會開放給免費會員,會直接替代GPT-5.1,但是如果你是付費會員的話,還會在老模型中存續(xù)3個月。

      就是這。



      可惜截止到我發(fā)文的凌晨6點這一刻,作為尊貴的200刀的ChatGPT Pro會員,我還是沒有拿到GPT-5.2的體驗資格。



      一些所謂的ChatGPT上的為GPT-5.2專用的文件精修,也只能等拿到實測以后,再出一篇GPT-5.2的打工合集了。

      然后開發(fā)者的話,已經(jīng)可以通過API調(diào)用。



      價格上,會比5.1貴一些。



      整體上,GPT-5.2的所有消息差不多就這樣了。

      而我自己一直期待的,成人模式。

      還是沒有到來。

      奧特曼自己這個龜兒子說的是12月上線。



      也不知道能不能等到。

      反正他說,下周還會再送一些小的圣誕禮物。



      盲猜一手OpenAI家的生圖模型,或者成人模式。

      對于一個創(chuàng)作者來說,這兩玩意,真的很需要。。。

      最后總結(jié),GPT-5.2在我心中,是一個合格的迭代,并沒有跟很多模型一樣,專注于純粹的傳統(tǒng)刷分,而是聚焦在了廣大白領(lǐng)打工人身上,幫大家解決實際工作中的問題。

      這個點,我覺得就很酷,非常的剛需。

      但是從路線上來說,感覺GPT-5.2還是被原生多模態(tài)的Gemini 3 Pro壓了一頭,12月大概率還是要發(fā)個生圖模型出來的,不知道對標Banana,會不會有新的驚喜。

      總之,還是保持期待。

      反正每一個新模型的發(fā)布,只要是我覺得有意思的。

      也一定會熬夜給大家?guī)淼谝粫r間的解讀。

      我們以后。

      還是,不見不散~

      晚安。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      中國隊逆轉(zhuǎn)日本揪出最大毒瘤!他上場8分鐘 球隊輸10分 打的真差

      中國隊逆轉(zhuǎn)日本揪出最大毒瘤!他上場8分鐘 球隊輸10分 打的真差

      籃球?qū)^(qū)
      2026-02-26 21:18:29
      網(wǎng)約車司機行駛中突發(fā)疾病昏迷,車上有乘客,“撞路邊停下” 平臺:已不幸離世,將做好關(guān)懷工作

      網(wǎng)約車司機行駛中突發(fā)疾病昏迷,車上有乘客,“撞路邊停下” 平臺:已不幸離世,將做好關(guān)懷工作

      紅星新聞
      2026-02-26 19:49:31
      韋雪廣西被偶遇,像楊冪但差遠了,饅化嚴重,吃螺螄粉不敢張大嘴

      韋雪廣西被偶遇,像楊冪但差遠了,饅化嚴重,吃螺螄粉不敢張大嘴

      非常先生看娛樂
      2026-02-25 16:59:15
      春天吃一瓜,中藥不用抓!一降火、二潤腸、三強免疫,鮮嫩營養(yǎng)高

      春天吃一瓜,中藥不用抓!一降火、二潤腸、三強免疫,鮮嫩營養(yǎng)高

      阿龍美食記
      2026-02-25 13:18:07
      “預(yù)訂三亞民宿8499元被毀約”后續(xù):擬罰款35萬,吊銷營業(yè)執(zhí)照

      “預(yù)訂三亞民宿8499元被毀約”后續(xù):擬罰款35萬,吊銷營業(yè)執(zhí)照

      界面新聞
      2026-02-26 18:36:33
      突發(fā)!香港發(fā)生山火,深圳可見!

      突發(fā)!香港發(fā)生山火,深圳可見!

      港你知
      2026-02-26 19:59:41
      BBA集體 “大跳水”!奧迪跌破10萬,寶馬降27萬...網(wǎng)友:感謝新能源!

      BBA集體 “大跳水”!奧迪跌破10萬,寶馬降27萬...網(wǎng)友:感謝新能源!

      極果酷玩
      2026-02-26 16:49:51
      不容易!全員殺紅眼逆轉(zhuǎn)日本!5人滿分大秋封神,繼偉證明自己

      不容易!全員殺紅眼逆轉(zhuǎn)日本!5人滿分大秋封神,繼偉證明自己

      后仰大風車
      2026-02-26 20:27:20
      央視報道:我國干細胞治療迎來臨床轉(zhuǎn)折,8類難治病或?qū)⒙氏仁芤?>
    </a>
        <h3>
      <a href=細胞
      2026-02-25 19:00:04
      概率六千萬分之一!新疆24歲產(chǎn)婦在武漢誕下“一兄四妹”五胞胎

      概率六千萬分之一!新疆24歲產(chǎn)婦在武漢誕下“一兄四妹”五胞胎

      互聯(lián)網(wǎng)大觀
      2026-02-26 19:28:11
      伊朗外交部發(fā)言人:本輪伊美談判非常深入

      伊朗外交部發(fā)言人:本輪伊美談判非常深入

      界面新聞
      2026-02-26 21:59:28
      河南項城15歲女孩離家失聯(lián)16天被找到,已不幸遇難,其母親稱孩子平時成績優(yōu)秀,性格開朗

      河南項城15歲女孩離家失聯(lián)16天被找到,已不幸遇難,其母親稱孩子平時成績優(yōu)秀,性格開朗

      極目新聞
      2026-02-26 18:32:28
      最新:烏克蘭收復(fù)庫皮揚斯克99%!摧毀俄軍S400系統(tǒng)

      最新:烏克蘭收復(fù)庫皮揚斯克99%!摧毀俄軍S400系統(tǒng)

      項鵬飛
      2026-02-26 17:32:02
      兩會前夕,9名解放軍將領(lǐng)全國人大代表資格被罷免(附完整名單)

      兩會前夕,9名解放軍將領(lǐng)全國人大代表資格被罷免(附完整名單)

      翻譯大傻
      2026-02-26 22:35:34
      WTT大滿貫!八強出爐,日乒兩人止步,張本美和強勢,王曼昱壓力大增

      WTT大滿貫!八強出爐,日乒兩人止步,張本美和強勢,王曼昱壓力大增

      籃球看比賽
      2026-02-26 16:34:46
      WTT新加坡大滿貫:男單8強已出其5!王楚欽大逆轉(zhuǎn),單局1-7翻盤

      WTT新加坡大滿貫:男單8強已出其5!王楚欽大逆轉(zhuǎn),單局1-7翻盤

      全言作品
      2026-02-26 21:52:48
      中國音樂家李梳曈在紐約路邊換胎時被撞身亡,年僅35歲,留下妻子和僅1歲的孩子

      中國音樂家李梳曈在紐約路邊換胎時被撞身亡,年僅35歲,留下妻子和僅1歲的孩子

      大象新聞
      2026-02-26 13:45:03
      贏日本7分!楊鳴大贊中國男籃1人:三分很關(guān)鍵,起到了奇兵作用

      贏日本7分!楊鳴大贊中國男籃1人:三分很關(guān)鍵,起到了奇兵作用

      體育哲人
      2026-02-26 20:44:43
      洛克希德·馬丁的生產(chǎn)線突然停了,中國凍結(jié)了他們在華的全部資產(chǎn)

      洛克希德·馬丁的生產(chǎn)線突然停了,中國凍結(jié)了他們在華的全部資產(chǎn)

      百態(tài)人間
      2026-02-25 15:33:21
      太慘了!阿里跌20%,騰訊跌24%,小米跌40%,美團跌62%,內(nèi)資被套

      太慘了!阿里跌20%,騰訊跌24%,小米跌40%,美團跌62%,內(nèi)資被套

      新浪財經(jīng)
      2026-02-26 16:33:55
      2026-02-27 03:15:00
      數(shù)字生命卡茲克 incentive-icons
      數(shù)字生命卡茲克
      反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
      464文章數(shù) 551關(guān)注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      頭條要聞

      美國政府對外交官下令:開始行動

      頭條要聞

      美國政府對外交官下令:開始行動

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      向華強公開表態(tài) 財產(chǎn)留給兒媳婦郭碧婷

      財經(jīng)要聞

      中國AI調(diào)用量超美國 4款大模型霸榜前5

      汽車要聞

      40歲的吉利,不惑于內(nèi)外

      態(tài)度原創(chuàng)

      本地
      藝術(shù)
      時尚
      公開課
      軍事航空

      本地新聞

      津南好·四時總相宜

      藝術(shù)要聞

      莫妮卡、麥當娜……這個法國女人拍遍了全世界的性感女神!

      今年春天最美搭配:西裝+半裙,怎么穿都好看!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美政府給新伊核協(xié)議設(shè)限內(nèi)容遭披露

      無障礙瀏覽 進入關(guān)懷版