<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      OpenAI 最強(qiáng)推理模型 o3 發(fā)布,AGI 測試能力暴漲,它有多強(qiáng)大?會對哪些領(lǐng)域帶來影響?

      0
      分享至

      12天的直播,最后一天放出來的東西大家都知道是個大招,挺多人猜GPT5的,因?yàn)樽詈髩狠S的大概率是大模型本身。

      因?yàn)樯壌竽P停貏e是對于OpenAI這種標(biāo)桿公司,每一次的模型升級,基本上都代表了AI大模型領(lǐng)域的某種風(fēng)向。

      這次壓軸大菜上的是o3模型,包括我在內(nèi)的很多人都很疑惑,o1之后為什么不是o2,而是o3。

      OpenAI的CEO山姆奧特曼特意解釋了原因,就是他們公司非常不擅長起名字,然后o1之后就直接o3了。(可能這就是任性吧)


      其實(shí)OpenAI的o系列模型,最大的特點(diǎn)就是擅長推理。比如說編程中涉及到了推理,數(shù)學(xué)也需要,物理化學(xué)這樣的理科學(xué)科也需要大量的推理,而o系列在這樣的任務(wù)中表現(xiàn)的尤其突出。

      新的o3模型在推理上更進(jìn)一步,在Software Engineering和Codeforeces這倆測試上分?jǐn)?shù)相比它的上一代,o1模型提升很大。


      第一個測試集的分?jǐn)?shù)從48.9提升到了71.7,第二個從1891到2727,提升幅度很大。

      然后在數(shù)學(xué)上也有了提升,在AIME這個測試集上o1就已經(jīng)達(dá)到了83.3,o3直接把準(zhǔn)確率提升到了96.7,幾乎相同于一套數(shù)學(xué)卷子只錯一個的程度。


      然后下一個測試集叫GPQA,它是一個博士生級別的問題測試集,如果要某個學(xué)科的博士來答題,一般能拿到70分左右。

      o1模型可以做到78分左右,o3直接把分?jǐn)?shù)拉到87.7,遠(yuǎn)超人類選手的程度。


      除了這幾個很常見的測試集,甚至引入了一個不太常見的測試集ARC AGI,它的全稱是Abstraction and Reasoning Corpus for Artificial General Intelligence ,專門設(shè)計(jì)出來測試AI。


      這個相比大多數(shù)測試用的數(shù)據(jù)集都要難,其中的題目大多是這種推理問題,下面是一個簡單的例子,憑借直覺就能答得上來。


      但是有些題目難度很高,比如下面這個。


      黃色塊中有幾個其他色塊,新圖像外面就有幾層相同色塊。

      你可以看到GPT4o只有9%的分?jǐn)?shù),但是o1直接翻了兩倍多到了21%,o3的分?jǐn)?shù)遠(yuǎn)超第二名的60%,達(dá)到了82.8%。


      你可以看ARC AGI主席公開的數(shù)據(jù),o系列模型性能提升太線性了,甚至有點(diǎn)兒過于線性。


      o3模型有幾個形態(tài),除了o3,還有o3 mini,應(yīng)該是蒸餾出來的小模型,mini版本也分為三種類型,分類的標(biāo)準(zhǔn)是推理消耗的計(jì)算資源。

      分為low,medium以及high三種,滿足計(jì)算資源給的越多,性能越好的定理。


      直播中測試了o3 mini low模式,用它做198道題,速度極快,只用了45秒,準(zhǔn)確率61.62%,估計(jì)用high模式或者o3滿血版,可能分?jǐn)?shù)會提升非常大。


      最后,OpenAI提到了他們對于安全性的升級,總的來說,就是讓模型可以在這兩個維度上達(dá)到了很優(yōu)化的平衡。

      它們用下面兩個維度做了評估:

      ?拒絕惡意提示(jailbreaks):測試模型是否能拒絕回答惡意請求,如繞過政策或生成有害內(nèi)容。

      ?避免過度拒絕(overrefusal):檢查模型在處理無害請求時是否會過于保守而拒絕回答。


      o1 模型(深綠色星形)在拒絕惡意提示方面表現(xiàn)突出,同時對無害提示也更寬容,達(dá)到安全性和靈活性的平衡。


      GPT-4o 表現(xiàn)較好,但相較于 o1 模型,在靈活性或安全性之間略顯妥協(xié)。Claude 3.5 和 Gemini 1.5 模型分別在某些方面表現(xiàn)突出,但無法同時兼顧兩方面優(yōu)化。

      這一切的原因都來自于安全方面的考慮:

      ·大型語言模型容易受到對抗性攻擊(例如越獄攻擊、濫用內(nèi)容等)的威脅,同時可能過于保守,對無害請求拒絕回答。

      ·主要挑戰(zhàn):

      a.如何防止模型生成有害內(nèi)容?

      b.如何避免對無害輸入的過度拒絕?

      現(xiàn)有方法的缺陷

      ·傳統(tǒng)方法依賴于“強(qiáng)化學(xué)習(xí)獎勵優(yōu)化”(RLHF)和“對抗性訓(xùn)練”(Adversarial Training),但這些方法存在以下問題:

      a.過度依賴人工標(biāo)注,訓(xùn)練成本高,且難以擴(kuò)展。

      b.泛化能力較差,在處理分布外輸入(out-of-distribution)時表現(xiàn)不穩(wěn)定。

      新方法 - 深思熟慮的對齊 (Deliberative Alignment):

      ·提出了一個新型訓(xùn)練框架,結(jié)合了過程監(jiān)督和結(jié)果監(jiān)督,以改進(jìn)模型的安全性和泛化能力。

      ·自動生成訓(xùn)練數(shù)據(jù),減少人工依賴,提升對惡意提示的抵抗能力,同時減少對無害請求的過度拒絕。

      下面的圖片詳細(xì)的介紹了幾個不同模型訓(xùn)練和推理的邏輯,o3采用的方法更多的利用了COT以及包含了大量的推理。


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      馬面女孩吳小燕:毛巾蒙面13年,手術(shù)取出2公斤異物后過得怎樣了

      馬面女孩吳小燕:毛巾蒙面13年,手術(shù)取出2公斤異物后過得怎樣了

      小熊侃史
      2025-12-25 11:27:42
      又一個保利尼奧!俄媒:中超有望150萬歐買斷智利國腳后腰!

      又一個保利尼奧!俄媒:中超有望150萬歐買斷智利國腳后腰!

      邱澤云
      2025-12-27 18:50:12
      洪都拉斯新總統(tǒng)上任第一件事,或?qū)⑴c中國斷交?中方回應(yīng)暗藏鋒芒

      洪都拉斯新總統(tǒng)上任第一件事,或?qū)⑴c中國斷交?中方回應(yīng)暗藏鋒芒

      文史旺旺旺
      2025-12-26 19:56:13
      如果人類是宇宙的唯一文明,人類存在的意義是什么?

      如果人類是宇宙的唯一文明,人類存在的意義是什么?

      宇宙時空
      2025-12-26 19:39:40
      50歲佘詩曼私生活曝光:未婚,身價(jià)過億,獨(dú)居客廳僅10㎡小破宅,只想當(dāng)個富婆

      50歲佘詩曼私生活曝光:未婚,身價(jià)過億,獨(dú)居客廳僅10㎡小破宅,只想當(dāng)個富婆

      黎兜兜
      2025-12-25 21:56:18
      男子得知暗戀多年女生離婚了,見面后想擁抱被拒,網(wǎng)友:放棄吧

      男子得知暗戀多年女生離婚了,見面后想擁抱被拒,網(wǎng)友:放棄吧

      唐小糖說情感
      2025-12-25 15:57:21
      為什么龐家敢硬剛南京博物館,龐家的底蘊(yùn)你想不到

      為什么龐家敢硬剛南京博物館,龐家的底蘊(yùn)你想不到

      鶴羽說個事
      2025-12-25 11:39:22
      突發(fā)訃告!福建省書法家協(xié)會顧問吳乃光在福州去世

      突發(fā)訃告!福建省書法家協(xié)會顧問吳乃光在福州去世

      環(huán)球網(wǎng)資訊
      2025-12-27 15:21:06
      廣州人挺住!又濕又冷模式開啟,明天最低溫要破10℃

      廣州人挺住!又濕又冷模式開啟,明天最低溫要破10℃

      傲傲講歷史
      2025-12-27 09:55:18
      洪秀柱最新表態(tài)!美軍火還未抵臺,大陸告知臺當(dāng)局,祖國必將統(tǒng)一

      洪秀柱最新表態(tài)!美軍火還未抵臺,大陸告知臺當(dāng)局,祖國必將統(tǒng)一

      貓女的小樹屋
      2025-12-26 18:35:09
      廣州天河最新提醒:非必要勿駕車前往

      廣州天河最新提醒:非必要勿駕車前往

      羊城攻略
      2025-12-27 23:37:28
      自23/24賽季9連勝收官以來,曼城首次取得單賽季英超6連勝

      自23/24賽季9連勝收官以來,曼城首次取得單賽季英超6連勝

      懂球帝
      2025-12-27 23:10:09
      震驚!網(wǎng)傳廣東某醫(yī)院因業(yè)績下滑,全員工資6折發(fā),不低于2450元

      震驚!網(wǎng)傳廣東某醫(yī)院因業(yè)績下滑,全員工資6折發(fā),不低于2450元

      火山詩話
      2025-12-25 18:04:47
      全軍覆沒!網(wǎng)貸公司盯上印度市場,結(jié)果反被三哥收割得體無完膚!

      全軍覆沒!網(wǎng)貸公司盯上印度市場,結(jié)果反被三哥收割得體無完膚!

      青青子衿
      2025-12-26 04:42:30
      成功了!彈劾提案通過,賴清德或?qū)⑾屡_,兩岸統(tǒng)一最佳窗口出現(xiàn)?

      成功了!彈劾提案通過,賴清德或?qū)⑾屡_,兩岸統(tǒng)一最佳窗口出現(xiàn)?

      博覽歷史
      2025-12-26 19:07:23
      比特幣一度“閃崩”超70%至24111美元!趙長鵬發(fā)文回應(yīng)

      比特幣一度“閃崩”超70%至24111美元!趙長鵬發(fā)文回應(yīng)

      格隆匯
      2025-12-27 19:37:06
      拜鬼行程被取消?中俄朝韓四國壓力下,高市躲在首相官邸不敢現(xiàn)身

      拜鬼行程被取消?中俄朝韓四國壓力下,高市躲在首相官邸不敢現(xiàn)身

      石江月
      2025-12-26 17:46:05
      心理學(xué)家:極度自私的人,往往不是斤斤計(jì)較,而是有著這3個特征

      心理學(xué)家:極度自私的人,往往不是斤斤計(jì)較,而是有著這3個特征

      木言觀
      2025-12-27 18:01:28
      19歲女主播揭露團(tuán)播內(nèi)幕:上播擦邊,下播找大哥“做作業(yè)”,陪酒女轉(zhuǎn)行成“榜樣”

      19歲女主播揭露團(tuán)播內(nèi)幕:上播擦邊,下播找大哥“做作業(yè)”,陪酒女轉(zhuǎn)行成“榜樣”

      大風(fēng)新聞
      2025-12-27 16:46:04
      新能源車高速上電量耗盡,2人下車推行被撞身亡,先后經(jīng)過兩個服務(wù)區(qū),乘客多次提醒充電,駕駛員都不理會

      新能源車高速上電量耗盡,2人下車推行被撞身亡,先后經(jīng)過兩個服務(wù)區(qū),乘客多次提醒充電,駕駛員都不理會

      大風(fēng)新聞
      2025-12-27 17:28:04
      2025-12-28 00:04:49
      平凡AI incentive-icons
      平凡AI
      高校AI從業(yè)者
      54文章數(shù) 23關(guān)注度
      往期回顧 全部

      科技要聞

      小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

      頭條要聞

      美媒:特朗普顯然觸及了中國的紅線 中方怒了

      頭條要聞

      美媒:特朗普顯然觸及了中國的紅線 中方怒了

      體育要聞

      83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

      娛樂要聞

      張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

      財(cái)經(jīng)要聞

      注意,開始拉物價(jià)了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態(tài)度原創(chuàng)

      手機(jī)
      本地
      藝術(shù)
      游戲
      公開課

      手機(jī)要聞

      榮耀第二款“萬級”電池曝光,下月發(fā)

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      藝術(shù)要聞

      震撼!Tamara Dean的水中人像攝影,油畫般的絕美畫面!

      我真幸運(yùn):《泰拉瑞亞》1.4.5更新定檔1月份!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 欧美A∨| 性一交一黄一片| 在线视频精品中文无码| 噜妇插内射精品| 亚洲成av人片一区二区| 久久伊人蜜桃av一区二区| 久久99精品久久久久久青青 | 亚洲中文字幕日产无码成人片| 99久久国产综合精品成人影院| 久久中文字幕人妻| 亚洲欧洲自拍| 人妻丰满熟妇aⅴ无码| 丁香婷婷社区| 99精品全国免费观看视频| 亚洲熟妇无码另类久久久| 人人爽人人爽人人片av | 无码精品人妻中文字幕| 中国无码mv| 久久婷婷久久一区二区三区| 淳化县| 日韩 欧美 亚洲 一区二区| 国产女人和拘做受视频免费| 蜜臂AV| 欧美激情综合色综合啪啪五月| 精品亚洲天堂| 人妻伦理在线一二三区| 人妻夜夜添夜夜无码av| 成在人线av无码免费| 日本无码一区二区| www成人国产高清内射| 国产超碰人人| 在线视频免费看3| 18禁网址| 亚洲无线一二三四区手机| 在厨房拨开内裤进入在线视频| 亚洲女初尝黑人巨高清| 蜜桃久久精品成人无码av| 五月天国产成人av免费观看| 美女黄网站人色视频免费国产| 97色婷婷| 好吊妞无缓冲视频观看|