<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      地表最強(qiáng)編程王者PK!Opus 4.6雙榜單封神, Codex 5.3速度滿分

      0
      分享至


      新智元報(bào)道

      編輯:定慧 傾傾

      【新智元導(dǎo)讀】硅谷的夜再次被點(diǎn)亮,OpenAI和Anthropic同日發(fā)布最新模型。正當(dāng)開(kāi)發(fā)者們沉浸在Codex 5.3的極致速度時(shí),Arena和Epoch兩大權(quán)威榜單卻給出了意想不到的終局判決。

      硅谷這波熱鬧,屬實(shí)有點(diǎn)上頭。

      前腳Claude Opus 4.6剛剛夜襲發(fā)布,后腳OpenAI就祭出了GPT-5.3-Codex

      兩大「編程王者」正面硬剛,到底誰(shuí)的能力更強(qiáng)?社區(qū)現(xiàn)在還吵翻天~

      今天,兩大最硬核的權(quán)威機(jī)構(gòu)Arena.ai和EpochAI,同時(shí)為Opus 4.6加冕!


      Arena.ai:Opus 4.6全維度的屠榜

      Arena.ai(前身是大家熟知的LMArena),這個(gè)被稱為「大模型角斗場(chǎng)」的地方,迎來(lái)了新的霸主。

      Claude Opus 4.6,在代碼(Code)、文本(Text)、專家(Expert)三大競(jìng)技場(chǎng),全部登頂?shù)谝唬?/strong>

      • 代碼競(jìng)技場(chǎng):比前代Opus 4.5暴漲106分。

      • 文本競(jìng)技場(chǎng):得分1496,硬生生壓了Gemini 3 Pro一頭。

      • 專家競(jìng)技場(chǎng):領(lǐng)先第二名約50分,斷層式領(lǐng)先。

      這意味著什么?

      意味著在數(shù)以萬(wàn)計(jì)的真實(shí)人類盲測(cè)中,Opus 4.6是那個(gè)讓你最想點(diǎn)「贊」的模型。

      它不是偏科生,它是真正的六邊形戰(zhàn)士。

      在代碼實(shí)測(cè)中,這次的Opus 4.6比4.5提升了106分,遠(yuǎn)超之前Opus 4.5對(duì)Sonnet 3.7的領(lǐng)先幅度。


      Claude Opus 4.6自Claude 3 Opus以來(lái)首次在文本競(jìng)技場(chǎng)排名第一。

      同時(shí)在關(guān)鍵文本類別中位列榜首:

      • 指令遵循

      • 困難提示

      • 長(zhǎng)查詢


      Claude Opus 4.6在專家領(lǐng)域排名第一,領(lǐng)先優(yōu)勢(shì)達(dá)+49分。

      專家排行榜采用了一個(gè)框架構(gòu)建,該框架能識(shí)別出真實(shí)用戶提出的最困難、最專業(yè)的提示。


      有網(wǎng)友表示,能夠在這三個(gè)領(lǐng)域同時(shí)拿下第一,是真正的SOTA,非常厲害。


      有網(wǎng)友同時(shí)表示,這Opus 4.6拿下三冠王很厲害,但是真正對(duì)模型的考驗(yàn)是前沿?cái)?shù)學(xué)能力。


      這不,EpochAI的評(píng)測(cè)新鮮出爐!

      EpochAI:啃下「數(shù)學(xué)硬骨頭」

      如果說(shuō)Arena是大眾評(píng)審,那EpochAI的Frontier Math就是「奧數(shù)競(jìng)賽」。

      這里考的不是簡(jiǎn)單的加減乘除,而是人類尚未解決的數(shù)學(xué)難題。

      Opus 4.6交出的答卷是:Tier1-3級(jí)別得分40%,Tier4(極難)級(jí)別得分21%。


      這個(gè)成績(jī)直接在統(tǒng)計(jì)學(xué)上追平了GPT-5.2(xhigh)。

      這是Anthropic的模型第一次在這個(gè)只要有一點(diǎn)「智商欠費(fèi)」就交白卷的榜單上,站到了最前沿。

      在難度更高的第4級(jí)測(cè)試中,Opus 4.6獲得 21%的得分,解決了48道題目中的10道。

      該成績(jī)同樣與GPT-5.2(xhigh)的19%得分在統(tǒng)計(jì)上持平,僅次于 GPT-5.2(Pro)31%的得分。

      物理、數(shù)學(xué),這些曾經(jīng)是AI禁區(qū)的地方,現(xiàn)在成了Opus 4.6的后花園。

      Opus 4.6模型表現(xiàn)非常搶眼的領(lǐng)域,多項(xiàng)得分位居前列:

      • OTIS Mock AIME 2024-2025:得分高達(dá)94.4%,展現(xiàn)了極強(qiáng)的競(jìng)賽級(jí)數(shù)學(xué)解題能力。

      • GPQA Diamond:得分90.5%,這是一個(gè)針對(duì)專家級(jí)科學(xué)問(wèn)題的困難測(cè)試。

      • FrontierMath:這是一個(gè)極其困難的數(shù)學(xué)前沿測(cè)試,Opus 4.6 得分為40.0%。在更難的Tier 4級(jí)別中,它獲得了20.8%的分?jǐn)?shù),排名第2。


      在綜合與推理評(píng)測(cè)中:

      • ARC AGI v1:得分94.0%,排名第1。這是評(píng)估模型通用人工智能(AGI)潛力的核心指標(biāo)之一,專注于抽象推理和模式識(shí)別。

      • SimpleQA Verified:得分46.5%。該測(cè)試主要評(píng)估模型回答事實(shí)性問(wèn)題的準(zhǔn)確度(減少幻覺(jué))。

      • Chess Puzzles(國(guó)際象棋謎題):得分17.0%,排名第14,相對(duì)而言這似乎是其較弱的一項(xiàng)。


      Claude Opus 4.6在邏輯推理(ARC AGI)和高難度數(shù)學(xué)(FrontierMath、AIME)方面處于世界領(lǐng)先水平。

      雖然它在某些特定領(lǐng)域(如國(guó)際象棋或簡(jiǎn)單問(wèn)答)不是第一,但其綜合能力(ECI 指數(shù) 153)使其成為當(dāng)前最頂尖的模型之一。

      巔峰對(duì)決:速度與審美的較量

      權(quán)威榜單雖然為Opus 4.6封神,但開(kāi)發(fā)者們的實(shí)戰(zhàn)也同樣精彩,而且似乎更偏愛(ài)GPT-5.3-Codex。

      GPT-5.3-Codex就像一個(gè)喝了十杯濃縮咖啡的頂級(jí)黑客。

      頂級(jí)開(kāi)發(fā)者Banteg用它挑戰(zhàn)不可能,僅用14天就復(fù)刻了2003年的邪典游戲《Crimsonland》。

      極客Karel把它當(dāng)成鋼鐵俠的賈維斯用。一個(gè)月燒掉10000美元API費(fèi),讓它每天生成700個(gè)科研假設(shè),自動(dòng)掃描Slack記錄,自動(dòng)提交代碼。

      來(lái)詳細(xì)看看頂級(jí)程序員如何使用GPT-5.3-Codex。

      代碼考古:14天復(fù)活《Crimsonland》,屎山消失術(shù)

      在程序員的職場(chǎng)噩夢(mèng)里,排第一的永遠(yuǎn)是去接手前任留下的、沒(méi)有文檔、作者失聯(lián)、注釋像天書一樣的賽博廢墟。

      但2026年,頂級(jí)開(kāi)發(fā)者Banteg告訴我們:在強(qiáng)力AI面前,沒(méi)有不可維護(hù)的屎山,只有舍不得燒的算力。

      Banteg盯上了2003年的邪典射擊游戲《Crimsonland》(血腥大地)。


      這款游戲是很多80、90后的童年回憶,但它的底層代碼堪稱廢墟。

      如果按照傳統(tǒng)流程,至少需要一個(gè)資深團(tuán)隊(duì)閉關(guān)1個(gè)月,光是理清那些遠(yuǎn)古的內(nèi)存邏輯就能讓人少活五年。

      結(jié)果,Banteg僅用了14天,就單槍匹馬完成了全平臺(tái)重構(gòu)。

      需要格外注意的是,該游戲資源用的.jaz格式,是一種消失了20年的私有協(xié)議,全網(wǎng)零文檔。

      換做人類,至少得猜半年。但Codex-5.3僅憑分析二進(jìn)制流特征,硬猜出了頭文件結(jié)構(gòu)和加密偏移量!


      Jaz拿著一張JPG,并用自定義的運(yùn)行長(zhǎng)度編碼的alpha通道進(jìn)行包裹,然后再用zlib將整個(gè)東西重新壓縮過(guò)程圖

      然后,生成一套現(xiàn)代化的C++/Rust渲染接口,讓2003年的像素資源在2026年的4K屏幕上重現(xiàn)。

      這個(gè)許多人的童年回憶,終于在23年后重見(jiàn)天日。Banteg在X上公開(kāi)了全部代碼「


      GitHub代碼傳送門:https://github.com/banteg/crimson

      以前公司裁員不敢動(dòng)老員工,是怕沒(méi)人能接那一堆亂碼。

      現(xiàn)在,大模型直接把這些代碼塞進(jìn)上下文,兩周就能給你出一個(gè)全新的、注釋清晰的重構(gòu)版。

      月費(fèi)1萬(wàn)美金的Codex實(shí)戰(zhàn)經(jīng)驗(yàn)

      在頂級(jí)極客Karel手里,Codex被玩成了投資游戲。


      OpenAI的研究科學(xué)家Aidan說(shuō)公司Karel一個(gè)人的Codex的使用量是其他人的十倍之多。

      所以他的觀點(diǎn)非常重要。


      Karel的單月賬單是10,000美元!

      換來(lái)的是一套足以讓傳統(tǒng)科研機(jī)構(gòu)倒閉的「非人知識(shí)循環(huán)」。


      真正的突破在于讓Codex持續(xù)記錄并優(yōu)化自身的工作流程。

      Codex會(huì)將工作筆記和輔助工具提交到monorepo的個(gè)人文件夾中。

      這些筆記并非供人閱讀,而是為了在后續(xù)會(huì)話中通過(guò)檢索這些「經(jīng)驗(yàn)」,提升Codex的處理速度和準(zhǔn)確性。

      Karel將Codex作為一名極其勤奮的「搜索智能體」和「盡職調(diào)查員」:

      • 跨渠道聚合:Codex能自動(dòng)爬取Slack頻道、閱讀討論、獲取實(shí)驗(yàn)分支并精選代碼更改。

      • 自主決策:它可以基于總結(jié)的筆記,在搭建實(shí)驗(yàn)框架時(shí)自主做出復(fù)雜的超參數(shù)決策。

      • 假設(shè)生成:在幾小時(shí)內(nèi)通過(guò)分析Slack、截圖、文檔和表格,生成了超過(guò)700個(gè)關(guān)于模型行為的可測(cè)試假設(shè)。

      其中,最關(guān)鍵的是「自動(dòng)Helper提交」。

      AI在執(zhí)行任務(wù)時(shí),會(huì)向Git提交「HelperCommits」。里面記錄了給下一次迭代中的AI準(zhǔn)備的中間態(tài)上下文。

      這樣一來(lái),模型下一次處理類似任務(wù)時(shí),會(huì)先掃描這些高密度的「HelperCommits」,直接省掉80%的試錯(cuò)路徑。

      這種「暴力美學(xué)」的回報(bào)同樣驚人。

      Karel曾嘗試讓Agent掃描公司內(nèi)部積年累月的Slack記錄和雜亂文檔。

      幾小時(shí)內(nèi),AI竟然挖掘出了700條具有科研價(jià)值的假設(shè),并自動(dòng)關(guān)聯(lián)了相關(guān)的歷史代碼段。

      10000美元買的API,賺麻了!

      更加厲害的用法是使用GPT-5.3-codex同時(shí)管理多個(gè)子智能體,分別負(fù)責(zé)Slack調(diào)研、代碼研究、代碼編寫和數(shù)據(jù)科學(xué)。


      Karel只與一個(gè)「指揮官」智能體對(duì)話,由其協(xié)調(diào)整個(gè)智能體集群,從而讓他本人從繁瑣的并行工作中解脫。

      ClaudeOpus 4.6:深思熟慮的「藝術(shù)家」

      如果說(shuō)Codex是快,那Opus 4.6就是穩(wěn),而且。

      美學(xué)封神:在HTML5游戲開(kāi)發(fā)實(shí)測(cè)中,Opus 4.6展現(xiàn)了驚人的「審美智商」。它寫出的代碼不僅0 Bug,而且界面布局、配色方案直接達(dá)到了專業(yè)UI設(shè)計(jì)師的水準(zhǔn)。

      邏輯熵控制:它也許會(huì)思考得更久(Token消耗多60%),但那是它在進(jìn)行「思維鏈自我修正」。它在現(xiàn)在的Stirrup框架下,擁有了更強(qiáng)的「邏輯自檢」能力。它不是在瞎蒙,它是在推演。

      Stirrup框架:給AI裝上「小腦」

      Opus 4.6之所以能碾壓其他模型,得益于它對(duì)Stirrup框架的深度適配。

      在這個(gè)架構(gòu)下,AI擁有了實(shí)打?qū)嵉腟hell權(quán)限以及高度隔離的E2B沙箱。

      它不僅能調(diào)用編譯器,還能通過(guò)5大核心工具聯(lián)動(dòng),在亞毫秒級(jí)的時(shí)間內(nèi)判斷當(dāng)前任務(wù)是否需要引入額外的邏輯自檢。

      以「視頻排期表自動(dòng)化」為例,它不僅能算出邏輯最優(yōu)解,還能根據(jù)品牌調(diào)性自動(dòng)調(diào)整輸出格式的視覺(jué)審美。




      同一組數(shù)據(jù),不同模型生成的結(jié)果

      這種降維打擊,讓曾經(jīng)的Prompt Engineering像個(gè)小學(xué)生。

      邏輯熵控制:多花60%的錢,但結(jié)果更好

      很多老板在看到賬單時(shí)會(huì)肉疼:Opus 4.6處理同類任務(wù)的Token消耗比競(jìng)品高出約60%。


      但技術(shù)玩家不在乎這些,他們只看「邏輯熵」。

      Opus 4.6在輸出前,會(huì)在后臺(tái)進(jìn)行瘋狂的思維鏈自我修正。主動(dòng)推翻不合理的路徑,通過(guò)大量的內(nèi)部Token消耗,換取邏輯的絕對(duì)精確。

      不再做選擇題

      這場(chǎng)巔峰對(duì)決,與其說(shuō)是分出了勝負(fù),不如說(shuō)是為開(kāi)發(fā)者鋪平了通往「一人公司」的最后一塊拼圖。

      左手是極致速度的Codex 5.3,右手是極致審美的Opus 4.6。

      以前我們糾結(jié)選誰(shuí),現(xiàn)在全都要:用Codex快速搭建框架,用Opus精修邏輯與交互。

      當(dāng)大模型的能力已經(jīng)溢出屏幕,編程這件「苦差事」,終于變成了單純的創(chuàng)造力釋放。

      限制你想象力的,再也不是技術(shù)門檻,而只剩下你的腦洞了。

      參考資料:

      https://x.com/VictorTaelin/status/2019541668517617859

      https://x.com/aidan_mclau/status/2019478632532472017

      https://x.com/KarelDoostrlnck/status/2019477361557926281

      https://x.com/ArtificialAnlys/status/2019474911761473605

      https://x.com/banteg/status/2017950426327359947


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      楊瀚森4分無(wú)緣對(duì)位偶像!掘金狂勝開(kāi)拓者54分 約基奇32+9+7

      楊瀚森4分無(wú)緣對(duì)位偶像!掘金狂勝開(kāi)拓者54分 約基奇32+9+7

      醉臥浮生
      2026-02-21 13:28:41
      毛奇、李佩霞2026年近況公布,兩人服刑結(jié)局給所有人提了醒

      毛奇、李佩霞2026年近況公布,兩人服刑結(jié)局給所有人提了醒

      娛樂(lè)督察中
      2026-02-21 03:23:47
      一老農(nóng)來(lái)京尋開(kāi)國(guó)上將,對(duì)警衛(wèi)員大聲道:讓老洪出來(lái),我是他連長(zhǎng)

      一老農(nóng)來(lái)京尋開(kāi)國(guó)上將,對(duì)警衛(wèi)員大聲道:讓老洪出來(lái),我是他連長(zhǎng)

      大運(yùn)河時(shí)空
      2026-02-20 15:20:03
      “趕緊還錢!”關(guān)稅政策被判違法后,加州州長(zhǎng)呼吁美政府立即“連本帶利”退還稅款

      “趕緊還錢!”關(guān)稅政策被判違法后,加州州長(zhǎng)呼吁美政府立即“連本帶利”退還稅款

      環(huán)球網(wǎng)資訊
      2026-02-21 09:38:25
      看完天津春晚,心痛又感慨:不是岳云鵬不行了,是相聲的舞臺(tái)沒(méi)了

      看完天津春晚,心痛又感慨:不是岳云鵬不行了,是相聲的舞臺(tái)沒(méi)了

      悠悠說(shuō)世界
      2026-02-21 05:27:45
      整個(gè)西方都炸了,中國(guó)男人,全球最高級(jí)的一群人

      整個(gè)西方都炸了,中國(guó)男人,全球最高級(jí)的一群人

      毛豆論道
      2026-02-20 20:49:13
      “日本制造”拼命撤離中國(guó),釋放什么信號(hào)

      “日本制造”拼命撤離中國(guó),釋放什么信號(hào)

      毒sir財(cái)經(jīng)
      2026-02-20 19:55:46
      夫婦路邊散步撿到帆布袋,里面裝了20多個(gè)紅包共7萬(wàn)多元,失主回應(yīng):是4個(gè)孩子的壓歲錢,廣東人:驚呆了......

      夫婦路邊散步撿到帆布袋,里面裝了20多個(gè)紅包共7萬(wàn)多元,失主回應(yīng):是4個(gè)孩子的壓歲錢,廣東人:驚呆了......

      極目新聞
      2026-02-21 08:51:20
      安德魯王子跪地與小男孩玩“乳房”球,畫面不適,王位繼承權(quán)難保

      安德魯王子跪地與小男孩玩“乳房”球,畫面不適,王位繼承權(quán)難保

      譯言
      2026-02-21 04:42:00
      四川一火鍋店春節(jié)4天賺33.9萬(wàn)元,全部分給員工,店長(zhǎng)拿到14860元,服務(wù)員最高分得4865元,保潔1447元

      四川一火鍋店春節(jié)4天賺33.9萬(wàn)元,全部分給員工,店長(zhǎng)拿到14860元,服務(wù)員最高分得4865元,保潔1447元

      大象新聞
      2026-02-20 22:48:03
      《鏢人》差點(diǎn)毀在她手里!

      《鏢人》差點(diǎn)毀在她手里!

      編劇藍(lán)羽生
      2026-02-20 21:02:14
      中央氣象臺(tái)繼續(xù)發(fā)布暴雪、寒潮藍(lán)色預(yù)警

      中央氣象臺(tái)繼續(xù)發(fā)布暴雪、寒潮藍(lán)色預(yù)警

      每日經(jīng)濟(jì)新聞
      2026-02-21 11:55:05
      廣東返程車流高峰期公布,10處高速公路繁忙→

      廣東返程車流高峰期公布,10處高速公路繁忙→

      新快報(bào)新聞
      2026-02-21 12:59:04
      手氣爆棚!河南52歲男子打麻將連續(xù)自摸胡牌,興奮過(guò)度,突然栽倒牌桌,送醫(yī)時(shí)血壓飆升至201/115mmHg

      手氣爆棚!河南52歲男子打麻將連續(xù)自摸胡牌,興奮過(guò)度,突然栽倒牌桌,送醫(yī)時(shí)血壓飆升至201/115mmHg

      芒果都市
      2026-02-20 16:07:55
      震驚!小媽祖高興時(shí)的樣貌,才知被媽祖選中的孩子,果然與眾不同

      震驚!小媽祖高興時(shí)的樣貌,才知被媽祖選中的孩子,果然與眾不同

      火山詩(shī)話
      2026-02-20 08:24:21
      3比4惜敗外戰(zhàn),奧運(yùn)冠軍王曼昱失利引熱議,網(wǎng)友稱賽前準(zhǔn)備不足

      3比4惜敗外戰(zhàn),奧運(yùn)冠軍王曼昱失利引熱議,網(wǎng)友稱賽前準(zhǔn)備不足

      卿子書
      2026-02-21 11:22:07
      神似原版:微軟WinXP壁紙Bliss拍攝地30年后實(shí)拍

      神似原版:微軟WinXP壁紙Bliss拍攝地30年后實(shí)拍

      IT之家
      2026-02-21 09:37:20
      湖北省文旅廳認(rèn)定那藝娜(翟革英)為劣跡藝人,叫停演出

      湖北省文旅廳認(rèn)定那藝娜(翟革英)為劣跡藝人,叫停演出

      環(huán)球網(wǎng)資訊
      2026-02-20 23:33:11
      湛江媽祖事件升級(jí)!小媽祖直播報(bào)平安,一句“我很好”看哭不少人

      湛江媽祖事件升級(jí)!小媽祖直播報(bào)平安,一句“我很好”看哭不少人

      火山詩(shī)話
      2026-02-21 06:44:08
      昆明海埂大壩“游客比海鷗還多”,管理方:建議乘坐公共交通前往

      昆明海埂大壩“游客比海鷗還多”,管理方:建議乘坐公共交通前往

      上游新聞
      2026-02-21 13:43:15
      2026-02-21 16:48:49
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      14564文章數(shù) 66632關(guān)注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      在貝加爾湖遇難的3名中國(guó)游客身份已確認(rèn):系一家人

      頭條要聞

      在貝加爾湖遇難的3名中國(guó)游客身份已確認(rèn):系一家人

      體育要聞

      冬奧第一"海王"?一人和13國(guó)選手都有關(guān)系

      娛樂(lè)要聞

      鏢人反超驚蟄無(wú)聲拿下單日票房第二!

      財(cái)經(jīng)要聞

      一覺(jué)醒來(lái),世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔(dān)當(dāng)”來(lái)了 方程豹首款轎車路跑信息曝光

      態(tài)度原創(chuàng)

      家居
      親子
      房產(chǎn)
      數(shù)碼
      手機(jī)

      家居要聞

      本真棲居 愛(ài)暖伴流年

      親子要聞

      放寒假別老催著孩子寫作業(yè)了,跳繩機(jī)會(huì)來(lái)了!

      房產(chǎn)要聞

      窗前即地標(biāo)!獨(dú)占三亞灣C位 自貿(mào)港總裁行宮亮相

      數(shù)碼要聞

      NVIDIA新卡皇RTX 5090 Ti再曝光:功耗直飆超700W!性能提升10%

      手機(jī)要聞

      vivo產(chǎn)品線結(jié)構(gòu)分析,走量最大的是這個(gè)檔次

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版