<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      最強牛馬狙擊編程之王,OpenAI和Anthropic深夜同發(fā)大招

      0
      分享至


      本文來自微信公眾號:字母AI,作者:苗正,題圖來自:AI生成

      2026年的這一天注定會被寫入AI發(fā)展史。

      Claude Opus 4.6和GPT-5.3 Codex在相隔不到一個小時的時間里先后發(fā)布。

      兩家公司似乎都憋著一口氣,要在同一個時間節(jié)點上交出自己的答卷。

      “撞車”的背后,是一場關(guān)于資本、技術(shù)和市場話語權(quán)的較量。

      就在兩周前,英偉達剛剛宣布向Anthropic投資100億美元,這筆錢讓Anthropic的估值飆升到3500億美元。

      消息傳出后不到72小時,英偉達轉(zhuǎn)身又向OpenAI注資200億美元。

      黃仁勛的算盤打得很清楚:兩邊都押注,誰贏都不虧。

      但對Anthropic和OpenAI來說,這不只是拿到錢那么簡單。

      兩家公司都計劃在2026年下半年到2027年左右啟動上市程序,現(xiàn)在正是證明自己技術(shù)實力、爭奪市場定價權(quán)的關(guān)鍵時刻。

      投資人要看的不是PPT上的承諾,而是能拿出手的產(chǎn)品。

      誰的模型更強,誰在實際應(yīng)用中更有說服力,誰就能在IPO時要到更高的價格,拿到更多的籌碼。

      一山容不得二虎,Anthropic和OpenAI必須得讓對方明白,誰才是老大。

      因此,這種產(chǎn)品節(jié)奏不是巧合,而是卡好了表的對轟。

      兩家公司都清楚,在這個時間點上,每一次產(chǎn)品發(fā)布都是一次融資路演,每一個技術(shù)突破都會直接影響投資人的判斷和市場的預(yù)期。

      不過從產(chǎn)品本身來看,兩家公司確實都拿出了真本事。

      Claude Opus 4.6

      Anthropic這次對 Claude Opus 系列的升級,核心放在了“更聰明地思考”這件事上。

      Opus 4.6最顯著的變化是它學(xué)會了“adaptive thinking”,模型會根據(jù)任務(wù)的復(fù)雜程度自動調(diào)整思考深度。在困難問題上花更多時間思考,而在簡單任務(wù)上快速通過。

      在代碼能力方面,Opus 4.6在Terminal-Bench 2.0這個評測中拿到了最高分。


      這個測試專門考察AI在終端環(huán)境下的操作能力。模型需要知道什么時候該用哪個命令,如何組合不同的工具,以及怎么從錯誤信息里找到問題所在。

      這就像是考察一個程序員會不會熟練使用各種開發(fā)工具。不只是寫代碼,還要會調(diào)試、會部署、會看日志找bug。

      更重要的是,Opus 4.6是Anthropic第一個提供100萬token上下文窗口的Opus級別模型。這個數(shù)字意味著模型可以一次性處理相當于兩本中等厚度小說的文本量。

      在長文本處理的測試中,Opus 4.6在MRCR v2的8-needle 1M 變體上得分76%,而上一代的Sonnet 4.5只有 18.5%。

      簡單一點來理解,就是給模型一大堆文檔,然后問它一個需要綜合多處信息才能回答的問題。

      以前的模型看著看著就“忘了”前面的內(nèi)容,或者找不到關(guān)鍵信息。Opus 4.6能在海量文本里準確定位需要的信息,而且不會因為文檔太長就表現(xiàn)下降。

      在知識工作能力的評測GDPval-AA 上,Opus 4.6比OpenAI的GPT-5.2高出約144Elo分,比自己的前代Opus 4.5高出190分。這個測試涵蓋了金融、法律等領(lǐng)域的實際工作任務(wù),比如制作財務(wù)分析報告、起草法律文件、做市場調(diào)研等。


      Anthropic還在產(chǎn)品層面做了不少配套更新。

      Claude Code現(xiàn)在支持“agent teams”功能,可以同時啟動多個AI代理,讓它們各自負責(zé)不同的子任務(wù),然后自動協(xié)調(diào)工作。

      對于那些大型的代碼庫,這個功能特別有用,可以把工作拆分給不同的代理并行處理。

      在辦公軟件集成方面,Anthropic推出了Claude in PowerPoint的研究預(yù)覽版,并大幅升級了Claude in Excel。

      現(xiàn)在Claude可以直接在Excel里處理更復(fù)雜的任務(wù),支持數(shù)據(jù)透視表編輯、圖表修改、條件格式化等功能。在 PowerPoint 里,Claude 能讀懂現(xiàn)有的版式、字體和母版設(shè)計,然后按照這個風(fēng)格創(chuàng)建新的幻燈片。

      就是讓AI真正進入你日常工作的工具里。不用來回復(fù)制粘貼,直接在Excel或PowerPoint的側(cè)邊欄跟Claude對話,它就能幫你改表格、做圖表、生成演示文稿。

      而且它會學(xué)習(xí)你的風(fēng)格,做出來的東西不會顯得格格不入。

      在API層面,Anthropic引入了“effort”參數(shù),提供低、中、高、最高四個檔位。

      開發(fā)者可以根據(jù)任務(wù)的復(fù)雜度選擇合適的檔位,在成本、速度和質(zhì)量之間找平衡。還有“context compaction”功能,當對話接近上下文窗口限制時,會自動總結(jié)并替換較早的內(nèi)容,讓長時間運行的任務(wù)不會因為超出限制而中斷。

      可以理解為給開發(fā)者更多的控制權(quán)。

      簡單任務(wù)用低檔位,省錢又快;復(fù)雜任務(wù)用高檔位,保證質(zhì)量。對話太長了系統(tǒng)會自動壓縮前面的內(nèi)容,這樣就能一直聊下去。

      在安全性方面,Anthropic這次做了他們有史以來最全面的安全評估。

      Opus 4.6在自動化行為審計中顯示出較低的不當行為率,包括欺騙、阿諛奉承、鼓勵用戶妄想和配合濫用等。

      由于 Opus 4.6在網(wǎng)絡(luò)安全方面的能力有顯著提升,Anthropic專門開發(fā)了六個新的網(wǎng)絡(luò)安全“探針”來檢測潛在的濫用行為。

      同時,他們也在用這個模型幫助開源軟件查找和修補漏洞,希望讓防御方也能用上AI的力量。

      Advancing Finance:金融領(lǐng)域的深度應(yīng)用

      Anthropic專門發(fā)布了一篇文章,詳細介紹Claude Opus 4.6在金融領(lǐng)域的應(yīng)用。

      在金融工作中,專業(yè)人士需要AI做三件事:研究、分析和創(chuàng)建交付物。Opus 4.6在這三個維度上都達到了業(yè)內(nèi)領(lǐng)先水平。

      在研究能力上,Opus 4.6在BrowseComp和DeepSearchQA兩個基準測試中都有提升。

      這兩個測試考察的是模型從大量非結(jié)構(gòu)化數(shù)據(jù)中提取特定信息的能力。

      對金融分析師來說,這意味著可以把一堆公司財報、行業(yè)報告、新聞文章扔給AI,然后問一個很具體的問題,AI能給出針對性的答案,而不是泛泛的總結(jié)。

      你丟給它一份財報,以前問AI“這家公司的盈利能力如何”,它可能給你的是一大段話,然后再把財報內(nèi)容復(fù)述一遍。

      現(xiàn)在它能直接告訴你關(guān)鍵指標是什么,跟行業(yè)平均水平比怎么樣,有哪些風(fēng)險因素。

      在分析能力上,Opus 4.6在 Finance Agent這個外部基準測試中達到60.7%的準確率,比Opus 4.5提升了5.47個百分點。

      在稅務(wù)評估TaxEval 上,Opus 4.6也達到了76%的業(yè)內(nèi)最高水平。

      Anthropic用一個商業(yè)盡職調(diào)查任務(wù)做了對比,他們讓Claude Opus 4.6去評估一個潛在的收購目標。這種工作通常需要一個資深分析師花兩到三周時間才能完成。

      但是Opus 4.6的首次輸出在結(jié)構(gòu)、內(nèi)容和格式上都比Opus4.5更接近可以直接使用的標準。

      也就是說,現(xiàn)在做出來的東西你小改一下就能用。這對于需要快速產(chǎn)出報告、演示文稿的金融從業(yè)者來說,效率提升是實實在在的。

      Anthropic的內(nèi)部“真實世界金融”評估涵蓋了約50個投資和財務(wù)分析用例,包括電子表格、幻燈片和文檔的生成與審閱。

      這些是投資銀行、私募股權(quán)、公開市場投資和企業(yè)財務(wù)領(lǐng)域分析師的常見任務(wù)。Opus 4.6比幾個月前的Sonnet 4.5提升了超過23個百分點。

      配合Cowork這個新功能,金融團隊可以同時啟動多個分析任務(wù)。Cowork讓Claude可以訪問你指定的本地文件夾,直接在里面讀取、編輯和創(chuàng)建文件。

      對金融團隊來說,這意味著可以一次性布置幾個分析任務(wù),同時監(jiān)督 Claude 創(chuàng)建每個交付物的過程,確保符合自己的標準。

      GPT-5.3 Codex:自己訓(xùn)練自己的模型

      在Claude Opus 4.6發(fā)布的幾十分鐘后,奧特曼突然發(fā)了一條X,宣布GPT-5.3 Codex。


      我在這里也是代表字母AI,給奧特曼和阿莫迪一點面子,給他們分別點了喜歡和轉(zhuǎn)發(fā)。

      GPT-5.3 Codex最牛的地方在于,它能像真人同事一樣干活,而且可以邊干活邊跟你商量。

      以前的AI是“你說一句我做一句”,GPT-5.3 Codex是“有問題隨時問你”。

      你給它一個復(fù)雜任務(wù),它能自己琢磨幾個小時甚至幾天,中途還會主動跟你匯報進度、問你意見,你隨時可以插話調(diào)整方向。

      有意思的是,OpenAI用GPT-5.3 Codex的早期版本來幫忙開發(fā)后續(xù)版本。也就是說,讓AI幫著調(diào)試AI的訓(xùn)練過程、修bug、優(yōu)化系統(tǒng),OpenAI團隊說這讓開發(fā)速度快得驚人。

      GPT-5.3 Codex在多個基準測試中創(chuàng)造了新的行業(yè)紀錄。在SWE-Bench Pro上,它達到了56.8%的準確率,這是一個嚴格的真實世界軟件工程評估。

      與只測試Python的SWE-bench Verified不同,SWE-Bench Pro涵蓋四種編程語言,更抗污染、更具挑戰(zhàn)性、更多樣化,也更貼近行業(yè)實際。

      在Terminal-Bench 2.0上,GPT-5.3 Codex達到77.3%,遠超之前的64%。

      這個測試衡量的是代碼代理需要的終端技能,也就是在命令行環(huán)境下完成各種操作的能力。值得注意的是,GPT-5.3 Codex用的token數(shù)量比之前任何模型都少,這意味著用戶可以用同樣的成本做更多事情。

      在 OSWorld-Verified 這個測試中,GPT-5.3 Codex得分 64.7%,而GPT-5.2-Codex只有38.2%。

      這是一個代理計算機使用基準測試,AI需要在可視化的桌面計算機環(huán)境中完成生產(chǎn)力任務(wù)。人類在這個測試中的得分約為72%,GPT-5.3 Codex已經(jīng)接近人類水平。

      在網(wǎng)頁開發(fā)方面,OpenAI展示了一個對比案例:讓GPT-5.3 Codex和 GPT-5.2-Codex分別創(chuàng)建一個 SaaS 產(chǎn)品的落地頁。

      GPT-5.3 Codex自動把年度套餐顯示為折扣后的月度價格,讓優(yōu)惠看起來更清晰、更有意圖,而不是簡單地把年度總價乘出來。


      GPT-5.3 Codex


      GPT-5.2 Codex

      它還做了一個自動切換的用戶評價輪播,包含三條不同的用戶評價,而不是只有一條,讓整個頁面感覺更完整、更接近可以上線的狀態(tài)。

      簡單來說,就是它會考慮用戶體驗和營銷效果。不是機械地實現(xiàn)功能,而是會想“怎么做更好”。這種對細節(jié)的把握和對最終效果的理解,讓它做出來的東西更接近專業(yè)水平。

      GPT-5.3 Codex的能力不僅限于編碼。

      它支持軟件生命周期中的所有工作,比如調(diào)試、部署、監(jiān)控、編寫產(chǎn)品需求文檔、編輯文案、用戶研究、測試、指標分析等等。

      在GDPval測試中,GPT-5.3 Codex的表現(xiàn)與GPT-5.2持平,達到70.9%的勝率或平局率。這個測試衡量的是模型在 44 個職業(yè)的明確知識工作任務(wù)上的表現(xiàn),包括制作演示文稿、電子表格和其他工作產(chǎn)品。


      一個有趣的細節(jié)是,兩家公司都強調(diào)了“自己用自己的產(chǎn)品”。Anthropic 說“我們用 Claude 來構(gòu)建 Claude”, OpenAI說“GPT-5.3 Codex在自己的開發(fā)中發(fā)揮了關(guān)鍵作用”。

      這其實是最好的廣告,如果自己的工程師都不愿意用,怎么能指望別人用?

      而且從技術(shù)演進的角度看,兩個模型都代表了 AI 從“回答問題”到“完成工作”的轉(zhuǎn)變。

      它們不再滿足于生成一段文字或一段代碼,而是要能夠執(zhí)行完整的工作流程,產(chǎn)出可以直接使用的交付物。這種轉(zhuǎn)變對 AI 的要求高得多:不僅要懂技術(shù),還要懂業(yè)務(wù);不僅要能做,還要做得好;不僅要快,還要穩(wěn)。

      值得注意的是,兩家公司都沒有回避 AI 能力提升帶來的風(fēng)險。Anthropic 做了“有史以來最全面的安全評估”, OpenAI 部署了“最全面的網(wǎng)絡(luò)安全防護措施”。

      從用戶角度看,兩家公司的競爭是好事。不同的需求可以找到不同的解決方案,不同的工作方式可以選擇不同的工具。更重要的是,競爭會推動雙方繼續(xù)創(chuàng)新,讓AI能力的邊界不斷擴展。

      而且這兩個產(chǎn)品的發(fā)布也標志著AI進入了一個新階段。不再是“能不能做”的問題,而是“怎么做得更好”的問題。

      本文來自微信公眾號:字母AI,作者:苗正

      本內(nèi)容由作者授權(quán)發(fā)布,觀點僅代表作者本人,不代表虎嗅立場。如對本稿件有異議或投訴,請聯(lián)系 tougao@huxiu.com。

      本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4832957.html?f=wyxwapp

      聲明:包含AI生成內(nèi)容

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      老了以后應(yīng)該把存款放哪?80歲老人的做法太妙,值得所有人學(xué)習(xí)

      老了以后應(yīng)該把存款放哪?80歲老人的做法太妙,值得所有人學(xué)習(xí)

      次元君情感
      2026-02-21 07:00:03
      被秘書污蔑26年未升職,終獲兵團級待遇補償

      被秘書污蔑26年未升職,終獲兵團級待遇補償

      何氽簡史
      2026-02-22 00:15:24
      特朗普和民主黨人吵起來了

      特朗普和民主黨人吵起來了

      新華社
      2026-02-21 14:26:38
      買房前如何快速判斷一個小區(qū)住戶的素質(zhì)?評論區(qū)萬千共鳴

      買房前如何快速判斷一個小區(qū)住戶的素質(zhì)?評論區(qū)萬千共鳴

      另子維愛讀史
      2026-02-21 21:31:31
      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      翰飛觀事
      2026-02-16 11:29:39
      馬年春節(jié)里,為什么沒什么人爭論,該買油車還是買電車了

      馬年春節(jié)里,為什么沒什么人爭論,該買油車還是買電車了

      路咖汽車
      2026-02-20 10:36:41
      母親一句“干不動了”別回來,扯下兒女遮羞布,看完心酸

      母親一句“干不動了”別回來,扯下兒女遮羞布,看完心酸

      熱心市民小黃
      2026-02-22 04:43:11
      徹底繞開光刻機!中國6G突然官宣重大突破,西方封鎖徹底失效

      徹底繞開光刻機!中國6G突然官宣重大突破,西方封鎖徹底失效

      粵語音樂噴泉
      2026-02-21 19:55:20
      太詭異,越南春聯(lián)上已沒有漢字!越南去漢字化確實很成功

      太詭異,越南春聯(lián)上已沒有漢字!越南去漢字化確實很成功

      魔都姐姐雜談
      2026-02-18 13:09:07
      11年恩愛抵不過殘酷現(xiàn)實,32歲昆凌青春正盛,奔50周杰倫年老力衰

      11年恩愛抵不過殘酷現(xiàn)實,32歲昆凌青春正盛,奔50周杰倫年老力衰

      小熊侃史
      2026-01-29 07:20:07
      發(fā)現(xiàn)一個殘忍真相:夫妻之間,如果男人先去世,女人最好做到3點

      發(fā)現(xiàn)一個殘忍真相:夫妻之間,如果男人先去世,女人最好做到3點

      真的好愛你
      2026-02-21 22:36:48
      第一個面臨消失的職業(yè),不是幼師,不是快遞員,而是這四種工作?

      第一個面臨消失的職業(yè),不是幼師,不是快遞員,而是這四種工作?

      美食格物
      2026-02-20 17:13:54
      性感私房照

      性感私房照

      翩翩明星
      2026-02-17 08:15:57
      打出9.5分!這部硬核美劇,后勁太大了

      打出9.5分!這部硬核美劇,后勁太大了

      來看美劇
      2026-02-19 22:20:35
      03年湖南一女教師莫名離世,6次尸檢后得出結(jié)論:特殊性方式導(dǎo)致

      03年湖南一女教師莫名離世,6次尸檢后得出結(jié)論:特殊性方式導(dǎo)致

      歷來都很現(xiàn)實
      2024-11-23 16:03:32
      人形機器人風(fēng)口來了!這4個板塊要起飛

      人形機器人風(fēng)口來了!這4個板塊要起飛

      侃故事的阿慶
      2026-02-21 23:02:59
      6天虧光90萬!當90%的人創(chuàng)業(yè)三年內(nèi)破產(chǎn)……

      6天虧光90萬!當90%的人創(chuàng)業(yè)三年內(nèi)破產(chǎn)……

      大佬灼見
      2026-02-19 10:16:35
      孩子越大,越要告訴他這五句人生真相:比成績更重要的,是活好這一生

      孩子越大,越要告訴他這五句人生真相:比成績更重要的,是活好這一生

      青蘋果sht
      2026-02-20 05:52:21
      “小婉君”金銘45歲現(xiàn)狀:個子太矮事業(yè)受挫,住北京豪宅不婚不育

      “小婉君”金銘45歲現(xiàn)狀:個子太矮事業(yè)受挫,住北京豪宅不婚不育

      削桐作琴
      2026-01-29 00:03:53
      開年就封殺!從網(wǎng)紅頂流到人人驅(qū)趕,房車為啥成了城市“公敵”

      開年就封殺!從網(wǎng)紅頂流到人人驅(qū)趕,房車為啥成了城市“公敵”

      番外行
      2026-02-13 08:58:27
      2026-02-22 05:20:49
      虎嗅APP incentive-icons
      虎嗅APP
      個性化商業(yè)資訊與觀點交流平臺
      25753文章數(shù) 687482關(guān)注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      貝加爾湖7名遇難者身份全部確認 1家4口僅1人生還

      頭條要聞

      貝加爾湖7名遇難者身份全部確認 1家4口僅1人生還

      體育要聞

      徐夢桃:這是我第一塊銅牌 給我換個吉祥物

      娛樂要聞

      黃曉明澳門賭博輸十幾億 本人親自回應(yīng)

      財經(jīng)要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔(dān)當”來了 方程豹首款轎車路跑信息曝光

      態(tài)度原創(chuàng)

      藝術(shù)
      數(shù)碼
      手機
      健康
      公開課

      藝術(shù)要聞

      他的肖像畫和人體畫,竟讓人贊嘆不已!

      數(shù)碼要聞

      物理銷毀SSD:結(jié)果根本沒貫穿PCB!直接就扔到垃圾桶了

      手機要聞

      三星Galaxy S26系列顏色曝光:將推6種配色,兩款為線上專屬

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版