<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛, Claude Opus 4.6登頂編程之王! 殺入Office全家桶, 15億打工人變天

      0
      分享至


      新智元報道

      編輯:桃子 好困

      【新智元導讀】整個硅谷又癲狂了!Anthropic深夜扔出王炸,Claude 4.6用近乎恐怖的編程能力和智能體軍團,給OpenAI和谷歌上了一堂名為「降維打擊」的課。

      Anthropic深夜驚雷,終于祭出了編程之王!

      剛剛,Claude Opus 4.6橫空出世,一夜成為全球最強編程AI,「無模」能敵。

      它在前一代Opus 4.5的基礎上,大幅提升了編碼技能。



      Claude Opus 4.6的規劃更縝密,能更持久地執行AI Agent任務,在超大規模代碼庫中運行也更加可靠。

      最重要的是,它還具備更強自我糾錯能力,比如精準的代碼審查、調試。

      它也是Anthropic首款在beta階段,上下文支持100萬token的Opus級模型


      在多項基準測試中,Claude Opus 4.6編程實力幾乎全方位領先,Gemini 3 Pro、GPT-5.2望塵莫及。




      在ARC-AGI-2上,Opus 4.6拿下68.8%高分,超過GPT-5.2-xhigh

      (左右滑動查看)

      不僅如此,Opus 4.6一經上線,就開始革命辦公了!

      今天,這款新模型同時在Excel、PPT中的Claude,以及Claude Code、API中同步上線。

      比如奧運長跑鞋供應鏈數據,和自己預測的不一樣,好幾個季度數據不能一眼過完,可以緊急向Opus 4.6求救。

      它會遍歷文件夾下所有Excel表,直接抓出差錯的地方,還能同步繪制出折線圖。


      同樣在PPT中,也能實時調用Opus 4.6了,從布局、字體到母板,Claude都能確保內容符合品牌規范。


      從今天起,Claude Opus 4.6可以在Claude網頁端、開發者平臺,以及各大平臺直接可上手。

      硅谷今晚的火藥味,恐怕要沖破屏幕了......

      Opus 4.6發布后沒幾分鐘,OpenAI緊急掏出GPT-5.3-Codex。



      眼瞧著奧特曼發了預告,Anthropic立刻火速亮劍。只能說,起了個大早趕了個晚集


      「編程新王」深夜炸場,革命全球打工人

      Claude Opus 4.6的官宣,可以說是Anthropic一次重大轉折。

      負責人Alex Albert是這么說的,「Claude在2025顛覆了編程,在2026年將徹底重塑知識型工作」!


      Opus 4.6絕不僅是一次簡單的模型升級,而是AI真正成為人類「職場合伙人」的分水嶺——

      尤其是對于那些每天泡在表格、PPT和長文檔里的打工人。正是這類工作,支撐起了金融和咨詢等核心產業。

      在真實的金融任務測試中,Opus 4.6比幾個月前業界頂尖的Sonnet 4.5,足足提升了23%以上

      在這個時代,「幾個月前」聽起來就像上個世紀。

      而且這些測試一點都不抽象,全是實打實的硬活:建財務模型、做路演 PPT、搞并購分析。以前分析師得忙活好幾周的工作,現在眨眼間就能完成。


      在日常工作任務中,Opus 4.6將成為最強助力——

      運行財務分析、進行深度研究,以及使用和創建Word、Excel、PPT,全都可以調用。

      值得一提的是,據不完全統計,全球約有15億人都在Office全家桶上辦公,Opus 4.6正在引發一場深層的辦公效率變革。

      不僅如此,在Claude Cowork中,Opus 4.6可以直接成為「牛馬」手替,完成以上一切復雜任務。

      在輸出質量上,Opus 4.6也有了質的飛躍。

      以前的模型可能需要反復修改好幾輪,甚至根本搞不定;但現在,第一版出來的東西往往就能直接用了。

      • Cowork讓你丟進一整個文件夾就能同時啟動多項分析;

      • Excel里的Claude 處理起多表財務模型來得心應手,絕不跑偏;

      • PowerPoint里的Claude,讓你能直接在軟件里生成和修改。

      正如AI抹平了開發的門檻,它也將重塑每一位知識工作者的能力邊界。

      一場生產力的范式轉移已箭在弦上,序幕才剛剛開啟。


      全面碾壓Gemini 3、GPT-5.2

      SOTA拿到手軟

      能夠推動這種生產力范式的遷移,前提一定是,有一個實力全方位能打的模型。

      Opus 4.6做到了!它在多項評估中的表現均達到了SOTA——

      在智能體編程評估Terminal-Bench 2.0中,它拿下了65.4的高分;在HLE測試中,領跑所有其他前沿模型。



      最重要的是,在GDPval-AA知識工作的性能評估中,Opus 4.6比GPT-5.2高出約144 Elo分,比上一代 Opus 4.5高出190分。


      另外,Opus 4.6在智能體搜索BrowseComp基準上,表現完勝任何模型。


      從更全面的基準PK中看,在智能體編程、計算機使用、工具使用、搜索和金融領域,Opus 4.6是業界領先的模型,優勢更加明顯。

      在智能體工具使用t2-bench中,Opus 4.6拿下了近滿分的成績,零售91.9%,電信99.3%。


      Opus 4.6在從海量文檔中檢索相關信息方面,表現得更好。

      這種能力延伸到了長上下文任務中,它可以在數十萬Token中保存和跟蹤信息,且漂移更少,并且能捕捉到即使是Opus 4.5也會錯過的深埋細節。

      AI模型一個常見的痛點是「上下文衰減(context rot),即隨著對話超過一定數量的Token,性能會下降。

      Opus 4.6表現明顯優于其前身:在MRCR v2的8-needle 1M變體(一種「大海撈針」基準測試)上,其得分為 76%,而Sonnet 4.5得分僅為18.5%。



      這代表了模型在保持峰值性能的同時,實際可用上下文數量上的質的飛躍。

      總而言之,Opus 4.6更擅長在長上下文中查找信息,更擅長在吸收該信息后進行推理,并且總體上具有明顯更強的專家級推理能力。

      下面的圖表顯示了, Claude Opus 4.6 在各種基準測試中的表現。

      這些測試評估了其軟件工程技能、多語言編程能力、長期一致性、網絡安全能力及其生命科學知識。






      左右滑動查看

      Claude Code「智能體群」登場

      一人指揮AI大軍

      更值得一提的是,Opus 4.6深度集成到了Claude Code中。

      如今,在Claude Code中,開發者可以組建智能體團隊(agent teams)來協同處理任務

      也就是人們最近討論最熱的「智能體群」(Agent Swarms)。


      Claude Code之父Boris Cherny警告,尚在實驗階段,可能會消耗大量token

      從此以后,不再只是單個Claude孤軍奮戰、按部就班地處理任務。

      如今,「主智能體」可以將任務分發給多個「Claude團隊成員」。其他AI可以并行開展調研、調試和開發工作,并實時保持溝通協作。

      這意味著,一個開發者可以帶領Claude大軍搞開發了。只要動動嘴描述一下想法,就能寫出軟件。


      在官方文檔介紹中,Anthropic將其稱之為「多Claude Code會話團隊編排」(Orchestrate teams)。

      每次任務中,都會有一個領頭人Claude在AI大軍中挑起重擔,負責統籌全局、分配任務并匯總最終結果。


      可以使用Shift+Up/Down或tmux直接接管任何子智能體(subagent)

      其他AI則在各自獨立的上下文中各司其職,并且彼此之間可以直接溝通。

      這與「子智能體」有所不同:子智能體運行在單一會話內,只能向主智能體匯報;

      而對于「AI智能體團隊」,開發者可以越過負責人直接與任何一個成員進行交互。



      在下面demo中,可以看到在同一個界面中,多個Agent同步執行任務,讓開發效率狂飆。

      砸2萬美金,16個Claude組團寫10萬行C編譯器

      這不,Anthropic打了個樣,讓Opus 4.6智能體群打造出一款C編譯器,人類只「旁觀」幾乎不干預。

      兩周后,它成功在Linux內核中運行了!


      實驗中,團隊讓16個Claude Opus 4.6,在沒有任何人類干預的情況下,并行協作開發代碼。

      為了測試這套系統的極限,給這群AI派了一個硬核任務——從零開始用Rust語言寫一個C編譯器,而且目標是必須能編譯Linux內核。

      16個Claude瘋狂「加班」,消耗了近20億個輸入Token,總共燒掉了約2萬美元的API成本。

      實驗過程非常有意思,Nicholas Carlini構建了一個自動循環系統,讓Claude 完不成任務就不準「下班」。


      這里只想mark下Dario Amodei這句話:未來6-12月,軟件工程不再需要人類

      為了防止AI們打架,他設計了一套基于Git任務鎖機制,讓不同的Claude負責不同的模塊:

      有的在解 Bug,有的在寫文檔,有的在優化代碼質量,甚至還有專門負責「吐槽」架構并進行重構的。

      最終結果令人震撼:這支AI戰隊真的擼出了一個10萬行代碼的編譯器!

      它不僅能成功編譯Linux 6.9內核(支持x86、ARM和RISC-V架構),還能跑通《毀滅戰士》(Doom)、PostgreSQL、Redis等復雜項目。

      Claude創造Claude,學會深度思考

      在Anthropic內部,團隊用Claude來構建Claude。

      工程師每天都使用Claude Code編寫代碼,每一款新模型都會首先在內部工作中進行測試。

      對于Opus 4.6,團隊發現可以在無需被告知的情況下,更加專注于任務中最具挑戰性的部分,在較簡單的部分快速推進,以更好的判斷力處理模棱兩可的問題,并在更長的會話中保持高效。

      Opus 4.6經常會進行更深度的思考,并在確定答案之前更仔細地重新審視其推理過程。

      這在處理較難的問題時會產生更好的結果,但在較簡單的問題上可能會增加成本和延遲。

      如果發現模型在某個特定任務上「想太多」,建議將 Effort(思考力度)從默認設置(高)調低至中等。







      左右滑動查看

      加入百萬token上下文革命

      在API上,Claude可以用「上下文壓縮」來總結其上下文,從而在不觸及限制的情況下,執行運行時間更長的任務。

      團隊還引入了「自適應思考」(adaptive thinking)——模型可以根據上下文線索感知何時需要使用擴展思考;

      以及,全新的Effort(思考力度)控制,讓開發者對智能、速度和成本擁有更多掌控權。

      在API定價方面,Claude Opus 4.6輸入價格5美元/百萬token,輸出價格25美元/百萬token。


      此外,Opus 4.6是首款支持100萬Token上下文的Opus級別模型。

      對于超過200k Token的提示詞,將按高級費率計費(每百萬輸入/輸出 Token分別為10美元/37.5美元)。


      另外,Opus 4.6支持高達128k Token的輸出,這讓Claude無需將任務分解為多個請求即可完成更大輸出量的任務。

      對于需要在美運行的工作負載,可以使用僅限美國推理(US-only inference),價格為Token定價的1.1倍。

      更安全,更聽話

      智能的提升并非以犧牲安全性為代價。

      在自動化行為審計中,Opus 4.6表現出較低的未對齊行為(misaligned behaviors)發生率,如欺騙、阿諛奉承(sycophancy)、助長用戶妄想以及配合濫用。

      總體而言,它與我們迄今為止最對齊的前沿模型Opus 4.5一樣對齊良好。

      Opus 4.6還顯示出在任何最近的Claude模型中最低的過度拒絕(over-refusals)率——即模型拒絕回答良性查詢的情況。


      最后,用Anthropic負責人Alex Albert一句話總結Claude Opus 4.6的這場發布——

      2025年是AI編程走向普及的元年,而2026年,AI將在編程之外的所有領域全面爆發。


      參考資料:

      https://www.anthropic.com/news/claude-opus-4-6

      https://x.com/claudeai/status/2019467372609040752


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      比福建艦還大!4艘萬噸巨船同時出塢,美這才明白,輸給中國了

      比福建艦還大!4艘萬噸巨船同時出塢,美這才明白,輸給中國了

      溫讀史
      2026-01-09 23:42:22
      美數百架戰機集結,中國往伊朗運雷達?美媒:美軍或打中中俄軍艦

      美數百架戰機集結,中國往伊朗運雷達?美媒:美軍或打中中俄軍艦

      頭條爆料007
      2026-02-20 11:41:26
      顧丹真的漂亮

      顧丹真的漂亮

      陳意小可愛
      2026-02-19 03:41:59
      糖尿病治愈療法來了,最快今年上市

      糖尿病治愈療法來了,最快今年上市

      醫學界
      2026-02-21 18:39:50
      棄用追夢,科爾決定引爆聯盟!30歲“病號”,才是庫里的絕佳搭檔

      棄用追夢,科爾決定引爆聯盟!30歲“病號”,才是庫里的絕佳搭檔

      體育大朋說
      2026-02-21 21:19:32
      娛樂圈「最美小三」復出,又翻紅了

      娛樂圈「最美小三」復出,又翻紅了

      獨立魚
      2026-02-20 21:06:16
      緊急預警!腦梗為啥總愛找中國人?80%的人都缺這種維生素

      緊急預警!腦梗為啥總愛找中國人?80%的人都缺這種維生素

      孟大夫之家1
      2026-02-20 19:39:11
      毛岸英究竟怎么犧牲的?2020年彭德懷發的絕密電報公開,寫了什么

      毛岸英究竟怎么犧牲的?2020年彭德懷發的絕密電報公開,寫了什么

      楚風說歷史
      2026-02-18 07:25:03
      河南隊官宣6虎加盟,海港鋒霸+前巴薩青訓妖星組鋒線,王國明續約

      河南隊官宣6虎加盟,海港鋒霸+前巴薩青訓妖星組鋒線,王國明續約

      替補席看球
      2026-02-21 19:40:00
      陽光城集團杭州項目破產清算

      陽光城集團杭州項目破產清算

      地產微資訊
      2026-02-21 16:32:24
      48小時大變臉!美國緊急撤回名單,高市急用簡體中文向中國低頭

      48小時大變臉!美國緊急撤回名單,高市急用簡體中文向中國低頭

      愛下廚的阿釃
      2026-02-20 15:42:35
      聽說閆學晶炫富導致中央戲劇學院的管理層都被團滅了!

      聽說閆學晶炫富導致中央戲劇學院的管理層都被團滅了!

      達文西看世界
      2026-02-15 20:25:40
      尼格買提春晚歸家驚現無綠葉菜,背后隱藏的新疆美食秘密!

      尼格買提春晚歸家驚現無綠葉菜,背后隱藏的新疆美食秘密!

      一盅情懷
      2026-02-21 13:36:27
      谷愛凌稱已不再奢望別人理解自己,不懂的永遠不會懂;“我想知道為什么總是這樣,我也不是故意要嚇大家”

      谷愛凌稱已不再奢望別人理解自己,不懂的永遠不會懂;“我想知道為什么總是這樣,我也不是故意要嚇大家”

      大風新聞
      2026-02-20 15:00:25
      中央明確養老金改革方向,2026年公平養老邁關鍵一步

      中央明確養老金改革方向,2026年公平養老邁關鍵一步

      風流女漢
      2026-01-17 16:46:56
      1965年毛主席批判《海瑞罷官》,田家英:那以后沒人敢研究歷史了

      1965年毛主席批判《海瑞罷官》,田家英:那以后沒人敢研究歷史了

      大運河時空
      2026-02-18 11:35:03
      越來越多人得癌癥,醫生提醒:洗碗時幾個壞習慣,你占了幾個?

      越來越多人得癌癥,醫生提醒:洗碗時幾個壞習慣,你占了幾個?

      39健康網
      2026-02-20 09:31:06
      73歲老太在烈士陵園掃墓,意外發現自己的名字,隨即驚動政府人員

      73歲老太在烈士陵園掃墓,意外發現自己的名字,隨即驚動政府人員

      搜史君
      2026-01-04 18:15:03
      墨菲:趙心童的發揮非常好,他在比賽中段的表現簡直就沒法打!

      墨菲:趙心童的發揮非常好,他在比賽中段的表現簡直就沒法打!

      世界體壇觀察家
      2026-02-21 06:50:34
      美最高法院6:3裁定特朗普關稅違法!1.4萬億美元收入“落空”,或撕開美國財政千億黑洞

      美最高法院6:3裁定特朗普關稅違法!1.4萬億美元收入“落空”,或撕開美國財政千億黑洞

      每日經濟新聞
      2026-02-21 14:55:09
      2026-02-21 22:40:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14566文章數 66632關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      立陶宛總統繼續"嘴硬":不會跪下認錯 中方要展現誠意

      頭條要聞

      立陶宛總統繼續"嘴硬":不會跪下認錯 中方要展現誠意

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      教育
      藝術
      家居
      手機
      公開課

      教育要聞

      本科生畢業進工廠,薪資趕超互聯網

      藝術要聞

      投資14.5億!鄰水縣奧體中心,施工規模顯現!

      家居要聞

      本真棲居 愛暖伴流年

      手機要聞

      三星Galaxy S26系列顏色曝光:將推6種配色,兩款為線上專屬

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版