<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Claude Opus 4.7連夜突襲:或將搶走全球7億打工人飯碗!

      0
      分享至


      新智元報道

      編輯:艾倫 好困

      【新智元導讀】Anthropic 正式發布 Claude Opus 4.7,核心升級落在復雜任務執行、高清視覺理解和更穩的長鏈路工作流上。對普通用戶來說,最直接的變化是更聽指令、更會看圖、產出更接近成品,同時也要注意Token也會燒得更快了。

      就在剛剛,Anthropic 正式發布 Claude Opus 4.7,并將它定義為當前可廣泛使用的最強 Claude 模型。


      性能不如此前曝光的新一代Claude Mythos Preview那么炸裂,但比普通用戶能真正用到的Opus 4.6強了太多,除了Agentic搜索能力略有下降外,實現了全面碾壓!


      官方給出的本次升級的關鍵詞:復雜任務、更強視覺、更穩的長鏈路執行,以及更少需要人工參與。

      只要還在用大模型寫文檔、讀截圖、做演示、整理材料,Opus 4.7 帶來的體驗變化,很難繞開。


      本次更新最大的亮點,是Opus 4.7的視覺能力大幅提升,在測試中從Opus 4.6約50%的分數,直接飆升到接近滿分!

      而這,補上了AI目前最大的視覺短板,或許已經不知不覺地邁過了替代人類工作的那道最重要的檻!

      GPT-5.4 Thinking是這樣評價它的對手Claude Opus 4.7發布給打工人帶來的影響的:


      本次升級的關鍵

      在于復雜任務的完成度

      Anthropic 把 Opus 4.7 的核心升級點放在了高級軟件工程和長時間任務執行上。

      用戶已經可以把過去需要密切監督的高難度編碼工作交給它處理,它會更嚴格地執行指令,也會在回報結果前主動想辦法驗證輸出。

      API 發布說明里,Anthropic 也把它稱為當前最強的通用可用模型,面向復雜推理和代理式編碼場景。

      大模型競爭的焦點,正在從答得像不像,轉到做得完不完。只會寫一段漂亮答案,已經不夠了。

      能不能把一份長文檔改干凈,能不能把一套資料串起來做成可交付物,能不能持續幾十分鐘甚至更久不跑偏,這才會決定它在日常工作里能不能真的替人扛起一片天。

      這能夠從 Opus 4.7 的官方發布重點里直接看出來。

      純編程只是開胃菜

      SWE-bench Multilingual 測的是模型修復真實 GitHub issue 的能力,覆蓋多種編程語言。

      Opus 4.7 拿 80.5%,Opus 4.6 拿 77.8%,漲 2.7 個百分點。

      單看這個數,似乎只是一次常規迭代。但同一張圖右邊那組數據更有意思,后面回頭講。


      1M token 里的長任務

      GraphWalks 是 OpenAI 做的長上下文基準,把一張有向圖用邊列表塞滿 1M token 上下文,讓模型做圖遍歷。

      兩種考法:一種是 Parents,給一個節點讓模型找出所有直接指向它的父節點;另一種是 BFS 廣度優先搜索,從起點出發一路找到特定深度可達的節點,對 Agent 跑多步驟長任務是硬指標。

      在 Parents 1M 這趴,Opus 4.7 從 71.1% 提到 75.1%,4 個百分點的常規改進。

      而到了 BFS 1M,Opus 4.7 則從 41.2% 一口氣干到 58.6%,拉開 17.4 個百分點。


      換個場景再看。

      Vending-Bench 2 讓模型模擬經營一臺自動售貨機,測長時間工作流里的決策連貫性。

      Opus 4.6 最終余額 8,018 美元,Opus 4.7 做到 10,937 美元。

      同一臺售貨機,同一個時間窗口,Opus 4.7 多掙了 36%。


      Agent 的眼睛換了代

      ScreenSpot-Pro 測的是 Agent 的屏幕定位能力。

      給模型一張 VSCode、Photoshop、AutoCAD 這類專業軟件的高分辨率桌面截圖加一條自然語言指令,讓它定位到具體的 UI 元素。在高分辨率屏幕里,目標 UI 元素往往只占整張圖的 0.07%,極考驗精細視覺。

      同樣低分辨率不帶工具,Opus 4.6 拿 57.7%,Opus 4.7 拿 69.0%,拉開 11.3 個百分點。

      切到高分辨率,Opus 4.7 不帶工具就達到了 79.5%。疊加工具調用,跑分直接來到 87.6%。


      視覺能力在一些測試(如XBOW的基準測試)中,Opus 4.7相比Opus 4.6得分直接翻倍,從54.5%躍升到接近滿分98.5!

      這造就了Opus 4.7相比4.6在計算機使用(Computer Use)能力的天壤之別!


      回到前面留的那張編程圖。

      SWE-bench Multimodal 這項,Anthropic 是用內部實現的測試 harness 跑的。

      測的是前端 JS 軟件修 bug,任務里帶著 UI 截圖、效果圖一類的視覺素材,模型要結合圖片和代碼一起干活。

      從 Opus 4.6 的 27.1% 做到 Opus 4.7 的 34.5%,一口氣提了 7.4 個百分點。

      Opus 4.7 的編程升級,重點是讓模型看懂屏幕。眼睛換代了,腦子才能干更復雜的活。


      GPT-5.4 和 Gemini 3.1 Pro 都沒扛住

      前面全是自比,現在來看看跟老對手們怎么打。

      GDPval-AA 是 Artificial Analysis 基于 OpenAI GDPval 數據集做的評估。

      它覆蓋了 44 種知識工作職業、9 大 GDP 核心行業,任務來自資深職業人士(平均 14 年經驗)的真實交付物。AA 版本讓模型在 agent loop 里干活,用盲測兩兩對比打 Elo 分。

      Opus 4.7 拿 1753,Opus 4.6 拿 1619,GPT-5.4 拿 1674,Gemini 3.1 Pro 拿 1314。

      Opus 4.7 高出 GPT-5.4 79 分,高出 Gemini 3.1 Pro 439 分。


      OfficeQA Pro 是 Databricks 做的企業級推理基準,語料是近 100 年的美國財政部公報,8.9 萬頁 PDF、2600 萬個數字。模型要精準找到文檔、解析表格和正文、跨文檔做分析推理。

      在這里,Opus 4.7 的跑分高達 80.6%,而 Opus 4.6 只有 57.1%,GPT-5.4 和 Gemini 3.1 Pro 更低,分別是 51.1%和 42.9%。

      換句話說,Opus 4.7 是 GPT-5.4 的 1.6 倍,是 Gemini 3.1 Pro 的 1.9 倍。


      躍升最炸的是生物學

      翻到最后一張,Structural Biology,生物分子推理。

      Opus 4.6 只有 30.9%。而Opus 4.7 直接沖到了 74.0%。

      一次版本迭代,從三成到七成半,2.4 倍。

      堪稱是所有 benchmark 里躍升最夸張的一項。


      普通用戶最先感受到的

      是三大變化

      第一個變化,指令遵循能力更強了。

      Anthropic 寫到,Opus 4.7 的指令遵循能力大幅提升,過去很多模型會松散理解、漏掉細節,Opus 4.7 則更傾向于逐條照著執行。

      代價是,舊提示詞有時會出現意料之外的結果,用戶需要重新調整寫法。

      對普通用戶來說,這會直接減少提示詞玄學,寫需求、定格式、列限制條件,會更有用。

      第二種變化,Claude 看圖會更細。

      Opus 4.7 支持長邊最高 2576 像素的圖像輸入,大約 375 萬像素,超過此前 Claude 模型的三倍。

      官方專門點了幾個場景,密集截圖、復雜圖表、精細結構圖、需要像素級參考的任務。

      放到現實使用里,這對應的就是看懂一頁密密麻麻的數據截圖,識別產品原型細節,從復雜流程圖里抽信息,讀一張高分辨率海報或報表時少丟細節。

      第三種變化,輸出結果會更容易接近可交付的成品。

      Anthropic 提到,Opus 4.7 在界面、幻燈片、文檔這些專業任務上更有審美,也更有創造性。

      它在基于文件系統的記憶上做得更好,能跨多輪、多會話記住關鍵備注,減少重復交代背景。

      對經常拿模型潤色材料、整理項目、反復改同一份內容的人來說,這種提升會比跑分的提升來得更直觀。

      這次發布

      安全也被擺在了同樣重要的位置

      Anthropic 在一周前剛剛公布 Project Glasswing,專門談到了前沿模型在網絡安全方向的風險與收益。

      Opus 4.7 成了這套新思路下第一個公開部署的模型,官方強調,它的網絡安全能力弱于 Mythos Preview,并且上線時帶有自動檢測和攔截高風險網絡安全請求的護欄。

      合規安全研究人員則可以申請加入新的 Cyber Verification Program。

      從安全評估看,Opus 4.7 與 Opus 4.6 的整體安全畫像相近,在誠實性和抵抗惡意提示詞注入上更強,在某些細項上也存在小幅走弱。


      Anthropic 的結論是,它整體上「較為可靠且值得信任」,距離理想狀態還有空間。

      這說明,Anthropic 沒有把發布包裝成一次毫無代價的全面躍升。

      誰會立刻受益

      誰又要多留一個心眼

      最先受益的人群很清楚,開發者、分析師、法務、研究人員,以及所有高頻處理文檔、表格、演示材料的人。

      官方早期測試反饋里,很多合作方都提到同樣幾件事,復雜工作流更穩了,錯誤恢復更強了,文檔推理、代碼審查、數據分析、長上下文任務都有明顯提升。


      需要多留一個心眼的地方也已經寫在官方說明里。

      更高分辨率圖像會燒掉更多 Token,用戶用不到這些細節時,最好先壓縮圖片。

      Opus 4.7 還換了分詞器(Tokenizer),同樣的輸入可能會多出大約 1.0 到 1.35 倍 Token,高 Effort 下輸出 Token 也會增加。

      對直接在 Claude 應用里聊天的普通用戶,這更多會體現在額度和響應體驗上。

      對使用龍蝦和Hermes Agent這類API的用戶和團隊客戶,這就是實打實的成本變量。

      好在價格方面,Opus 4.7和4.6與4.5保持了一致,沒有漲價,但這個價格本身其實就已經足夠昂貴了...


      Anthropic想傳遞的信號

      已經很清楚了

      從 Opus 4.7 這次發布能看出,Anthropic 眼下押注的方向已經很明確,長任務執行、視覺理解、工具協同、少監督交付,這幾項能力正在被打包成下一階段的大模型主戰場。

      官方同步上線的 Xhigh Effort(思考程度介于 high 和 max 中間)、Task Nudgets 公測,以及 Claude Code 里的 /ultrareview,也都圍著這個方向在轉。


      除了官網公告外,Claude也公布了Opus 4.7的系統卡,長達232頁,里面公布了更多值得關注的細節,限于篇幅再次我們不作展開。


      對普通用戶來說,對Claude Opus 4.7更直接的感受會是,交代清楚以后,它更容易把事情做對,看圖更細,寫出來的東西更能直接拿去用。

      大模型從會聊天走向會干活,這一步又往前挪了一大截。

      真正能干好活的最強生產力模型,從Opus 4.6,變成了Opus 4.7。

      參考資料:

      https://www.anthropic.com/news/claude-opus-4-7

      https://x.com/claudeai/status/2044785261393977612

      https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗向中國通報內幕!談判團差點被美軍“團滅”,連電話都不敢打

      伊朗向中國通報內幕!談判團差點被美軍“團滅”,連電話都不敢打

      風信子的花
      2026-04-19 16:46:59
      中俄關系比傳統“聯盟”更深厚、更可靠

      中俄關系比傳統“聯盟”更深厚、更可靠

      看看新聞Knews
      2026-04-19 08:36:10
      大數據分析,在中國,找個身高1米7年入20萬的老公,到底有多難?

      大數據分析,在中國,找個身高1米7年入20萬的老公,到底有多難?

      深度報
      2026-04-18 23:37:27
      中方行使否決權,新加坡深表失望,新國大使發難:應廢除一票否決

      中方行使否決權,新加坡深表失望,新國大使發難:應廢除一票否決

      書紀文譚
      2026-04-19 16:41:29
      中國智慧!張雪機車一腳壓線把名次壓賺了 車手:犯規但拿到13分

      中國智慧!張雪機車一腳壓線把名次壓賺了 車手:犯規但拿到13分

      念洲
      2026-04-19 07:39:14
      4月19日最新油價,國際油價大降21.8%,國內汽柴油“顯著”下跌中

      4月19日最新油價,國際油價大降21.8%,國內汽柴油“顯著”下跌中

      豬友巴巴
      2026-04-19 17:30:03
      美路易斯安那州槍擊 8名孩子身亡

      美路易斯安那州槍擊 8名孩子身亡

      財聯社
      2026-04-20 00:21:22
      收拾完伊朗,下一個輪到中國?以色列發戰爭威脅,中方送出5個字

      收拾完伊朗,下一個輪到中國?以色列發戰爭威脅,中方送出5個字

      千羽解讀
      2026-04-18 10:12:15
      央視揭露:美國1年投1300萬美元在中國搞“滲透”,俄羅斯、伊朗、古巴也是重點目標;細節曝光

      央視揭露:美國1年投1300萬美元在中國搞“滲透”,俄羅斯、伊朗、古巴也是重點目標;細節曝光

      極目新聞
      2026-04-19 11:39:23
      “國營媒體是謊言工廠”,這位總理上臺就宣布關閉

      “國營媒體是謊言工廠”,這位總理上臺就宣布關閉

      法經社
      2026-04-19 12:34:54
      女子稱酒店回訪暴露她開房隱私:丈夫查她開房記錄,和她離婚了

      女子稱酒店回訪暴露她開房隱私:丈夫查她開房記錄,和她離婚了

      江山揮筆
      2026-04-19 10:57:54
      以色列已失控?以軍炮打聯合國維和部隊,法軍犧牲,馬克龍表態

      以色列已失控?以軍炮打聯合國維和部隊,法軍犧牲,馬克龍表態

      來科點譜
      2026-04-19 07:15:46
      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      特約前排觀眾
      2025-12-22 00:20:06
      普京時代進入倒計時,中國必須警惕俄羅斯政策突變

      普京時代進入倒計時,中國必須警惕俄羅斯政策突變

      阿七說史
      2026-04-18 15:47:09
      深大一口氣停招26個專業,這些“坑”你還在踩嗎?

      深大一口氣停招26個專業,這些“坑”你還在踩嗎?

      牛鍋巴小釩
      2026-04-17 13:18:03
      烏克蘭對俄本土發起狂風暴雨打擊,俄羅斯遭遇黑色星期六

      烏克蘭對俄本土發起狂風暴雨打擊,俄羅斯遭遇黑色星期六

      史政先鋒
      2026-04-19 19:18:27
      沒有不透風的墻!沈騰和林允的瓜未必是假的、站姐關站跑路

      沒有不透風的墻!沈騰和林允的瓜未必是假的、站姐關站跑路

      琴聲飛揚
      2026-01-20 14:25:10
      山東乳山銀灘“195平米復式房”1萬元起拍,已有多人競價,拍賣公司:產證面積97.94平米,另有贈送面積,非法拍可隨時過戶

      山東乳山銀灘“195平米復式房”1萬元起拍,已有多人競價,拍賣公司:產證面積97.94平米,另有贈送面積,非法拍可隨時過戶

      極目新聞
      2026-04-19 14:06:31
      “絕對good!”河南男子在美國擺攤賣磨刀器:義烏進價1塊賣5美金,月入1萬美金

      “絕對good!”河南男子在美國擺攤賣磨刀器:義烏進價1塊賣5美金,月入1萬美金

      瀟湘晨報
      2026-04-19 11:48:20
      英超神劇情:4-3險勝,亞伯拉罕補時絕殺,埃梅里瘋狂慶祝

      英超神劇情:4-3險勝,亞伯拉罕補時絕殺,埃梅里瘋狂慶祝

      足球狗說
      2026-04-19 22:59:23
      2026-04-20 03:24:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15012文章數 66787關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤東漲粉百萬!內娛隔空掀桌第一人

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      數碼
      手機
      游戲
      公開課
      軍事航空

      數碼要聞

      華為新機發布前瞻:闊折疊X Max+影像旗艦Pura 90,都沒懸念了

      手機要聞

      8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

      如何將ZH-1火力最大化?《戰艦世界》15.3版本造船廠加點攻略

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗逼退美掃雷艇:美方求給15分鐘撤退

      無障礙瀏覽 進入關懷版