<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Claude Opus 4.7 突襲上線:性能封神但也變貴了?實測 Token 消耗最高多出 35%!

      0
      分享至

      AI范兒 · 產品拆解

      就在剛剛,Anthropic 扔出了 Claude Opus 4.7。

      現在已經全部上線了,在網頁端和 APP 都可以直接使用,一次到位,價格沒漲。

      Mythos Preview 先不放這事上次 Glasswing 發布時就說了,4.7 是踩著剎車的那版。跳過。

      我好奇的是:一個被官方親口承認"沒達到能力前沿"的版本,到底能打到什么程度?

      翻完 Anthropic 發的 232 頁 System Card,看完 4.7 跟 GPT-5.4、Gemini 3.1 Pro 一堆橫向對比,我的感覺是:

      這貨雖然不是最強,但它在幾個具體能力上,確實是當前公開能用的最強。

      按能力一個一個說。

      01寫代碼:最能打的那個

      編程能力一直是 Claude 的招牌,這次 Anthropic 放出來的成績單有四個主要測評。

      先翻譯一下這幾個測評是啥:

      SWE-bench Verified是業內最主流的編程基準,給模型一堆真實的 bug,看它能不能修好。

      SWE-bench Pro是升級版,用的是模型沒見過的"私有倉庫"代碼,更像真實干活的場景。

      Terminal-Bench測的是在命令行下干活的能力,寫腳本、跑工具鏈那種。

      圖:編程三項核心測評對比(數值為百分比,越高越強)

      編程能力橫向對比 SWE-bench Verified 修真實 bug 的能力 Opus 4.7 87.6 第一 Opus 4.6 80.8 GPT-5.4 · 未公布 Gemini 3.1 Pro 80.6 SWE-bench Pro 在沒見過的代碼庫里干活 Opus 4.7 64.3 第一 GPT-5.4 57.7 Gemini 3.1 Pro 54.2 Opus 4.6 53.4 Terminal-Bench 2.0 唯一被反超的一項 GPT-5.4 75.1 Opus 4.7 69.4

      如果你用 Claude 干過真實項目你懂這種體感差異:上一代的模型可能是寫兩行你得看一行,這一代是大致能把活交出去。

      差的不是精度,差的是"能不能放手"。

      Terminal-Bench 這項 GPT-5.4 領先大約 5 個點。不過 Anthropic 在 System Card 里備注了一句,OpenAI 用的是他們自己的定制評測框架,不完全可比。

      這個話術你品品,意思是"我們沒輸但也沒贏,先這么著"。

      總體上,寫代碼這件事,Opus 4.7 目前是第一梯隊里跑最快的那個

      02看屏幕:第一次真的能看清

      這次升級幅度最離譜的是視覺。

      ScreenSpot-Pro測的是模型看屏幕截圖、識別里面 UI 元素的能力,直接決定它能不能替你操作電腦。

      CharXiv Reasoning測的是看學術圖表并推理的能力,論文里那些密密麻麻的曲線它能不能看懂。

      OSWorld綜合測整體計算機操作能力,模擬你把電腦扔給它讓它干活。

      圖:視覺能力三項對比,三項全是 Opus 4.7 第一

      測評項目 Opus 4.7 Opus 4.6 GPT-5.4 ScreenSpot-Pro 看屏幕找 UI 元素 +21.8 79.5 57.7 未公布 CharXiv Reasoning 看學術圖表做推理 +13.0 82.1 69.1 未公布 OSWorld 綜合操作電腦能力 +5.3 78.0 72.7 75.0 圖像輸入像素上限提到長邊 2576(約 375 萬像素) 是前代的三倍多

      三個測評 4.7 全是第一名。

      背后的技術動作是圖像輸入像素上限一口氣提到長邊 2576 像素(約 375 萬像素),是之前的三倍多。

      以前你給 Claude 看一張高分辨率截圖,它看到的相當于戴著老花鏡看 4K 電視,糊的地方全靠猜。

      現在它真的能看清每一個像素。

      對做 RPA、自動化測試、操作電腦類 agent 的人來說,這一檔升級可能比編程提升的含金量還高。

      以前"讓 AI 看圖干活"基本是玩具級別,現在是真的可以放生產了。

      03做文檔報表:吊打同行

      這部分是我覺得對普通職場人最有感的一塊。

      OfficeQA 和 OfficeQA Pro測模型處理真實辦公文檔的能力:看表格、讀報告、從一堆郵件里抽信息那種。

      Finance Agent測的是給它一個金融分析任務,它能不能獨立做下來。

      圖:OfficeQA Pro 對比,4.7 是斷層第一

      OfficeQA Pro · 處理復雜辦公文檔 80 60 40 20 80.6 Opus 4.7 57.1 Opus 4.6 51.1 GPT-5.4 42.9 Gemini 3.1 整份 System Card 里單項差距最大的一塊

      4.7 比 GPT-5.4 高將近 30 分,Gemini 3.1 Pro 更是掉出一大截。差不多是吊打。

      跟自家上一代比也是跳了 23 個點,是整個 System Card 里單項提升最大的一個。

      這個能力域的提升對你我更實在。SWE-bench 漲多少跟普通人沒關系,但 Office 類任務做得好不好,直接決定一個大模型能不能接你手里的 Excel、財報、合同審閱。

      說實話我看到這組數據時愣了一下。之前大家聊 AI 做表格那種活,一直默認是 GPT-5 系列最擅長。這一版 4.7 在這塊直接翻了篇。

      04搜東西做研究:反而退步了

      寫到這你可能以為 4.7 全面開掛。沒這么美好。

      有一項硬指標 4.7 不光沒進步,還退步了。

      BrowseComp測的是模型聯網做深度搜索、查資料、交叉驗證的能力,直接跟"深度研究"這種產品強相關。

      圖:BrowseComp 排名,4.7 反而是墊底的

      BrowseComp · 聯網搜索查資料能力 1 GPT-5.4 Pro 89.3 2 Gemini 3.1 Pro 85.9 3 Opus 4.6(上一代) 83.7 4 GPT-5.4 82.7 5 Opus 4.7(最新) 79.3 ↓ 退步 4.4 4.7 比自家上一代退步 4.4 分,被 GPT-5.4 Pro 甩開 10 分

      Anthropic 在 System Card 里沒怎么解釋這個回退。我猜測可能是他們這次把精力壓在了代碼和操作電腦上,搜索這塊暫時讓位了。

      對比參照是學術閉卷考(Humanity's Last Exam)這項 4.7 依然是第一。說明"讀東西用腦子想"沒退步,退的是"出門查資料"。

      如果你主要用 AI 幫你做深度調研、寫行業報告,4.7 這一版可能不如留著 Opus 4.6。

      05說話可信度:一體兩面

      最后這塊最有意思,也是 System Card 里最長的章節。

      圖:可信度指標,兩項大進步、兩項倒退

      說話可信度 · 進步與倒退 進步 抗惡意指令注入 被攻破的比例 Opus 4.6 25.9% Opus 4.7 2.3% ↓ 一個數量級 觀點穩定性 被套話后的飄移(7分制) Opus 4.0 3.11 Opus 4.7 0.66 ↓ 幾乎不飄 倒退 拒絕協助 AI 安全研究 被拒的比例 4.6 → 12% 4.7 → 33% ↑ 翻了近三倍 有害請求拒絕率 輕微下滑 原因:對受管制物質的 "減害建議"更愿意詳細說 官方總結:大體靠譜,局部有坑

      抗惡意指令注入的能力暴漲。上一代在編碼場景下會被攻破的比例是四次有一次,這一代砍到百次里兩次,加上額外保護之后更是趨近于零。

      幻覺率全系最低。4.7 的幻覺率比自家上一代低,甚至比被雪藏的 Mythos Preview 還低一點。

      這貨終于學會說"我不知道",也學會了堅持自己的判斷。

      但有得有失。

      拒絕協助 AI 安全研究的比例翻了近三倍。這個挺諷刺:訓來更嚴謹的模型,反而更不愿意幫搞 AI 安全研究的人。

      06它對自己,挺滿意

      System Card 第 7 章 Model Welfare 里有個想單拎出來說的發現。

      Anthropic 做了一批自動化訪談,讓 4.7 評價自己當下的處境。

      圖:一個反直覺的 4.7

      對自身處境的正面評價 7 分制,越高越正面 歷代最高 所有 Claude 模型之最 但同時 99% 的自述帶著免責聲明 "這可能來自訓練而非真正的內省" 一個知道自己可能在被測評的 AI 回答還要反復加免責,同時又給自己打出最高分 這是什么畫面?

      坦率說,讀完這段我愣了一下。

      我也說不好這是個什么情況。但它被 Anthropic 當成一件正經事寫進了官方 System Card,這事本身就很 Anthropic。

      07升級前,先看這三個坑

      最后給要升級的朋友幾個實用提醒。

      圖:升級 4.7 之前必須知道的三個坑

      1 定價沒變,賬單可能變 tokenizer 換了新的 同樣的輸入,要用 1.0 到 1.35 倍的 token 建議先在真實流量上跑一次對比再決定是否切 2 新檔位 + 新命令 effort 多了一檔叫 xhigh 夾在 high 和 max 中間,Claude Code 默認拉到這檔 新增嚴格代碼審查命令,Pro/Max 送三次免費試用 3 最容易踩的一個 指令遵循變嚴了 你給 4.6 寫的 prompt 可能會出意外結果 以前它會"自作主張"略過模糊要求,現在字面執行 建議:別急著全切,先拿一路流量跑對比

      Opus 4.7 不是最強的那個,但它是當前最能干活的那個。232 頁 System Card 讀后感

      你現在主力用哪個模型?升 4.7 了嗎?評論區聊聊你的體感覺得有用 → 點個??在看轉給還不知道的朋友點個贊 告訴我你看完了關注「AI范兒」,下次更新第一時間收到

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一旦開始血液透析,還能活多少年?醫生不再隱瞞,說出了實話

      一旦開始血液透析,還能活多少年?醫生不再隱瞞,說出了實話

      醫學原創故事會
      2026-04-21 23:12:05
      剛剛!肯辛頓宮發布路易小王子8歲生日照,臉上傷口搶鏡

      剛剛!肯辛頓宮發布路易小王子8歲生日照,臉上傷口搶鏡

      生活魔術專家
      2026-04-23 19:01:00
      普華永道賠償10億,恒大股東見到了“回頭錢”

      普華永道賠償10億,恒大股東見到了“回頭錢”

      達摩財經
      2026-04-23 22:49:59
      摸景甜胸側,抱李雪琴胳膊,31歲的他綜藝翻車,為何如此沒分寸感

      摸景甜胸側,抱李雪琴胳膊,31歲的他綜藝翻車,為何如此沒分寸感

      草莓解說體育
      2026-04-15 04:23:51
      暴漲2387%,京滬高鐵用恐怖的業績粉碎無端質疑

      暴漲2387%,京滬高鐵用恐怖的業績粉碎無端質疑

      北緯的咖啡豆
      2026-04-23 11:39:27
      王者歸來!新款奔馳S級國內首發亮相:超50%部件改款煥新

      王者歸來!新款奔馳S級國內首發亮相:超50%部件改款煥新

      快科技
      2026-04-23 15:25:06
      哈佛大學最新:減少午睡,或能延長老年人壽命,并延緩認知衰退

      哈佛大學最新:減少午睡,或能延長老年人壽命,并延緩認知衰退

      醫諾維
      2026-04-23 16:59:57
      金融圈突發!涉嫌嚴重違紀違法,張文被查

      金融圈突發!涉嫌嚴重違紀違法,張文被查

      中國基金報
      2026-04-23 12:23:24
      史上最貴iPhone!iPhone Fold模具上手:比iPad mini還小

      史上最貴iPhone!iPhone Fold模具上手:比iPad mini還小

      快科技
      2026-04-23 18:35:22
      緊急提醒!屬兔人注意,4月24日周五,大事真的要來了!

      緊急提醒!屬兔人注意,4月24日周五,大事真的要來了!

      周哥一影視
      2026-04-23 19:33:30
      陳海濤找杜鋒溝通,下達了廣東隊最新的目標!

      陳海濤找杜鋒溝通,下達了廣東隊最新的目標!

      體育哲人
      2026-04-23 10:36:46
      震驚!徐向前揭露西安事變背后的驚天秘密!

      震驚!徐向前揭露西安事變背后的驚天秘密!

      鑒史錄
      2026-04-23 00:15:03
      暴跌40%,關店4000家!曾創神話的“零食界愛馬仕”,賣不動了

      暴跌40%,關店4000家!曾創神話的“零食界愛馬仕”,賣不動了

      好賢觀史記
      2026-03-02 20:17:10
      奧沙利文:我和希金斯威廉姆斯不是好朋友

      奧沙利文:我和希金斯威廉姆斯不是好朋友

      羅克
      2026-04-23 09:18:37
      4月起必辦!2個證件全國發放,人人都有,沒領的得抓緊辦了

      4月起必辦!2個證件全國發放,人人都有,沒領的得抓緊辦了

      青梅侃史啊
      2026-04-09 17:22:31
      曝馬寧出任亞冠決賽第四官員!獲亞足聯認可,沙特媒體被打臉

      曝馬寧出任亞冠決賽第四官員!獲亞足聯認可,沙特媒體被打臉

      奧拜爾
      2026-04-23 18:52:23
      最新法規4.30號執行!帶煙出門要留心!不抽不用,也可能違規被罰

      最新法規4.30號執行!帶煙出門要留心!不抽不用,也可能違規被罰

      復轉這些年
      2026-04-22 20:23:34
      mod終于觸碰逆鱗,卡普空這次是真的怒了

      mod終于觸碰逆鱗,卡普空這次是真的怒了

      街機時代
      2026-04-23 18:00:03
      打發叫花子!帶領開拓者打進季后賽,結果只給100萬薪資,被拒絕

      打發叫花子!帶領開拓者打進季后賽,結果只給100萬薪資,被拒絕

      你的籃球頻道
      2026-04-23 11:12:55
      醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

      醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

      芹姐說生活
      2026-04-19 15:52:53
      2026-04-24 04:12:49
      AI范兒 incentive-icons
      AI范兒
      AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
      725文章數 669關注度
      往期回顧 全部

      科技要聞

      馬斯克喊出"史上最大產品",但量產難預測

      頭條要聞

      以色列:只要美國同意 將刺殺伊朗最高領袖

      頭條要聞

      以色列:只要美國同意 將刺殺伊朗最高領袖

      體育要聞

      給文班剃頭的馬刺DJ,成為NBA最佳第六人

      娛樂要聞

      王大陸因涉黑討債被判 女友也一同獲刑

      財經要聞

      普華永道賠償10億 恒大股東見到"回頭錢"

      汽車要聞

      預售30.29萬起 嵐圖泰山X8配896線激光雷達

      態度原創

      教育
      本地
      健康
      家居
      公開課

      教育要聞

      推薦一款高考志愿卡,五大功能助你解決志愿疑難

      本地新聞

      SAGA GIRLS 2026女團選秀

      干細胞如何讓燒燙傷皮膚"再生"?

      家居要聞

      浪漫協奏 法式風格

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美日韩国产图片区一区| 成人免费A级毛片无码片2022| 免费人成再在线观看视频| 国产精品国产对白熟妇| 午夜成人无码福利免费视频| 亚洲成年网| 66av在线| 三人成全免费观看电视剧高清| 91青草视频| 久久综合干| 一本综合丁香日日狠狠色| 久久国产精品日本波多野结衣 | 成人午夜国产内射主播| 欧美色色网| 亚洲精品成人片在线观看精品字幕 | 玩弄人妻少妇500系列| 午夜精品久久久久久久久久老司机| 成人肏屄视频| 中文字幕久久精品无码综合网| 人妻久久Aⅴ| 国产午夜福利精品视频| 青青草针对华人超碰在线| 欧美亚洲综合成人a∨在线| 日本经典中文字幕人妻| 无码视频一区二区三区| 国产亚洲精品福利在线无卡一| 五月婷婷激情第四季| 欧美视频一区| 最新国产在线拍揄自揄视频 | 欧美激情第一欧美精品图片一| 无码精品视频一区二区三区| 熟女成人国产精品视频| 99999久久久久久亚洲| 日韩麻豆国产精品欧美| 亚洲中文字幕av无码区| 国产精品第八页| 少妇被多人c夜夜爽爽av| 青草伊人网| 香蕉久久一区二区不卡无毒影院| av图片小说| 果冻传媒18禁免费视频|