<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      長文問答準確率大漲 17% 后,Anthropic 把“不亂猜”做成了核心賣點

      0
      分享至


      當地時間4 月 16 日,Anthropic 正式發布新一代旗艦模型 Claude Opus 4.7。該公司將其定位為"迄今能力最強的通用可用模型",標志著人工智能行業競爭焦點的決定性轉變——從追求對話流暢性轉向考核自主任務執行能力。

      與兩個月前發布的 Opus 4.6 相比,新版本專為Agentic工作流設計,即需要 AI 在較長時間內獨立運行、僅需少量人類干預的復雜任務。此次更新優先提升高分辨率視覺感知、復雜多步軟件工程鏈穩定性,以及長上下文檢索能力,而非單純追求推理深度(官方博客地址:https://www.anthropic.com/news/claude-opus-4-7)。

      值得注意的是,Anthropic 在發布 Opus 4.7 的同時坦誠表示,這并非其最強模型——能力更強的 Claude Mythos Preview 仍處于受限測試階段。


      視覺智能突破與長上下文瓶頸攻克

      在企業級應用場景的基準測試中,Opus 4.7 與主要競爭對手的性能差距進一步拉大。在 OfficeQA Pro 評測中——該評測由 Databricks 開發,要求模型解析近 9 萬頁美國財政部歷史文件(涵蓋近 100 年公報、2600 萬個數字)——Opus 4.7 取得 80.6% 的得分。這一結果幾乎是谷歌 Gemini 3.1 Pro(42.9%)的兩倍,并大幅領先于 GPT-5.4(51.1%)。數據顯示,Anthropic 已在長上下文檢索的關鍵瓶頸上取得突破。


      在 BFS 1M 測試中——該測試由 OpenAI 設計,將一張有向圖用邊列表塞滿 100 萬 token 上下文,要求模型進行圖遍歷——Opus 4.7 從 Opus 4.6 的 41.2% 提升至 58.6%,提升幅度達 17.4 個百分點。這項指標被視為衡量 AI 智能體(Agent)跑多步驟長任務的硬性指標。在 Vending-Bench 2 模擬經營測試中,Opus 4.7 最終實現 10,937 美元余額,較 Opus 4.6 的 8,018 美元提升 36%,展現出長時間工作流中的決策連貫性優勢。


      視覺智能是此版本進步最為顯著的方面。

      Opus 4.7 現在支持最長邊達 2,576 像素的圖像輸入,分辨率約 375 萬像素,較前代提升超過三倍。這使得模型能夠"看到"屏幕上占比低至 0.07% 的 UI 元素。在 ScreenSpot-Pro 基準測試中——該基準評估 AI 在 VSCode、Photoshop、AutoCAD 等專業軟件中定位特定按鈕或數據點的能力——Opus 4.7 在高分辨率模式下配合工具調用功能達到 87.6% 的成功率,而 Opus 4.6 在低分辨率下僅為 57.7%。

      這種精確度不再是單純的學術探索,而是"電腦使用"(Computer Use)能力的前提。Anthropic 將圖像分辨率大幅提升的本質目的,是讓 AI 能夠看懂軟件界面、密集表格、終端輸出、設計稿細節和代碼截圖。

      未來 AI 辦公、AI 測試、AI 安全、AI 前端開發等任務,都將從純文本任務轉向屏幕任務。在 SWE-bench Multimodal 測試中——該測試要求模型結合 UI 截圖和代碼一起修復前端 JavaScript bug——Opus 4.7 從 Opus 4.6 的 27.1% 提升至 34.5%,提升 7.4 個百分點。這表明視覺能力的升級直接服務于編程場景的實際需求。

      Anthropic 在官方公告中特別強調,Opus 4.7 在指令遵循能力上出現顯著提升。過往模型可能會寬松地"糊弄"指令或完全跳過部分指示,但 Opus 4.7 會嚴格按字面意思執行指令。

      這一變化帶來雙重影響:一方面,它減少了提示詞"玄學",使寫需求、定格式、列限制條件變得更加可靠;另一方面,用戶可能需要重寫舊的、更偏對話式的提示詞以避免意外輸出。許多用戶的提示詞是在舊模型"會自動補全真實意圖"的習慣上調優出來的,而新模型的剛性可能導致這些舊提示詞失效。

      在高級軟件工程領域,這種嚴謹性轉化為顯著提升。在 SWE-bench Verified 測試中,Opus 4.7 得分為 87.6%,Opus 4.6 為 80.8%;在更難的 SWE-bench Pro 測試中,Opus 4.7 為 64.3%,Opus 4.6 為 53.4%。這意味著用戶可以將過去需要密切監督的高難度編碼工作交給 Opus 4.7 處理,它會在匯報結果前主動驗證自身輸出。

      Opus 4.7 在使用基于文件系統的記憶方面表現更為出色。它能在長時間、多會話的工作中記住重要筆記,并將其用于開展新的任務,因此新任務需要更少的前置上下文。一個能跨會話記住項目約束、用戶偏好、架構決策和上次失敗原因的 Agent,才可能從"聰明臨時工"變成"穩定同事"。這一特性在官方公告中并不顯眼,但可能是長期使用中最關鍵的更新。

      伴隨 Opus 4.7 發布,Anthropic 還更新了 Claude Code,新增 auto mode 和/ultrareview 功能。auto mode 不是模型自動選型,而是權限選項。它允許 Claude 替用戶做一些權限決策,讓長任務少被打斷,但風險低于完全跳過權限確認。

      這個設計針對的是 Agent 產品的核心矛盾:問太多,Agent 像實習生;不問,風險又太大。auto mode 的本質,就是在"別煩我"和"別亂來"之間找平衡。/ultrareview 是一個專門的代碼審查會話,可讀取變更并指出 bug 和設計問題。

      這標志著 AI 編程正式進入第二階段:讓 AI 自己審查 AI 自己生成的代碼。生成代碼只是開發流程的一部分,審查、測試、重構、文檔同樣重要。如果 AI 只能做第一步,它永遠只是輔助工具;如果它能參與整個流程,它才可能真正改變軟件開發的方式。

      專業領域的經濟價值正加速釋放

      在 Structural Biology(結構生物學)基準測試中,Opus 4.7 的推理得分從 Opus 4.6 的 30.9% 躍升至 74.0%,一次版本迭代實現 2.4 倍增長。這是所有基準測試中躍升最夸張的一項。這種分子推理能力的突破表明,該模型正在從通用輔助邁向專業科學研究領域。對于更廣泛的勞動力市場而言,模型改進后的指令遵循能力意味著在短時間內它更不容易產生"幻覺"或遺漏步驟。

      在金融分析領域,Opus 4.7 同樣取得領先地位。在 Finance Agent v11 測試中,Opus 4.7 得分為 64.4%,Opus 4.6 為 60.1%。在 GDPval-AA 評估中——該評估由 Artificial Analysis 基于 OpenAI GDPval 數據集開發,覆蓋 44 種知識工作職業、9 大 GDP 核心行業,任務來自資深職業人士(平均 14 年經驗)的真實交付物——Opus 4.7 獲得 1753 分的 Elo 評分,高于 Opus 4.6(1619 分)、GPT-5.4(1674 分)和 Gemini 3.1 Pro(1314 分)。

      Anthropic 介紹稱,Opus 4.7 在金融分析任務上能夠生成更嚴謹的分析與建模、更專業的報告展示,并在各項任務間實現更緊密的整合。

      在發布 Opus 4.7 的同時,Anthropic 推出了一份系統說明書并更新了 Cyber Verification Program(網絡安全驗證計劃)。該項目本質上是對能力進行分級:普通用戶拿到的是有護欄的 Opus,經過驗證的安全專家才能申請更寬的網絡安全用途權限。值得注意的是,Anthropic 有意限制了 Opus 4.7 的高級網絡安全能力,使其低于 Mythos Preview 模型中的水平,以防止在進攻性操作中的濫用。官方甚至表示,他們在訓練過程中實驗性地削弱了這個模型的網絡安全能力。

      Opus 4.7 被明確定位為"第一款用來測試新網絡安全護欄的公開模型"。Anthropic 表示,他們會從 Opus 4.7 的真實部署中學習,為未來 Mythos 級別模型的廣泛發布做準備。這種謹慎的部署策略凸顯了硅谷日益增長的緊張關系:在爭相打造能夠替代人類工作者的模型的同時,也要確保同一模型無法摧毀數字基礎設施。當模型能力達到某個臨界點后,競爭邏輯從"我比你強"開始轉向"會不會出事"。

      特朗普政府最近強調美國在 AI 安全方面需要發揮領導作用,Anthropic 的發布策略正是對這一政策導向的呼應。公司選擇先把最強的模型鎖起來,用稍弱但足夠好的模型來測試安全機制。這不是技術上做不到,而是主動選擇不做。這種"克制"本身成了產品差異化的一部分。至少在發布策略上,Anthropic 給出了一種新思路:有時候"不做什么"比"能做什么"更重要。

      Token 消耗激增背后的成本邏輯

      效率也意味著實實在在的成本。

      Opus 4.7 使用了修訂后的分詞器(tokenizer),使得相同輸入量下的 token 消耗大約增加了 10% 到 35%。雖然 Anthropic 在定價上與 Opus 4.5 和 Opus 4.6 保持一致(輸入每百萬 token 5 美元,輸出每百萬 token 25美元),但 token 密度的增加意味著高強度任務將更快消耗 API 積分。

      這種隱性成本上漲是模型增加"思考"時間的代價。尤其在使用新的 Xhigh Effort 模式時——該模式位于標準處理與最大推理深度之間——模型會進行更多內部推理,從而提高可靠性,但也會產生更多輸出 token。Anthropic 在遷移指南中提醒用戶,Opus 4.7 的 token 使用可能增加,但在實際編程評估中,整體效率反而提升了。

      這說明他們優化的不是單次調用的成本,而是完成任務的總成本。一個 Agent 如果第一次就把事情做對,即使單次調用貴一點,總成本也比反復試錯要低。這是一種更成熟的產品思路。早期 AI 產品追求的是"便宜"和"快",現在開始追求"靠譜"。

      Anthropic 新增的 x-high effort 和 task budgets(任務預算)功能,說明高端模型的使用方式正在走當年云計算的那套邏輯。用戶買的不是一次回答,而是在給一個會思考、會試錯、會驗證的任務過程付費。

      過去模型計費主要看輸入輸出長度,現在還要看思考的等級、任務預算、Agent 跑了幾輪、工具失敗后有沒有繼續推理。這種計費模式的演變,反映出 Agent 產品從"能干什么"到"能不能用"的巨大飛躍。

      綜合來看,Opus 4.7 不是最強的模型,Anthropic 也沒有把它包裝成最強的模型。它是在能力、安全、成本之間的一個平衡點。至于這個平衡點是否真的平衡,需要等待市場來驗證。

      可以確定的是,隨著 Opus 4.7 的發布,AI 行業競爭的核心指標已經改變。大模型競爭的焦點,正在從答得像不像,轉到做得完不完。只會寫一段漂亮答案,已經不夠了。能不能把一份長文檔改干凈,能不能把一套資料串起來做成可交付物,能不能持續幾十分鐘甚至更久不跑偏,這才會決定它在日常工作里能不能真的替人扛起一片天。

      這個策略能否成功,取決于市場是否認可"謹慎"這個概念。如果用戶只在乎"能不能做到",那 Anthropic 的做法會顯得保守。但如果企業客戶開始重視"會不會出事",那這種分級發布、主動削弱某些能力的做法,反而可能成為競爭優勢。(本文首發鈦媒體APP,作者 | 硅谷Tech_news,編輯 | 秦聰慧)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      騙了全球半世紀!智利萬年遺址“塌房”,美洲人類史迎來驚天反轉

      騙了全球半世紀!智利萬年遺址“塌房”,美洲人類史迎來驚天反轉

      老謝談史
      2026-03-22 22:46:57
      李莉同志簡歷,因多次預判到美軍動作,被美國列入制裁黑名單

      李莉同志簡歷,因多次預判到美軍動作,被美國列入制裁黑名單

      談史論天地
      2026-04-18 10:35:33
      徐帆回應離婚5個月,馮小剛近況曝光,他的“小心思”再藏不住了

      徐帆回應離婚5個月,馮小剛近況曝光,他的“小心思”再藏不住了

      東方不敗然多多
      2026-04-19 02:04:35
      新款 Mac Studio,預計今年發布!

      新款 Mac Studio,預計今年發布!

      花果科技
      2026-04-19 10:17:11
      哈文:在北京過57歲生日,在美國紐約住富人區,兌現與李詠的約定

      哈文:在北京過57歲生日,在美國紐約住富人區,兌現與李詠的約定

      細品名人
      2026-04-17 07:28:25
      “理想系”,開始批量生產獨角獸

      “理想系”,開始批量生產獨角獸

      融資中國
      2026-04-19 10:35:53
      沙溢當眾毆打李晨,被告上仲裁會:永遠不要輕易評價一個人

      沙溢當眾毆打李晨,被告上仲裁會:永遠不要輕易評價一個人

      圓夢的小老頭
      2026-03-15 03:37:22
      “讀圣賢書,所學何事?”——杜鵑花開時再讀文天祥

      “讀圣賢書,所學何事?”——杜鵑花開時再讀文天祥

      新華社
      2026-04-19 14:24:10
      卷走巨額遺產逃往英國?翁帆竟住清華舊公寓,37個紙箱揭開真相

      卷走巨額遺產逃往英國?翁帆竟住清華舊公寓,37個紙箱揭開真相

      一盅情懷
      2026-04-10 18:29:15
      不裝了?湖人干脆圍繞肯納德建隊吧!一戰打服全場的最強射手

      不裝了?湖人干脆圍繞肯納德建隊吧!一戰打服全場的最強射手

      體育閑話說
      2026-04-19 11:27:53
      姚晨曹郁離婚后聚餐,所謂體面,無非是想給孩子留下最后溫柔

      姚晨曹郁離婚后聚餐,所謂體面,無非是想給孩子留下最后溫柔

      木子默
      2026-04-18 14:19:50
      鎮店之寶不再保密!莫氏雞煲創始人累到想休息,公開全部配方

      鎮店之寶不再保密!莫氏雞煲創始人累到想休息,公開全部配方

      大魚簡科
      2026-04-15 19:49:23
      后來,我才明白,斷聯后不刪除、不拉黑、不聯系的人,不是在等對方回頭,而是在等自己放下

      后來,我才明白,斷聯后不刪除、不拉黑、不聯系的人,不是在等對方回頭,而是在等自己放下

      品讀時刻
      2026-04-12 09:08:19
      判了死刑!她豪擲554億助國家經濟,只求免死,最后贏了嗎?

      判了死刑!她豪擲554億助國家經濟,只求免死,最后贏了嗎?

      人生錄
      2026-04-18 20:35:03
      狀態下滑+2768萬年薪!勇士離隊首人或出爐,庫里恐再失得力助手

      狀態下滑+2768萬年薪!勇士離隊首人或出爐,庫里恐再失得力助手

      大衛的籃球故事
      2026-04-18 18:49:04
      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      番外行
      2026-03-31 08:28:28
      張蘭婆孫罕見合影曝光,她好年輕,大S的孩子在奶奶這里找到港灣

      張蘭婆孫罕見合影曝光,她好年輕,大S的孩子在奶奶這里找到港灣

      阿握聊事
      2026-04-19 11:43:29
      科曼點名:這小孩是德容+佩德里合體

      科曼點名:這小孩是德容+佩德里合體

      體育硬核說
      2026-04-18 15:08:15
      楊瀚森踏上第一次季后賽之旅!笑容滿面登機 G1有機會上場嗎?

      楊瀚森踏上第一次季后賽之旅!笑容滿面登機 G1有機會上場嗎?

      羅說NBA
      2026-04-19 08:42:47
      原來他11年前就已離世!患病3年女兒不愿照看,死后為爭遺產現身

      原來他11年前就已離世!患病3年女兒不愿照看,死后為爭遺產現身

      以茶帶書
      2026-03-25 19:34:47
      2026-04-19 16:12:49
      鈦媒體APP incentive-icons
      鈦媒體APP
      獨立財經科技媒體
      132469文章數 862105關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      張天愛評論區淪陷!被曝卷入小三風波

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      藝術
      教育
      手機
      數碼
      親子

      藝術要聞

      當代著名畫家 | 全山石人物油畫23幅

      教育要聞

      陜西某中學家長集體白嫖演出服,給孩子們上了最壞的一課

      手機要聞

      OPPO Find X9s Pro首發天馬全新天工屏:全場景1nit暗光護眼 頻閃無感

      數碼要聞

      當貝魚缸2S Ultra:聽見專業的聲音,才敢說這是好魚缸

      親子要聞

      不能隱瞞爸爸媽媽的四件事兒

      無障礙瀏覽 進入關懷版