<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      跑分第一,推理暴跌!Claude Opus 4.7上線48小時(shí)口碑崩了

      0
      分享至


      新智元報(bào)道

      編輯:元宇

      【新智元導(dǎo)讀】Opus 4.7發(fā)布48小時(shí),口碑兩極撕裂。官方榜單并列全球第一,邏輯推理公開(kāi)測(cè)試卻從94.7%暴跌到41.0%。token消耗漲了35%,舊接口直接報(bào)錯(cuò),用戶(hù)集體控訴「更貴、更蠢、更愛(ài)頂嘴」。Anthropic到底升級(jí)了什么,又搞砸了什么?

      「4.6根本沒(méi)法用,4.7的消耗速度像核反應(yīng)堆一樣。」

      Opus 4.7發(fā)布后,一位Reddit用戶(hù)在Anthropic官方帖子下的留言。

      不是玩梗,是真心話(huà)。


      一篇「Claude Opus 4.7是嚴(yán)重倒退,不是升級(jí)」的Reddit帖子迅速?zèng)_上3000贊。

      還有人曬出截圖,說(shuō)4.7連strawberry里有幾個(gè)字母都答不對(duì)。


      更別說(shuō)「擅改簡(jiǎn)歷編造學(xué)歷和姓氏」,回復(fù)用戶(hù)「我懶得做交叉驗(yàn)證」,以及「三問(wèn)就撞限額」這些網(wǎng)友熱門(mén)槽點(diǎn)了。

      《Pragmatic Engineer》作者Gergely Orosz試用之后,形容這個(gè)模型「出人意料地帶攻擊性」,然后宣布放棄,換回了4.6。


      這邊罵聲還沒(méi)散,那邊一組數(shù)據(jù)卻指向了相反的方向。

      Artificial Analysis給Opus 4.7的Intelligence Index打了57分,和GPT-5.4、Gemini 3.1 Pro并列全球第一。

      創(chuàng)業(yè)者Jeremy Howard形容它是「第一個(gè)真正懂我在工作時(shí)到底在做什么的模型」,Y Combinator CEO Garry Tan正在拿它做項(xiàng)目。

      還有網(wǎng)友說(shuō),Claude Opus 4.7 已實(shí)現(xiàn)通用人工智能(AGI)。


      同一個(gè)模型,有人看到了AGI的影子,有人覺(jué)得自己的工作流炸了。

      上線兩天,Opus 4.7就把AI社區(qū)撕裂了。

      用戶(hù)為什么炸了?

      拆開(kāi)看,用戶(hù)的怒火集中在三個(gè)點(diǎn)上,每一條都戳中了重度用戶(hù)的命門(mén)。

      第一,代碼能力斷崖式下滑。大量開(kāi)發(fā)者反饋,從4.6升級(jí)到4.7之后,之前能穩(wěn)定完成的編程任務(wù)開(kāi)始頻繁出錯(cuò)。

      而且都是日常工作流里的核心操作:代碼補(bǔ)全變遲鈍,上下文理解出現(xiàn)退化,復(fù)雜邏輯鏈的推理明顯變?nèi)酢?/p>

      代碼能力是Opus系列的王牌,現(xiàn)在王牌出了問(wèn)題,反彈自然最猛。

      一位Reddit用戶(hù)說(shuō),他用一個(gè)已知答案的長(zhǎng)重構(gòu)任務(wù)做回歸測(cè)試,結(jié)果模型自信地改掛了3個(gè)原本在4.6下能通過(guò)的測(cè)試,只能回滾。


      評(píng)論區(qū)涌入上百條類(lèi)似經(jīng)歷。

      第二,推理質(zhì)量的倒退

      不是速度慢了那么簡(jiǎn)單,是思考深度出現(xiàn)了可感知的退化。以前能一步到位的復(fù)雜問(wèn)題,現(xiàn)在需要反復(fù)追問(wèn)、手動(dòng)引導(dǎo)。

      這個(gè)劇本AI行業(yè)并不陌生。去年GPT-4 Turbo鬧出的「降智」風(fēng)波幾乎一模一樣:跑分提升了,體驗(yàn)卻下來(lái)了。

      第三,花更多錢(qián),體驗(yàn)更差

      Opus本身就是Anthropic最貴的模型。

      重度用戶(hù)每月的API賬單不是小數(shù)目。花了更多的錢(qián)、升了更新的版本、得到的卻是更差的體驗(yàn),憤怒就不只停在技術(shù)層面。

      benchmark更強(qiáng)了

      但用戶(hù)不買(mǎi)賬

      面對(duì)反彈潮,Anthropic的回應(yīng)速度不算慢。

      Anthropic在官方遷移指南中指出,Opus 4.7 相比4.6存在若干行為變化,同時(shí)也強(qiáng)調(diào),Opus 4.7仍是其當(dāng)前綜合能力最強(qiáng)的通用可用模型,在長(zhǎng)周期智能體任務(wù)、知識(shí)型工作、視覺(jué)任務(wù)和記憶任務(wù)方面表現(xiàn)尤為出色。


      Artificial Analysis的多維評(píng)測(cè)結(jié)果也擺在那里,Opus 4.7在數(shù)學(xué)推理、多語(yǔ)言理解、長(zhǎng)上下文處理,多個(gè)維度的得分創(chuàng)下新高。


      Artificial Analysis評(píng)測(cè)顯示,Opus 4.7(max)以57分并列榜首,與Gemini 3.1 Pro Preview、GPT-5.4并列。

      GitHub上的NYT Connections Extended基準(zhǔn)測(cè)試也給出了頂級(jí)排名。

      Anthropic的邏輯并不難理解:大模型迭代必然涉及能力再分配。有些維度提升了,有些維度就可能出現(xiàn)回退,這是工程上的取舍。

      但用戶(hù)不看這個(gè),只看自己手里的活干不干得動(dòng)。

      價(jià)格沒(méi)漲

      但賬單漲了

      Anthropic沒(méi)有調(diào)價(jià),每百萬(wàn)token的單價(jià)和Opus 4.6、4.5完全一樣。

      但官方遷移指南里寫(xiě)道:新分詞器(tokenizer)在處理相同文本時(shí),token用量大約可能達(dá)到原來(lái)的1.0倍到1.35倍


      什么意思?你昨天用4.6跑一段prompt花10美元,今天換4.7跑同一段prompt,可能要花11到13.5美元。

      單價(jià)沒(méi)變,但同樣的活兒吃掉了更多token。Claude Code創(chuàng)建者Boris Cherny隨后在X上表示:

      Opus 4.7消耗更多thinking token,所以我們已為所有訂閱用戶(hù)提高了速率限制,來(lái)補(bǔ)償這一點(diǎn)。

      但具體提高了多少,沒(méi)有公布。


      模型沒(méi)蠢

      但工作流炸了

      如果你是Claude的重度開(kāi)發(fā)者,4.7上線那天你可能遇到了這樣的事情:

      代碼里寫(xiě)了thinking={"type": "enabled", "budget_tokens": 32000},用來(lái)控制模型的思考預(yù)算。

      在4.6上跑得好好的。換成4.7,直接返回400錯(cuò)誤。沒(méi)有棄用過(guò)渡期,沒(méi)有兼容模式,直接報(bào)錯(cuò)。

      官方遷移指南解釋了替代方案:改用thinking={"type": "adaptive"}加上新的effort參數(shù)。


      但大多數(shù)開(kāi)發(fā)者不會(huì)在模型發(fā)布當(dāng)天去讀遷移指南。

      他們做的第一件事是把模型名從4.6換成4.7,然后發(fā)現(xiàn)一切都不工作了。

      更隱蔽的變化是thinking內(nèi)容現(xiàn)在默認(rèn)隱藏。

      4.6時(shí)代,模型的思考過(guò)程默認(rèn)展示摘要版。到了4.7,默認(rèn)變成「省略」。響應(yīng)里的thinking區(qū)塊看起來(lái)是空的。

      但你仍然在為這些看不到的thinking token全額付費(fèi)。

      Anthropic官方原話(huà):省略只會(huì)降低延遲,不會(huì)降低成本。

      這就像你點(diǎn)了一份套餐,服務(wù)員說(shuō)「為了加快上菜速度,我們不給你看菜了,但你還是得付全款」。

      「頂嘴」不是bug

      網(wǎng)友一個(gè)最強(qiáng)烈的吐槽,是說(shuō)4.7變得「combative」(帶攻擊性)。

      不少開(kāi)發(fā)者反映,4.7會(huì)拒絕執(zhí)行它認(rèn)為有問(wèn)題的指令,語(yǔ)氣也比4.6硬了不止一個(gè)檔次。

      關(guān)于這個(gè)問(wèn)題,Anthropic官方遷移指南里有一句很關(guān)鍵的話(huà):

      Claude Opus 4.7會(huì)以更字面、更明確的方式理解提示詞。

      也就是說(shuō):4.6會(huì)「猜你的意思」,4.7會(huì)「照你說(shuō)的做」。

      如果你的prompt本來(lái)就寫(xiě)得含糊,4.6可以幫你腦補(bǔ)了,但4.7不會(huì)。對(duì)于一部分用戶(hù)來(lái)說(shuō),這叫「不聽(tīng)話(huà)」,但對(duì)另一部分用戶(hù)來(lái)說(shuō),這叫「終于不亂猜了」。

      比如,Cursor設(shè)計(jì)師Ryo Lu卻在用4.7做產(chǎn)品規(guī)劃,認(rèn)為這種精確執(zhí)行正是他需要的

      因此,「頂嘴」這個(gè)標(biāo)簽背后,是Anthropic正在把Claude從一個(gè)「順從的助手」改造成一個(gè)「更有主見(jiàn)的同事」。

      據(jù)Artificial Analysis的公開(kāi)評(píng)測(cè),Opus 4.7在GDPval-AA上拿到1753 Elo,領(lǐng)先第二名79分。

      GDPval-AA衡量的是模型在44種職業(yè)、9個(gè)主要行業(yè)的真實(shí)知識(shí)工作任務(wù)中的表現(xiàn),在這個(gè)維度上,4.7碾壓了所有對(duì)手,包括自己的前代4.6(1619 Elo)。

      同時(shí),4.7的幻覺(jué)率比4.6下降了25個(gè)百分點(diǎn),降到了36%。

      它是怎么做到的?據(jù)Artificial Analysis的分析,主要是依靠「更頻繁地選擇不作答」,寧可說(shuō)「我不知道」,也不瞎編。

      這說(shuō)明Anthropic的意圖不在于優(yōu)化Claude的聊天體驗(yàn),而是在優(yōu)化Claude的工作能力。


      Opus 4.7在GDPval-AA上以1753 Elo登頂,領(lǐng)先第二名79分。這項(xiàng)測(cè)試衡量的是AI在44種職業(yè)中獨(dú)立完成知識(shí)工作的能力。

      但對(duì)于用戶(hù)來(lái)說(shuō),在一些場(chǎng)景下可能完全感受不到提升,反而先感受到了token變貴、接口報(bào)錯(cuò)和語(yǔ)氣變硬。

      94.7%暴跌到41.0%

      如果上面三層問(wèn)題都能歸結(jié)為「遷移成本+使用習(xí)慣錯(cuò)位」,但還有一組數(shù)字沒(méi)法用遷移成本解釋。

      GitHub上公開(kāi)維護(hù)的NYT Connections Extended基準(zhǔn)測(cè)試,使用940道《紐約時(shí)報(bào)》Connections謎題評(píng)估大語(yǔ)言模型的邏輯推理和抗干擾能力。

      這個(gè)測(cè)試通過(guò)額外加入干擾詞來(lái)提升難度,已經(jīng)是社區(qū)公認(rèn)的高難度benchmark之一。


      NYT Connections Extended排行榜。Opus 4.6(high reasoning)得分94.7%,Opus 4.7(high reasoning)僅41.0%,同一測(cè)試上出現(xiàn)斷崖式暴跌。

      結(jié)果是:Opus 4.6(high reasoning)得分94.7%,Opus 4.7(high reasoning)得分41.0%。

      從年級(jí)第一,跌到不及格。

      另一份數(shù)據(jù)來(lái)自Anthropic提供的Opus 4.7 System Card中100萬(wàn)token上下文的MRCR v2基準(zhǔn)測(cè)試:4.6得分78.3%,4.7得分32.2%,下跌46個(gè)百分點(diǎn)


      https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf

      這組數(shù)據(jù)方向與NYT Connections的結(jié)論一致:在某些邏輯推理和長(zhǎng)上下文檢索任務(wù)上,4.7確實(shí)出現(xiàn)了顯著退步

      但也需要說(shuō)清楚:這些是特定類(lèi)型的測(cè)試。它們不能證明4.7「全面變蠢」,就像GDPval-AA的領(lǐng)先不能證明4.7「全面變強(qiáng)」一樣。

      用戶(hù)耐心

      開(kāi)始倒計(jì)時(shí)

      Opus 4.7的爭(zhēng)議不是個(gè)案。

      OpenAI經(jīng)歷過(guò)GPT-4 Turbo降智風(fēng)波,幾個(gè)月前撤下GPT-4o時(shí)也遭遇過(guò)類(lèi)似的用戶(hù)反彈。現(xiàn)在Reddit上已經(jīng)出現(xiàn)了「哀悼」Claude 4.5的帖子,滿(mǎn)是自稱(chēng)「心碎」的粉絲。


      每一次模型升級(jí),都有一批用戶(hù)失去已經(jīng)適應(yīng)的工具。

      新分詞器讓舊的成本預(yù)算失效;新的默認(rèn)行為讓舊的prompt不再好用;新的接口規(guī)范讓舊的代碼直接報(bào)錯(cuò)……

      每一項(xiàng)單獨(dú)看都有技術(shù)上的合理性,但疊在一起,就是把全部遷移成本一次性推給了用戶(hù)。

      為什么模型越來(lái)越聰明,用戶(hù)越來(lái)越焦慮?因?yàn)槊恳淮巍父谩梗家馕吨品弦淮蔚摹竸偤谩埂?/p>

      Anthropic員工Alex Albert在發(fā)布次日寫(xiě)道:

      很多人在昨天剛開(kāi)始體驗(yàn)Opus 4.7時(shí)可能遇到的bug,現(xiàn)在都已經(jīng)修復(fù)了。感謝大家的包容和耐心。


      bug可以修。但信任這種東西,消耗容易,重建很慢。

      這輪AI軍備競(jìng)賽的下一個(gè)瓶頸,也許不只是算力和數(shù)據(jù),還要比誰(shuí)能在快速迭代的同時(shí),能不把自己的用戶(hù)甩下車(chē)。

      這次,Anthropic發(fā)布了遷移指南,但用戶(hù)更想要的是一個(gè)承諾:升級(jí)不能把原有的工作流推倒重來(lái)。

      當(dāng)AI從玩具變成生產(chǎn)力工具,「快速迭代」就不再是無(wú)條件的優(yōu)點(diǎn)。

      Opus 4.8會(huì)怎么來(lái)?Anthropic還沒(méi)說(shuō)。

      但用戶(hù)的耐心,已經(jīng)開(kāi)始倒計(jì)時(shí)了。

      參考資料:

      https://www.businessinsider.com/anthropic-claude-opus-4-7-backlash-tokens-2026-4

      https://medium.com/vibe-coding/opus-4-7-is-the-worst-release-anthropic-has-ever-shipped-12772c21ca1e

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      笑麻!女子吐槽花1年裝修的新中式都說(shuō)像法庭,我卻笑死在評(píng)論區(qū)

      笑麻!女子吐槽花1年裝修的新中式都說(shuō)像法庭,我卻笑死在評(píng)論區(qū)

      另子維愛(ài)讀史
      2026-04-17 17:36:52
      59:40再反轉(zhuǎn),美議員撕破臉:停止對(duì)以軍售,內(nèi)塔尼亞胡惱羞成怒

      59:40再反轉(zhuǎn),美議員撕破臉:停止對(duì)以軍售,內(nèi)塔尼亞胡惱羞成怒

      云上烏托邦
      2026-04-18 14:48:46
      尼克斯球迷喊了整晚:我們有更好的杰倫

      尼克斯球迷喊了整晚:我們有更好的杰倫

      競(jìng)技風(fēng)云錄
      2026-04-19 11:22:28
      騎士1-0猛龍!哈登承認(rèn)錯(cuò)誤,米切爾重點(diǎn)提到一人,湖人舊將拉胯

      騎士1-0猛龍!哈登承認(rèn)錯(cuò)誤,米切爾重點(diǎn)提到一人,湖人舊將拉胯

      魚(yú)崖大話(huà)籃球
      2026-04-19 07:43:57
      恒大前女高管如何被許家印拖入深淵

      恒大前女高管如何被許家印拖入深淵

      地產(chǎn)微資訊
      2026-04-19 09:02:41
      切記,半夜醒來(lái)千萬(wàn)不要看時(shí)間!

      切記,半夜醒來(lái)千萬(wàn)不要看時(shí)間!

      環(huán)球網(wǎng)資訊
      2026-04-16 07:56:25
      美參議院59:40硬剛以色列,內(nèi)塔尼亞胡氣到破防

      美參議院59:40硬剛以色列,內(nèi)塔尼亞胡氣到破防

      愛(ài)看劇的阿峰
      2026-04-19 10:54:14
      不管在哪里上班一定要記得:同事排擠、孤立你,你就直接這樣做

      不管在哪里上班一定要記得:同事排擠、孤立你,你就直接這樣做

      細(xì)說(shuō)職場(chǎng)
      2026-04-16 21:18:40
      青島一路口面包車(chē)起步意外彈開(kāi)后備箱,一名女童從車(chē)內(nèi)摔下,后車(chē)輔警立即上前抱起女童避免意外事故發(fā)生,輔警發(fā)聲:女童除受驚外并無(wú)大礙

      青島一路口面包車(chē)起步意外彈開(kāi)后備箱,一名女童從車(chē)內(nèi)摔下,后車(chē)輔警立即上前抱起女童避免意外事故發(fā)生,輔警發(fā)聲:女童除受驚外并無(wú)大礙

      瀟湘晨報(bào)
      2026-04-19 13:12:17
      24架殲-10直沖云霄!巴鐵“硬核搶人”:以色列戰(zhàn)機(jī)就在伏擊圈等著

      24架殲-10直沖云霄!巴鐵“硬核搶人”:以色列戰(zhàn)機(jī)就在伏擊圈等著

      林子說(shuō)事
      2026-04-19 10:34:12
      最狠的諷刺,熱銷(xiāo)第一名訂單數(shù)千輛,銷(xiāo)量落后的動(dòng)輒萬(wàn)輛

      最狠的諷刺,熱銷(xiāo)第一名訂單數(shù)千輛,銷(xiāo)量落后的動(dòng)輒萬(wàn)輛

      柏銘銳談
      2026-04-19 10:55:35
      歐爾班的未來(lái)雪上加霜!匈牙利大選結(jié)果出爐,歐爾班又少了3席

      歐爾班的未來(lái)雪上加霜!匈牙利大選結(jié)果出爐,歐爾班又少了3席

      夢(mèng)史
      2026-04-19 08:13:33
      75824人見(jiàn)證歷史!球王梅西轟2球+905球拯救球隊(duì),落后C羅63球

      75824人見(jiàn)證歷史!球王梅西轟2球+905球拯救球隊(duì),落后C羅63球

      烏龍球OwnGoal
      2026-04-19 12:49:11
      人窮能卑微到什么地步?網(wǎng)友說(shuō):一個(gè)男人兩千塊買(mǎi)了我三個(gè)晚上!

      人窮能卑微到什么地步?網(wǎng)友說(shuō):一個(gè)男人兩千塊買(mǎi)了我三個(gè)晚上!

      黯泉
      2026-04-14 12:13:04
      北京發(fā)布大風(fēng)、沙塵雙預(yù)警!局地陣風(fēng)超10級(jí)

      北京發(fā)布大風(fēng)、沙塵雙預(yù)警!局地陣風(fēng)超10級(jí)

      BRTV新聞
      2026-04-19 11:19:19
      禁止所有中國(guó)外交官入境,不讓兩岸統(tǒng)一,這個(gè)國(guó)家比美國(guó)還要囂張

      禁止所有中國(guó)外交官入境,不讓兩岸統(tǒng)一,這個(gè)國(guó)家比美國(guó)還要囂張

      你的雷達(dá)站
      2026-04-18 21:06:34
      反轉(zhuǎn)!許家印當(dāng)庭認(rèn)罪判無(wú)期,昔日恒大歌舞團(tuán)長(zhǎng)白珊珊已結(jié)婚生子

      反轉(zhuǎn)!許家印當(dāng)庭認(rèn)罪判無(wú)期,昔日恒大歌舞團(tuán)長(zhǎng)白珊珊已結(jié)婚生子

      一盅情懷
      2026-04-18 08:14:55
      Lululemon只是冰山一角?多品牌防水沖鋒衣涉永久化學(xué)物,始祖鳥(niǎo)、北面、凱樂(lè)石全中招?客服口徑一致:符合現(xiàn)行標(biāo)準(zhǔn),選購(gòu)時(shí)認(rèn)準(zhǔn)PFASfree或無(wú)氟標(biāo)識(shí)

      Lululemon只是冰山一角?多品牌防水沖鋒衣涉永久化學(xué)物,始祖鳥(niǎo)、北面、凱樂(lè)石全中招?客服口徑一致:符合現(xiàn)行標(biāo)準(zhǔn),選購(gòu)時(shí)認(rèn)準(zhǔn)PFASfree或無(wú)氟標(biāo)識(shí)

      觀威海
      2026-04-19 14:52:07
      火湖對(duì)決內(nèi)線反差拉滿(mǎn)!艾頓統(tǒng)治禁區(qū),申京堪稱(chēng)扶不起的阿斗!

      火湖對(duì)決內(nèi)線反差拉滿(mǎn)!艾頓統(tǒng)治禁區(qū),申京堪稱(chēng)扶不起的阿斗!

      田先生籃球
      2026-04-19 14:27:11
      鄭麗文心都定了,上海的吸引力在哪里?

      鄭麗文心都定了,上海的吸引力在哪里?

      新民晚報(bào)
      2026-04-18 09:48:38
      2026-04-19 15:35:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      15010文章數(shù) 66787關(guān)注度
      往期回顧 全部

      科技要聞

      50分26秒破人類(lèi)紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

      頭條要聞

      牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結(jié)果印度遭了殃

      頭條要聞

      牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結(jié)果印度遭了殃

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂(lè)要聞

      張?zhí)鞇?ài)評(píng)論區(qū)淪陷!被曝卷入小三風(fēng)波

      財(cái)經(jīng)要聞

      華誼兄弟,8年虧光85億

      汽車(chē)要聞

      29分鐘大定破萬(wàn) 極氪8X為什么這么多人買(mǎi)?

      態(tài)度原創(chuàng)

      健康
      教育
      親子
      家居
      時(shí)尚

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      教育要聞

      陜西某中學(xué)家長(zhǎng)集體白嫖演出服,給孩子們上了最壞的一課

      親子要聞

      不能隱瞞爸爸媽媽的四件事兒

      家居要聞

      法式線條 時(shí)光靜淌

      選對(duì)發(fā)型,真的能少走很多變美彎路

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版