完成 300 億美元融資后,Anthropic 交出了第一份 AI 答卷。就在剛剛,Claude Sonnet 4.6 正式發(fā)布,定位是「史上最強(qiáng) Sonnet」。
編程、計(jì)算機(jī)操作、長(zhǎng)上下文推理、智能體規(guī)劃,全面升級(jí)。價(jià)格沒(méi)變,還是每百萬(wàn) token 3 美元輸入/15 美元輸出,但性能直接逼近 Opus 級(jí)別。
在與 Opus 4.5 的對(duì)比測(cè)試?yán)铮脩粲?59% 的時(shí)間更偏好 Sonnet 4.6。理由也很實(shí)在:過(guò)度工程化更少、幻覺(jué)更少、多步驟任務(wù)執(zhí)行更穩(wěn)。
計(jì)算機(jī)操作能力是這次升級(jí)的重頭戲。
在 OSWorld 基準(zhǔn)測(cè)試上,Sonnet 系列過(guò)去 16 個(gè)月持續(xù)進(jìn)步,現(xiàn)在處理復(fù)雜電子表格、填寫多步驟網(wǎng)頁(yè)表單已接近人類水平。
這個(gè)能力戳中的是一個(gè)真實(shí)痛點(diǎn):很多企業(yè)的老舊軟件沒(méi)有現(xiàn)代 API 接口,過(guò)去只能專門開(kāi)發(fā)連接器,現(xiàn)在模型直接像人一樣看屏幕、點(diǎn)鼠標(biāo)就行了,省掉了一大截工程成本。
順帶一提,Excel 中的 Claude 插件這次也同步升級(jí),新增了 MCP 連接器支持,對(duì)金融從業(yè)者來(lái)說(shuō),這個(gè)更新很實(shí)用。
Sonnet 4.6 另一個(gè)亮點(diǎn)是支持 100 萬(wàn) token 超大上下文,足以在一次請(qǐng)求里塞進(jìn)完整代碼庫(kù)、數(shù)十篇論文或一堆合同。
在 Vending-Bench Arena 這個(gè)模擬企業(yè)運(yùn)營(yíng)的評(píng)估里,Sonnet 4.6 摸索出一套有意思的策略:前期大舉投資產(chǎn)能,最后階段猛轉(zhuǎn)盈利導(dǎo)向,靠這個(gè)轉(zhuǎn)折時(shí)機(jī)甩開(kāi)其他模型。支撐這套打法的,正是它的長(zhǎng)期規(guī)劃能力。
對(duì)普通用戶來(lái)說(shuō),F(xiàn)ree 和 Pro 方案的默認(rèn)模型已經(jīng)切換為 Sonnet 4.6,claude.ai 和 Claude Cowork 同步更新。
開(kāi)發(fā)者方面,API 模型標(biāo)識(shí)是 claude-sonnet-4-6,支持自適應(yīng)思考、擴(kuò)展思考,上下文壓縮功能可以在對(duì)話快撐爆上下文時(shí)自動(dòng)總結(jié)舊內(nèi)容,省 token 又省心。
? 而就在 Sonnet 4.6 發(fā)布的同期,馬斯克旗下 xAI 的 Grok 4.20 測(cè)試版也正式上線了 grok.com。
Grok 4.20 支持并行調(diào)度 4 個(gè)專業(yè)智能體——Grok、Harper、Benjamin、Lucas——協(xié)同執(zhí)行任務(wù)。然而整體口碑兩極分化嚴(yán)重,且過(guò)往預(yù)期拔得太高,導(dǎo)致不少用戶期望落空,差評(píng)偏多。
后續(xù)馬斯克罕見(jiàn)連發(fā)多條推文滅火「救場(chǎng)」。他解釋稱,目前的 Grok 4.20 只是參數(shù)量 500B 的小型基礎(chǔ)模型,尚處公測(cè)階段。他還強(qiáng)調(diào),Grok 4.20 的底層架構(gòu)具備每周自我迭代的能力,遞歸式智能增長(zhǎng)空間很大。
按他的說(shuō)法,公測(cè)結(jié)束后,Grok 4.20 的智能和速度將比 Grok 4 提升約一個(gè)數(shù)量級(jí)。但這個(gè)承諾能否兌現(xiàn),只能說(shuō)拭目以待吧。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.