網易首頁 > 網易號 > 正文申請入駐

Claude Sonnet 4.5 上手：一個未來 Agent 的雛形出現了

2025-09-30 20:09:53　來源: 硅星GenAI

上海舉報

分享至

作者｜董道力
郵箱｜ dongdaoli@pingwest.com

9月30日，Anthropic 發布了新的編程模型 Claude Sonnet 4.5，在新聞稿的第一句就寫到：Claude Sonnet 4.5 is the best coding model in the world.

換做別的公司我們可能會吐槽“又瘋一個”，但 Anthropic 在 AI 編程上的能力大家有目共睹，無論是大家搶著用的 Claude Sonnet 4 還是引領編程 Agent 的 Claude Code，換句話說 AI 編程的上限全靠 Anthropic 來突破。

那 Claude Sonnet 4.5 到底更新了什么東西，值不值得best coding model的稱號？

提高跑分不是最大的變化

在最新的基準測試中，Claude Sonnet 4.5 展現了全面領先的實力。

具體來看，Claude Sonnet 4.5 在 OSWorld 電腦使用測試中拿下 61.4%，成為最會“用電腦”的 AI。在工具調用上，Claude Sonnet 4.5 的表現尤為突出，它能真正調動系統與工具，智能體能力更進一步。它在金融、法律、醫學和STEM等專業領域的知識與推理上，遠超此前的 Opus 4.1。

然而，相比前一代，它最大的變化不在于跑分，而是功能上的全面升級。

在開發體驗上，Claude Code 增加了檢查點功能，支持隨時保存和回滾，降低出錯成本；同時推出原生 VS Code 插件和全新終端界面，把模型能力直接嵌入工程師最常用的環境。在長任務處理上，它引入上下文編輯和記憶工具，能保持長時間連貫思路，據稱可穩定執行超過 30 小時的復雜任務。

在辦公應用上，它通過 Chrome 插件完成網頁導航、表格填寫和文檔處理，并在 Claude 應用中直接運行代碼、生成表格、幻燈片和文檔，讓對話真正成為工作的入口。而對開發者來說，最重磅的更新是Claude Agent SDK，Anthropic 首次開放自家底層基礎設施，讓外部開發者也能基于 Claude 構建屬于自己的 Agent。

實測Claude Sonnet 4.5 編程能力，新特征想要 AI IDE 的命？

Devin 團隊在測試 Claude Sonnet 4.5 時，概括了三個明顯變化：一是更快更穩，運行速度提升約兩倍，“初級開發者評估”得分提高 12%。二是出現了外化記憶的傾向，模型會主動生成總結或筆記文件來維持長任務的連貫性；三是更積極地自我驗證，會寫小腳本或抓取頁面 HTML 來測試和修正方案。

不過，冷靜來看，這些特征其實在許多 AI IDE 中早已有跡可循：Cursor、Windsurf、Replit Ghostwriter 早就能幫用戶生成文檔、維護項目記憶，甚至在改動后自動運行測試。

差別在于，IDE 的功能是工程師預設的“外掛模塊”，而在 Claude Sonnet 4.5 身上，這些行為更像是模型自發形成的工作習慣，它會主動寫 SUMMARY.md 給自己留后路，也會在必要時自動生成小腳本來驗證結果。換句話說，區別不在“有沒有”，而在于是外掛功能，還是模型的內驅習慣。

從長遠來看，這種差別可能會決定未來開發體驗的走向：是繼續依賴 IDE 提供的功能拼裝，還是讓大模型 Agent 自己演化出工作風格。如果后者不斷成熟，Cursor 等 AI IDE 的優勢，或許真的會逐漸被大模型侵蝕。

我們讓 Claude Sonnet 4.5 寫個小游戲項目。

prompts：基于Three.js制作一個3d賽車游戲

最直觀的感受就是快，生成網頁游戲時間不超過1分鐘。其次，Claude 不僅能聽懂非常粗糙的指令，在第一輪對話中就生成一個可以直接運行的游戲原型。后續的修改也非常順暢，只需一句簡單的提示，比如調整速度、賽道寬度或添加箭頭標識，它都能迅速完成。而同樣的提示詞放在 Codex 中，初始階段并沒有直接生成完整的游戲框架。

首先是第一輪對話，Claude 輸出了一個基礎版本：玩家可以操控賽車前進、后退和轉向，但車輛很容易沖出畫面。

經過幾輪微調如控制轉彎幅度等，我進一步要求 Claude 參考 F1 賽車的風格，讓賽道更復雜。這是一個比較大幅度的修改，而 Claude 不僅增加了彎道，還在指示牌上進行了美化，并且之前修改的內容都沒有崩。

最后，為了提升可玩性，我提出希望在賽道上增加箭頭指示方向。Claude 起初生成的箭頭方向有些混亂，但只經過一輪對話，它就完成了修正，使箭頭方向與跑道完美貼合。

Claude Sonnet 4.5 項目預覽：https://claude.ai/public/artifacts/037aac3a-c790-4dfa-bf69-baf3825d97d7

從這次小游戲實驗可以看出，Claude Sonnet 4.5 的強大并不只體現在基準測試的分數上，而在于它能把自然語言轉換成可運行項目的過程變得前所未有的流暢。

在以往，提示詞生成游戲代碼通常意味著大量返工：模型給出一個半成品，用戶要反復調試，甚至需要具備相當的編程基礎。但在 Claude Sonnet 4.5 這里，非常流暢。

然而，上面的實測案例只是一個小玩具，真正的生產力還是要看具體的生產環境。

在 Reddit 上，一位開發者用同樣的復雜前端 Bug 并排測試 Claude Sonnet 4.5 與 Codex，結果顯示：Codex 更善于定位根因，而 Claude Sonnet 4.5 經常跑偏，甚至修復“已經好的部分”。

評論區觀點分化，有人認同 Claude Sonnet 4.5 在復雜調試里容易迷路，并沒有宣傳的那么好。也有人強調它在前端問題上比 Codex 更快。還有人認為 Codex 更深度，但代價是更慢、更貴。

唯一的共識是：把 Claude 當高產起草者，把 Codex 當審校者，再配合日志和可觀測性工具，才是當前更穩妥的用法。

Claude 是如何控制電腦的？

除了編程能力，Claude Sonnet 4.5 在 OSWorld 電腦使用測試中拿下 61.4%，這一點對于普通用戶來說，比編程能力更加有吸引力。

打開桌面端 Claude（Mac），可以看到它有非常多的功能，控制谷歌瀏覽器、讀取記事本、操作Mac、Figma、PDF、Spotify等。

我們先用 Claude 來操控一下瀏覽器。

prompts：在chrome中打開谷歌主頁，搜索china daily，采集9月30日的最新新聞

Claude Sonnet 4.5 在控制 Chrome 時，并非直接“跳到答案”，而是像用戶一樣逐步操作、并調用工具完成鏈路：先用 Open URL 打開 Google 首頁，再用 Execute JavaScript 在搜索框輸入“china daily”并進入官網；隨后調用 Get Page Content 提取頁面內容，若遇到報錯則切換至官網 Latest News 作為容錯路徑，確保數據可得；最后通過內部整理流程做時間過濾（僅保留 9 月 30 日）與版塊分類（政治/經濟/社會/國際）。

在詳情頁中可以看到，Claude Sonnet 4.5 為 Chrome 提供了一整套工具：既能打開或關閉網頁，也能刷新、后退、前進；還可以執行 JavaScript 代碼來完成點擊、滑動等操作，并直接提取網頁內容。

我們再來實踐一個與電腦文件交互的案例。

prompts：在桌面搜索名字里帶Claude的文件夾，看看里面有哪些png文件，并把他們的文件名列出來

在配置好權限和路徑后，和控制 Chrome 一樣，Claude Sonnet 4.5 會調用擁有的文件處理工具，像人類一樣思考一步一步完成上述的任務。

Claude 先從桌面路徑 /Users/ddlpc/Desktop 開始，搜索所有名字里包含“Claude”的文件夾，一共找到四個。隨后逐一檢查這些文件夾的內容。

從詳情頁中可以看到，該工具既能讀取單個或多個文件內容，也能新建、編輯和寫入文件，還可以創建目錄、列出目錄、查看目錄樹結構，甚至移動文件、搜索文件、獲取文件信息，并管理可訪問的目錄范圍。

而這樣的工具，Claude 還有很多。

Claude Sonnet 4.5 的出現，不只是跑分上的勝利。它正在模糊一條界限：大模型到底是一個生成器，還是一個能動的智能體？檢查點、長程記憶、Agent SDK、對 Chrome 的直接操控，這些都讓它越來越像一個能自己處理任務的數字同事。

當然，它依舊不完美：調試會迷路，執行會跑偏。但這恰恰說明，它不是一把無所不能的工具，而是一個需要協作、需要工程化約束的伙伴。而且過幾個月，Anthropic 會不會偷偷砍 Claude Sonnet 4.5 一刀，強行降智，誰也不知道。

但有一點可以肯定，這可能是我們最后一次用這些曾經難以想象但今天正變得“小兒科”的測試案例來評測Claude以及緊追它其后的各種模型。這就是今天AI Coding從模型到產品的狂奔速度，接下來只會更瘋狂。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.