網易首頁 > 網易號 > 正文申請入駐

GPT-5 vs Claude Opus 4.1：編程能力測評

2025-08-12 14:06:19　來源: 大數據文摘

北京舉報

分享至

大數據文摘受權轉載自夕小瑤科技說

聊起嚴肅的編程，Anthropic 的 Claude 幾乎是公認的王者，在很多開發者心里都是 No.1 的位置。

但最近，風向似乎有點變了。

OpenAI 發布了 GPT-5，我在公眾號里、社群里、論壇里，很多地方都在刷屏一個消息：GPT-5 來了，而且在編程能力上“強得可怕”。

雖然看了很多說 GPT-5 是“編程新王”所謂的噱頭和關于 GPT5 的評測，說實話，我還沒看到一份有說服力的報告。要么是拿官方的 demo 說事，要么是測了幾個美觀度還行的 web 網頁就說 GPT-5 強。用這些下結論有點草率了吧。

所以，對于 GPT-5 和 Claude 誰更厲害，模型編程 feature 各自擅長什么，好多人和我一樣好奇，

今天刷到國外的一位開發者老哥 Rohit 發布了一篇 GPT-5 vs Claude Opus 4.1 編程能力的評測博客，比較實用，這里 share 出來。

首選，評測生成的所有代碼都開源了，可以在這個鏈接查看。

https://github.com/rohittcodes/gpt-5-vs-opus-4-1

先說核心的結論：

算法：GPT?5 在速度與 token 數量上勝出（8K vs 79K）。
網頁開發：Opus 4.1 對 Figma 設計稿的還原度更高，但消耗的 token 量更大（90 萬 vs 140 萬 + token）；

GPT-5 響應更快且成本更低， token 消耗比 Opus 4.1 節省約 90%，更適合作為一個高效的日常開發助手使用；如果你想要設計還原度高，而且預算靈活，Opus 4.1 則更具優勢。

再來看模型基礎信息與 token 使用效率對比：

上下文窗口：Claude Opus?4.1 支持 20 萬 token，上限輸出不詳；而 GPT?5 支持 40 萬 token 上下文，最大可輸出 128K token。

Token 使用效率：盡管 GPT?5 的上下文空間更大，但在相同任務下它總是使用更少的 token，從而大幅降低運行成本。

雖然在 SWE-bench 等編碼基準測試中，GPT?5 略微領先于 Opus?4.1，但作者后續還實測了一些 case。

測試內容涵蓋實際開發常見場景：

編程語言與任務類型：
- 算法題：使用 Java 語言實現 LeetCode Advanced 題目。
- Web 開發：使用 TypeScript + React，編寫基于 Figma 設計的 Next.js 頁面，通過 Rube MCP（一種通用 MCP 接入層）進行代碼生成。
- 其他任務：包括客戶流失預測模型等業務邏輯實現。
環境：所有任務均在 Cursor IDE 聯合 Rube MCP 的環境中完成。
測量指標：token 數量、耗時、代碼質量、實際結果。

兩個模型使用完全一樣的提示詞。

01 Figma 設計稿開發

Rohit 從 Figma 社區找了一個復雜的儀表盤設計，要求它倆用 Next.js 和 TypeScript 把它復刻出來。

提示詞如下：

Create a Figma design clone using the given Figma design as a reference: [FIGMA_URL]. Use MCP's Figma toolkit for this task. Try to make it as close as possible. Use Next.js with TypeScript. Include: Responsive design Proper component structure Styled-components or CSS modules Interactive elements

兩位選手的表現：

GPT-5：

耗時：約 10 分鐘
Tokens：906,485（90 萬 token）

GPT-5 的效率沒得說，10 分鐘就交卷了，應用也能跑。但成品……怎么說呢，功能完備，但視覺效果一言難盡。它 get 到了設計的框架，卻完全忽略了靈魂。顏色、間距、字體都和原稿相去甚遠，仿佛開了“低保真”模式。

是一個能干活的工程師，但是不懂審美而且干活很粗糙。

Claude Opus 4.1：

耗時：更長（因為反復迭代）
Tokens：超過 140 萬 token (比 GPT-5 多了 55%！)

Opus 4.1 上來先耍了點“小脾氣”，明明指定了 styled-components，它非要用 Tailwind，需要人工糾正。但當它“認錯”并開始工作后，結果令人震驚。

UI 幾乎與 Figma 設計稿一模一樣！視覺保真度堪稱完美。

一位追求完美的“藝術家”，雖然燒錢又有點犟，但作品無可挑剔。

02 LeetCode 算法題

為了考驗純粹的邏輯和效率，Rohit 拋出了經典的 LeetCode 難題：“尋找兩個正序數組的中位數”，并要求時間復雜度為 O(log(m+n))”。

提示詞如下：

Given two sorted arrays nums1 and nums2 of size m and n respectively, return the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).

GPT-5：

耗時：約 13 秒
Tokens：8,253

GPT-5 幾乎沒有任何廢話，13 秒內給出了一個干凈利落、完全正確的二分查找解法。代碼優雅，效率拉滿。

Claude Opus 4.1：

耗時：約 34 秒
Tokens：78,920 (接近 GPT-5 的 10 倍！)

Opus 4.1 則完全是另一種畫風。它不僅給出了答案，還附上了一篇“小論文”：詳細的推理步驟、全面的代碼注釋，甚至內置了測試用例，生怕你學不會。雖然算法核心是一樣的，但它的輸出附帶了極高的“教育價值”。

想快速要答案，找 GPT-5；想學習解題思路，Opus 4.1 是你最好的老師。

03 ML 復雜任務

最后一個挑戰是構建一個完整的機器學習的 pipeline，預測客戶流失。

然而，在見識了 Opus 4.1 在第一輪中驚人的 token 消耗后，Rohit 出于對錢包的尊重，明智地讓它“輪休”了。這一局，只有 GPT-5 單挑。

提示詞如下：

Build a complete ML pipeline for predicting customer churn, including: Data preprocessing and cleaning Feature engineering Model selection and training Evaluation and metrics Explain the reasoning behind each step in detail

結果顯示，GPT-5 完全能勝任這種復雜的端到端任務。從數據預處理、特征工程，到多模型訓練（邏輯回歸、隨機森林、XGBoost），再到使用 SMOTE 處理數據不平衡問題和全面的效果評估，整個流程一氣呵成，代碼扎實可靠。

耗時：約 4-5 分鐘
Tokens：約 86,850

04 成本對決：真金白銀的較量

效果看完了，那我們來算算賬。畢竟，這才可能是最能影響開發者選擇的因素。

GPT-5 (Thinking 模式)-完成三項測試任務
- Web 應用：~$2.58
- 算法：~$0.03
- ML 流水線：~$0.88
- 總計：約 $3.50
Opus 4.1 (Thinking + Max 模式)-僅完成兩項測試任務
- Web 應用：~$7.15
- 算法：~$0.43
- 總計：$7.58

結論一目了然：Opus 4.1 的使用成本是 GPT-5 的兩倍以上。

05 評測結論

GPT-5 的優勢

算法任務中 token 使用少、響應快，效率極高。
更適合日常開發，尤其是快速迭代與原型驗證。
整體 token 成本大幅低于 Opus?4.1。

Claude Opus 4.1 的優勢：

提供清晰的、一步步解釋的代碼邏輯，對學習過程友好。
在視覺 fidelity（設計還原度）方面表現出色，非常貼近 Figma 原稿。
適合對界面精度要求高的場景。

所以，如果你是日常開發，優先使用 GPT?5，性能與成本兼顧。如果界面還原要求高的設計任務，可選擇 Claude Opus?4.1，提升最終效果，但需預算充足。

推薦組合策略：先用 GPT?5 打好基礎，然后在關鍵界面環節，用 Opus?4.1 打磨細節，實現效率與精度的平衡。

參考文獻
https://composio.dev/blog/openai-gpt-5-vs-claude-opus-4-1-a-coding-comparison

作者長期關注 AI 產業與學術，歡迎對這些方向感興趣的朋友添加微信Q1yezi，共同交流行業動態與技術趨勢！

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節省開支30%以上！

掃碼了解詳情?

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.