網易首頁 > 網易號 > 正文申請入駐

Kimi-K2-Thinking 開源大模型新王，權威測試結果公布

2025-11-11 18:30:39　來源: 機器學習與Python社區(qū)

北京舉報

分享至

K2 Thinking 前情回顧

大家好，我是 Ai 學習的老章

Kimi K2 Thinking 我已經介紹過很多

K2 Thinking 是迄今最大的開放權重模型之一，也是 K2 模型家族的首個推理模型，總參數量 1T，激活 32B。

最近看了一些市面上比較權威的測評結果，可以更全面的看看 K2 Thinking 的水平，看是否真就到了開源新王水平。

聯(lián)合創(chuàng)始人兼首席執(zhí)行官 @HuggingFace Artificial Analysis——智能水平逼近閉源大模型

Artificial Analysis 用官方 API 做了一系列測試

結論：開源大模型在智能水平已逼近閉源模型

Kimi K2 Thinking 在 Artificial Analysis Intelligence Index 中得分 67，創(chuàng)下開放權重模型最高分。這使其明顯領先于所有其他開源權重模型，包括近期發(fā)布的 MiniMax-M2 和 DeepSeek-V3.2-Exp，在專有模型中也僅次于 GPT-5。

人工智能分析指數 v3.0 包含 10 項評估：MMLU-Pro、GPQA Diamond、人類終極考試、LiveCodeBench、SciCode、2025 年美國數學邀請賽、IFBench、AA-LCR、Terminal-Bench Hard、2-Bench Telecom

具體得分如下：

? 開源權重代碼模型第一，但仍落后閉源模型：K2 Thinking 在任何代碼評測中均未奪冠——Terminal-Bench Hard 第 6、SciCode 第 7、LiveCodeBench 第 2。若僅對比開源權重模型，它在三項評測中均排名第一或并列第一，因此在 Artificial Analysis Coding Index 中超越此前的開源權重榜首 DeepSeek V3.2

? 開放權重在 Humanity’s Last Exam 上的最大飛躍：K2 Thinking 的最強成績之一是在 Humanity’s Last Exam 上取得 22.3% 的得分（無工具），創(chuàng)下開放權重模型歷史新高，僅次于 GPT-5 與 Grok 4

? 強勁的代理性能：Kimi K2 Thinking 在代理場景中表現尤為突出，在 Artificial Analysis Agentic Index 中位列第 2，僅次于 GPT-5。這主要得益于 K2 Thinking 在 2-Bench Telecom（一個讓模型充當客服代理的代理工具使用基準）中取得 93% 的成績，這是 Artificial Analysis 獨立測得的最高分。在需要長期規(guī)劃的代理場景下，Kimi K2 Instruct 的工具使用能力本就出色，而新的 Thinking 版本顯然又實現了顯著提升

但是 Kimi K2 Thinking 缺點也很明顯——太耗 Token 了，它在 Artificial Analysis Intelligence Index 評估中使用了史無前例的 1.4 億 token，約為 DeepSeek V3.2 的 2.5 倍、GPT-5 的 2 倍。

好在定價比閉源模型便宜不少，但 Turbo 模式很貴：

按 MoonShot 官方 API 定價，整體運行Intelligence Index 的成本低于主流前沿模型。Moonshot 還提供更快的 turbo API，此模式下運行Intelligence Index 的成本僅次于 Grok 4，成為第二昂貴的模型。

第二個缺點就是它的上下文窗口了，最大 256K，一眾大佬面前還排不上號。。。

最后就是生成速度了，與平均水平相比，Kimi K2 Thinking 的速度較慢，每秒 80 Tokens 的樣子。好在延遲還行，接收第一個 Token（TTFT）僅需 0.75 秒。

IUMB——領先所有開、閉源模型

IUMB（Introductory Undergraduate Mathematics Benchmark）是一個用于評估模型在解決本科數學問題上的表現的基準。它旨在較為全面地體現普通本科院校數學專業(yè)大一和大二水平的數學能力。

目前 K2 Thinking 在這個榜當上都可以碾壓開、閉源所有模型了

https://pellaml.github.io/iumb/

即便如此，得分也僅 54，大模型搞本科數學通通不及格

PMPP-Eval ——最優(yōu)開源模型

PMPP-Eval 是一個以編碼為重點的評估基準，用于評估大型語言模型的性能。它專門在“編碼子集”上對模型進行評估，并根據模型在編程任務（如與 CUDA 相關的任務）中的表現對其進行排名。

根據 cuda 任務的結果，K2-Thinking 現在是可用的最優(yōu)開源模型。

個人用戶的測評——褒貶不一BinduReddy 測評：Kimi-K2 在代理編碼方面非常出色，但整體上仍落后于 DeepSeek Kimi-K2 是不斷增長的優(yōu)秀開源模型列表中的又一個優(yōu)秀模型。 - 與 GLM 4.6 一樣，在代理編碼方面表現最佳 - DeepSeek 3.2 是世界上最好的開源模型

但是他使用的非官方 API，其實其他網友也對他的測試結果表示過質疑

Kimi 回應

Kimi 官方也注意到，不同提供商的基準結果存在差異——部分第三方端點出現顯著準確率下降（例如超過 20 個百分點），這對 LiveBench 等重推理任務的得分產生負面影響。

然后 Kimi 官方給出了建議

使用我們的官方 API 端點 kimi-k2-thinking-turbo
啟用 stream = True
設置 temperature = 1.0
建議的 max_token：推理 128k | 編碼 256k | 其他 ≥64k
在腳本中添加重試邏輯

Kimi 也給出完整的基準測試設置指南， https://platform.moonshot.ai/docs/guide/benchmark-best-practice

最后總結：Kimi K2 Thinking 綜合實力很強，在多個權威測評中展現了逼近甚至超越閉源模型的潛力，暫居開源新王的寶座。但諸多基準測試、上下文窗口和生成速度與業(yè)界頂級大模型相比，還有差距。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.