K2 Thinking 前情回顧
大家好,我是 Ai 學習的老章
Kimi K2 Thinking 我已經介紹過很多
K2 Thinking 是迄今最大的開放權重模型之一,也是 K2 模型家族的首個推理模型,總參數量 1T,激活 32B。
![]()
最近看了一些市面上比較權威的測評結果,可以更全面的看看 K2 Thinking 的水平,看是否真就到了開源新王水平。
![]()
聯(lián)合創(chuàng)始人兼首席執(zhí)行官 @HuggingFace Artificial Analysis——智能水平逼近閉源大模型
Artificial Analysis 用官方 API 做了一系列測試
![]()
結論:開源大模型在智能水平已逼近閉源模型
![]()
Kimi K2 Thinking 在 Artificial Analysis Intelligence Index 中得分 67,創(chuàng)下開放權重模型最高分。這使其明顯領先于所有其他開源權重模型,包括近期發(fā)布的 MiniMax-M2 和 DeepSeek-V3.2-Exp,在專有模型中也僅次于 GPT-5。
人工智能分析指數 v3.0 包含 10 項評估:MMLU-Pro、GPQA Diamond、人類終極考試、LiveCodeBench、SciCode、2025 年美國數學邀請賽、IFBench、AA-LCR、Terminal-Bench Hard、2-Bench Telecom
具體得分如下:
![]()
? 開源權重代碼模型第一,但仍落后閉源模型:K2 Thinking 在任何代碼評測中均未奪冠——Terminal-Bench Hard 第 6、SciCode 第 7、LiveCodeBench 第 2。若僅對比開源權重模型,它在三項評測中均排名第一或并列第一,因此在 Artificial Analysis Coding Index 中超越此前的開源權重榜首 DeepSeek V3.2
? 開放權重在 Humanity’s Last Exam 上的最大飛躍:K2 Thinking 的最強成績之一是在 Humanity’s Last Exam 上取得 22.3% 的得分(無工具),創(chuàng)下開放權重模型歷史新高,僅次于 GPT-5 與 Grok 4
? 強勁的代理性能:Kimi K2 Thinking 在代理場景中表現尤為突出,在 Artificial Analysis Agentic Index 中位列第 2,僅次于 GPT-5。這主要得益于 K2 Thinking 在 2-Bench Telecom(一個讓模型充當客服代理的代理工具使用基準)中取得 93% 的成績,這是 Artificial Analysis 獨立測得的最高分。在需要長期規(guī)劃的代理場景下,Kimi K2 Instruct 的工具使用能力本就出色,而新的 Thinking 版本顯然又實現了顯著提升
但是 Kimi K2 Thinking 缺點也很明顯——太耗 Token 了,它在 Artificial Analysis Intelligence Index 評估中使用了史無前例的 1.4 億 token,約為 DeepSeek V3.2 的 2.5 倍、GPT-5 的 2 倍。
![]()
好在定價比閉源模型便宜不少,但 Turbo 模式很貴:
按 MoonShot 官方 API 定價,整體運行Intelligence Index 的成本低于主流前沿模型。Moonshot 還提供更快的 turbo API,此模式下運行Intelligence Index 的成本僅次于 Grok 4,成為第二昂貴的模型。
![]()
第二個缺點就是它的上下文窗口了,最大 256K,一眾大佬面前還排不上號。。。
![]()
最后就是生成速度了,與平均水平相比,Kimi K2 Thinking 的速度較慢,每秒 80 Tokens 的樣子。好在延遲還行,接收第一個 Token(TTFT)僅需 0.75 秒。
![]()
IUMB——領先所有開、閉源模型
IUMB(Introductory Undergraduate Mathematics Benchmark)是一個用于評估模型在解決本科數學問題上的表現的基準。它旨在較為全面地體現普通本科院校數學專業(yè)大一和大二水平的數學能力。
目前 K2 Thinking 在這個榜當上都可以碾壓開、閉源所有模型了
![]()
https://pellaml.github.io/iumb/
即便如此,得分也僅 54,大模型搞本科數學通通不及格
![]()
PMPP-Eval ——最優(yōu)開源模型
PMPP-Eval 是一個以編碼為重點的評估基準,用于評估大型語言模型的性能。它專門在“編碼子集”上對模型進行評估,并根據模型在編程任務(如與 CUDA 相關的任務)中的表現對其進行排名。
根據 cuda 任務的結果,K2-Thinking 現在是可用的最優(yōu)開源模型。
![]()
個人用戶的測評——褒貶不一
BinduReddy 測評:Kimi-K2 在代理編碼方面非常出色,但整體上仍落后于 DeepSeek Kimi-K2 是不斷增長的優(yōu)秀開源模型列表中的又一個優(yōu)秀模型。 - 與 GLM 4.6 一樣,在代理編碼方面表現最佳 - DeepSeek 3.2 是世界上最好的開源模型
但是他使用的非官方 API,其實其他網友也對他的測試結果表示過質疑
![]()
Kimi 回應
Kimi 官方也注意到,不同提供商的基準結果存在差異——部分第三方端點出現顯著準確率下降(例如超過 20 個百分點),這對 LiveBench 等重推理任務的得分產生負面影響。
然后 Kimi 官方給出了建議
使用我們的官方 API 端點 kimi-k2-thinking-turbo
啟用 stream = True
設置 temperature = 1.0
建議的 max_token:推理 128k | 編碼 256k | 其他 ≥64k
在腳本中添加重試邏輯
Kimi 也給出完整的基準測試設置指南, https://platform.moonshot.ai/docs/guide/benchmark-best-practice
最后總結:Kimi K2 Thinking 綜合實力很強,在多個權威測評中展現了逼近甚至超越閉源模型的潛力,暫居開源新王的寶座。但諸多基準測試、上下文窗口和生成速度與業(yè)界頂級大模型相比,還有差距。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.